特征工程的艺术 通用技巧与实用案例
全新正版 极速发货
¥
54.91
6.1折
¥
89.8
全新
库存8件
作者(加)巴勃罗·迪布
出版社人民邮电出版社
ISBN9787115588418
出版时间2022-05
装帧平装
开本16开
定价89.8元
货号1202641377
上书时间2024-11-21
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
巴勃罗·迪布(Pablo Duboue)
NLP学者。2005年博士毕业于美国哥伦比亚大学,师从ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA团队成员。2016年创办NLP技术公司Textualization。他有丰富的教学经验,是世界多所大学的访问教授。
目录
第一部分基础知识
第1章简介
1.1特征工程
1.2模型评价
1.2.1度量
1.2.2交叉验证
1.2.3士拟合
1.2.4维数灾难
1.3周期
1.3.1ML周期
1.3.2特征工程周期
1.4分析
1.4.1幂索性数据分析
1.4.2差分析
1.5其他过程
1.5.1域建模
1.5.2特征构建
1.6讨论
1.7扩展学习
第2章特征组合:归一化、离散化和异常值
2.1归一化特征
2.1.1标准化和去相关性
2.1.2平滑
2.1.3特征加权
2.2离散化和分箱
2.2.1无监督离散化
2.2.2督离散化
2.3描述性特征
2.3.1直方图
2.3.2其他描述性特征
2.4处理异常值
2.5不错技术
2.6扩展学习
第3章特征扩展:可计算特征、填充与核技巧
3.1可计算特征
3.2填充
3.3复杂特征分解
3.4核操作特征扩展
3.5扩展学习
第4章特征缩减:特征选择、降维和嵌入
4.1特征选择
4.1.1度量
4.1.2组成特征集:搜索与筛选
4.1.3不错技术
4.2正则化与嵌入式特征选择
4.2.1L2正则化:岭回归
4.2.2L1正则化:LASSO
4.2.3其他使用嵌入式特征选择的算法
4.3数据降维
4.3.1特征哈希
4.3.2随机投影
4.3.3奇异值分解
4.3.4隐狄利克雷分配
4.3.5聚类
4.3.6其他数据降维技术
4.3.7嵌入
4.4扩展学习
第5章不错主题:可变长度数据与自动特征工程
5.1可变长度特征向量
5.1.1集合
5.1.2列表
5.1.3树
5.1.4图
5.1.5时间序列
5.2基于实例的特征工程
5.3深度学习与特征工程
5.4自动特征工程
5.4.1特征学习
5.4.2无监督特征工程
5.5扩展学习
第二部分案例研究
第6章图数据
6.0本章概述
6.1WikiCities数据集
6.2探索性数据分析
6.3个特征集
6.4第二个特征集
6.5最终的特征集
6.6扩展学习
第7章时间戳数据
7.0本章概述
7.1WikiCities:历史特征
7.2时间延迟特征
7.2.1填充时间戳数据
7.2.2第一次特征化:填充二阶延迟数据
7.2.3误差分析
7.3滑动窗口
7.4第三次特征化:EMA
7.5使用历史数据进行扩展
7.5.1第四次特征化:扩展的数据
7.5.2讨磺
7.6时间序列
7.6.1WikiCountries数据集
7.6.2探索性数据分析
7.6.3第一次特征化:无TS特征
7.6.4第二次特征化:使用TS作为特征
7.6.5使用模型预测作为特征
7.6.6讨磺
7.7扩展学习
第8章文本数据
8.0本章概述
8.1WikiCities:文本
8.2探索性数据分析
8.3仅数值型记号
8.3.1词类型与记号
8.3.2分词:基础知识
8.3.3第一次特征化
8.4词袋
8.4.1分词
8.4.2第二次特征化
8.5停用词和形态学特征
8.5.1停用词
8.5.2分词:词干提取
8.5.3第三次特征化
8.6上下文特征
8.6.1二元词
8.6.2第四次特征化
8.7跳跃二元词与特征哈希
8.7.1跳跃二元词
8.7.2第五次特征化
8.8数据降维与嵌入
8.8.1嵌入
8.8.2特征加权:TF-IDF
8.8.3第六次特征化
8.9结束语
8.9.1内容扩展
8.9.2文本中的结构
8.10扩展学习
第9章图像数据
9.0本章概述
9.1WikiCities:卫星图像
9.2探索性数据分析
9.3像素即特征
9.3.1第一次特征化
9.3.2可计算特征:高斯模糊
9.3.3白化
9.3.4对变动的误差分析
9.4自动数据集扩展
9.4.1仿射变换
9.4.2第二次特征化
9.5描述性特征:直方图
9.6局部特征检测器:角点
9.6.1Harris角点检测
9.6.2第四次特征化
9.7数据降维:HOG
9.8结束语
9.9扩展学习
第10章其他领域:视频、GIS和偏好
10.1视频
10.1.1数据:屏幕录制
10.1.2关键帧检测
10.1.3目标跟踪:均值漂移
10.1.4扩展学习
10.2地理特征
10.3偏好
10.3.1数据:Linux核心代码提交
10.3.2填充偏好数据
10.3.3扩展学习
内容摘要
特征工程可以修改数据特征,更好地捕获问题本质,从而改进结果。这个过程既是一种艺术,也是技巧和诀窍的一种结合。本书是一本特征工程实用指南,主要探讨如何利用特征工程提升机器学习解决方案的性能。本书从特征工程的基本概念和技术开始介绍,建立了一种独特的跨领域方法,通过充分研究案例详细介绍了图数据、时间戳数据、文本数据和图像数据的处理方法,包括分箱、折外估计、特征选择、数据降维和可变长度数据编码等重要主题。
本书适合机器学习相关从业者和数据科学家阅读。
主编推荐
为改善机器学习模型的表现,你会花多少时间修改输入数据的特征?图灵奖得主Yoshua Bengio曾说:“好的输入特征是机器学习取得成功的基本条件。在产业化机器学习中,特征工程所占的工作量接近90%。”修改数据特征以更好地捕获问题的本质,这是机器学习的重中之重。
没有高深的领域知识能否进行高质量的特征工程?本书直面这一充满争议的话题,在不考虑领域知识的情况下,给出了特征工程的一些通用技巧。此外,本书还展示了丰富的案例,涵盖图数据、时间戳数据、文本数据和图像数据。你将在学习各种技巧和诀窍的过程中,逐渐领会特征工程的艺术。
媒体评论
业内佳评
巴勃罗·迪布是当之无愧的特征工程艺术大师。这本书涵盖特征工程领域的大量话题,适合不同水平的机器学习从业人员研读。
--J. William Murdock,IBM
这本书清晰阐释了复杂的概念,并从实际角度展示了这些概念如何应用于广泛的真实案例。
--Gavin Brown,英国曼彻斯特大学
这本书提供了一套特征工程技巧,并用精彩的案例说明了它们的适用性,适合高年级本科生和研究生在学习文本挖掘或多模态数据分析的课程之余参考。从事数据挖掘和文本分析工作的新手也会从中受益。
--Wlodek Zadrozny,美国北卡罗来纳大学
— 没有更多了 —
以下为对购买帮助不大的评价