消息首页搜索举报

Python数据科学手册

新华集团仓库直发

53.68 4.9折 109 全新

库存52件

浙江嘉兴

认证卖家担保交易快速发货售后保障

作者[美]杰克·万托布拉斯（Jake VanderPlas）著；陶俊杰、陈小莉译

出版社人民邮电出版社

出版时间2018-02

版次1

装帧平装

货号1201651888

上书时间2023-12-15

安安图书专营店

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 18小时
好评率暂无

最新上架

曲律注释（修订本） ¥42.40

第二次世界大战回忆录(1-12)丘吉尔回忆录赠世界经典战役+一战战史+二战战史赠书3册 (英)温斯顿·丘吉尔 9787555200789 ¥279.44

浏阳历史文化丛书:浏阳遗珍 ¥138.66

聚焦一带一路倡议：以国际政治经济学为视角 ¥128.00

构造地质学(第2版) (挪威)哈康·弗森 9787518344116 ¥231.98

空间多媒体艺术专题创作/国美金课 ¥56.36

国际大奖小说·分级阅读一星(全21册) (奥)涅斯特林格 9787530772096 ¥240.20

两罍轩印考漫存（一函四册）/中国珍稀印谱原典大系 ¥1077.89

毛姆随笔集（两册） ¥84.79

商品详情

品相描述：全新

商品描述: 作者简介
Jake VanderPlas是Python科学栈的深度用户和开发人员，目前是华盛顿大学eScience学院物理科学研究院院长，研究方向为天文学。同时，他还为很多领域的科学家提供建议和咨询。

目录
译者序xiii
前言xv
第1章IPython：超越Python1
1.1shell还是Notebook1
1.1.1启动IPythonshell2
1.1.2启动JupyterNotebook2
1.2IPython的帮助和文档3
1.2.1用符号获取文档3
1.2.2通过符号获取源代码4
1.2.3用Tab补全的方式探索模块5
1.3IPythonshell中的快捷键7
1.3.1导航快捷键7
1.3.2文本输入快捷键7
1.3.3命令历史快捷键8
1.3.4其他快捷键9
1.4IPython魔法命令9
1.4.1粘贴代码块：%paste和%cpaste9
1.4.2执行外部代码：%run10
1.4.3计算代码运行时间：%timeit11
1.4.4魔法函数的帮助：、%magic和%lsmagic11
1.5输入和输出历史12
1.5.1IPython的输入和输出对象12
1.5.2下划线快捷键和以前的输出13
1.5.3禁止输出13
1.5.4相关的魔法命令13
1.6IPython和shell命令14
1.6.1shell快速入门14
1.6.2IPython中的shell命令15
1.6.3在shell中传入或传出值15
1.7与shell相关的魔法命令16
1.8错误和调试17
1.8.1控制异常：%xmode17
1.8.2调试：当阅读轨迹追溯不足以解决问题时19
1.9代码的分析和计时21
1.9.1代码段计时：%timeit和%time22
1.9.2分析整个脚本：%prun23
1.9.3用%lprun进行逐行分析24
1.9.4用%memit和%mprun进行内存分析25
1.10IPython参考资料26
1.10.1网络资源26
1.10.2相关图书27
第2章NumPy入门28
2.1理解Python中的数据类型29
2.1.1Python整型不仅仅是一个整型30
2.1.2Python列表不仅仅是一个列表31
2.1.3Python中的固定类型数组32
2.1.4从Python列表创建数组32
2.1.5从头创建数组33
2.1.6NumPy标准数据类型34
2.2NumPy数组基础35
2.2.1NumPy数组的属性36
2.2.2数组索引：获取单个元素37
2.2.3数组切片：获取子数组38
2.2.4数组的变形41
2.2.5数组拼接和分裂42
2.3NumPy数组的计算：通用函数44
2.3.1缓慢的循环44
2.3.2通用函数介绍45
2.3.3探索NumPy的通用函数46
2.3.4通用函数特性49
2.3.5通用函数：更多的信息51
2.4聚合：*小值、*大值和其他值51
2.4.1数组值求和51
2.4.2*小值和*大值52
2.4.3示例：美国总统的身高是多少54
2.5数组的计算：广播55
2.5.1广播的介绍55
2.5.2广播的规则57
2.5.3广播的实际应用60
2.6比较、掩码和布尔逻辑61
2.6.1示例：统计下雨天数61
2.6.2和通用函数类似的比较操作62
2.6.3操作布尔数组64
2.6.4将布尔数组作为掩码66
2.7花哨的索引69
2.7.1探索花哨的索引69
2.7.2组合索引70
2.7.3示例：选择随机点71
2.7.4用花哨的索引修改值72
2.7.5示例：数据区间划分73
2.8数组的排序75
2.8.1NumPy中的快速排序：np.sort和np.argsort76
2.8.2部分排序：分隔77
2.8.3示例：K个*近邻78
2.9结构化数据：NumPy的结构化数组81
2.9.1生成结构化数组83
2.9.2更高级的复合类型84
2.9.3记录数组：结构化数组的扭转84
2.9.4关于Pandas85
第3章Pandas数据处理86
3.1安装并使用Pandas86
3.2Pandas对象简介87
3.2.1Pandas的Series对象87
3.2.2Pandas的DataFrame对象90
3.2.3Pandas的Index对象93
3.3数据取值与选择95
3.3.1Series数据选择方法95
3.3.2DataFrame数据选择方法98
3.4Pandas数值运算方法102
3.4.1通用函数：保留索引102
3.4.2通用函数：索引对齐103
3.4.3通用函数：DataFrame与Series的运算105
3.5处理缺失值106
3.5.1选择处理缺失值的方法106
3.5.2Pandas的缺失值107
3.5.3处理缺失值110
3.6层级索引113
3.6.1多级索引Series113
3.6.2多级索引的创建方法116
3.6.3多级索引的取值与切片119
3.6.4多级索引行列转换121
3.6.5多级索引的数据累计方法124
3.7合并数据集：Concat与Append操作125
3.7.1知识回顾：NumPy数组的合并126
3.7.2通过pd.concat实现简易合并126
3.8合并数据集：合并与连接129
3.8.1关系代数129
3.8.2数据连接的类型130
3.8.3设置数据合并的键132
3.8.4设置数据连接的集合操作规则134
3.8.5重复列名：suffixes参数135
3.8.6案例：美国各州的统计数据136
3.9累计与分组140
3.9.1行星数据140
3.9.2Pandas的简单累计功能141
3.9.3GroupBy：分割、应用和组合142
3.10数据透视表150
3.10.1演示数据透视表150
3.10.2手工制作数据透视表151
3.10.3数据透视表语法151
3.10.4案例：美国人的生日153
3.11向量化字符串操作157
3.11.1Pandas字符串操作简介157
3.11.2Pandas字符串方法列表159
3.11.3案例：食谱数据库163
3.12处理时间序列166
3.12.1Python的日期与时间工具166
3.12.2Pandas时间序列：用时间作索引169
3.12.3Pandas时间序列数据结构170
3.12.4时间频率与偏移量172
3.12.5重新取样、迁移和窗口173
3.12.6更多学习资料178
3.12.7案例：美国西雅图自行车统计数据的可视化179
3.13高性能Pandas：eval()与query()184
3.13.1query()与eval()的设计动机：复合代数式184
3.13.2用pandas.eval()实现高性能运算185
3.13.3用DataFrame.eval()实现列间运算187
3.13.4DataFrame.query()方法188
3.13.5性能决定使用时机189
3.14参考资料189
第4章Matplotlib数据可视化191
4.1Matplotlib常用技巧192
4.1.1导入Matplotlib192
4.1.2设置绘图样式192
4.1.3用不用show()？如何显示图形192
4.1.4将图形保存为文件194
4.2两种画图接口195
4.2.1MATLAB风格接口195
4.2.2面向对象接口196
4.3简易线形图197
4.3.1调整图形：线条的颜色与风格199
4.3.2调整图形：坐标轴上下限200
4.3.3设置图形标签203
4.4简易散点图204
4.4.1用plt.plot画散点图205
4.4.2用plt.scatter画散点图206
4.4.3plot与scatter：效率对比208
4.5可视化异常处理208
4.5.1基本误差线209
4.5.2连续误差210
4.6密度图与等高线图211
4.7频次直方图、数据区间划分和分布密度215
4.8配置图例219
4.8.1选择图例显示的元素221
4.8.2在图例中显示不同尺寸的点222
4.8.3同时显示多个图例223
4.9配置颜色条224
4.9.1配置颜色条224
4.9.2案例：手写数字228
4.10多子图230
4.10.1plt.axes：手动创建子图230
4.10.2plt.subplot：简易网格子图231
4.10.3plt.subplots：用一行代码创建网格233
4.10.4plt.GridSpec：实现更复杂的排列方式234
4.11文字与注释235
4.11.1案例：节假日对美国出生率的影响236
4.11.2坐标变换与文字位置237
4.11.3箭头与注释239
4.12自定义坐标轴刻度241
4.12.1主要刻度与次要刻度242
4.12.2隐藏刻度与标签243
4.12.3增减刻度数量244
4.12.4花哨的刻度格式245
4.12.5格式生成器与定位器小结247
4.13Matplotlib自定义：配置文件与样式表248
4.13.1手动配置图形248
4.13.2修改默认配置：rcParams249
4.13.3样式表251
4.14用Matplotlib画三维图255
4.14.1三维数据点与线256
4.14.2三维等高线图256
4.14.3线框图和曲面图258
4.14.4曲面三角剖分259
4.15用Basemap可视化地理数据261
4.15.1地图投影263
4.15.2画一个地图背景267
4.15.3在地图上画数据269
4.15.4案例：美国加州城市数据270
4.15.5案例：地表温度数据271
4.16用Seaborn做数据可视化273
4.16.1Seaborn与Matplotlib274
4.16.2Seaborn图形介绍275
4.16.3案例：探索马拉松比赛成绩数据283
4.17参考资料290
4.17.1Matplotlib资源290
4.17.2其他Python画图程序库290
第5章机器学习291
5.1什么是机器学习291
5.1.1机器学习的分类292
5.1.2机器学习应用的定性示例292
5.1.3小结299
5.2Scikit-Learn简介300
5.2.1Scikit-Learn的数据表示300
5.2.2Scikit-Learn的评估器API302
5.2.3应用：手写数字探索309
5.2.4小结313
5.3超参数与模型验证313
5.3.1什么是模型验证314
5.3.2选择模型317
5.3.3学习曲线322
5.3.4验证实践：网格搜索326
5.3.5小结327
5.4特征工程327
5.4.1分类特征327
5.4.2文本特征329
5.4.3图像特征330
5.4.4衍生特征330
5.4.5缺失值填充332
5.4.6特征管道332
5.5专题：朴素贝叶斯分类333
5.5.1贝叶斯分类333
5.5.2高斯朴素贝叶斯334
5.5.3多项式朴素贝叶斯336
5.5.4朴素贝叶斯的应用场景339
5.6专题：线性回归340
5.6.1简单线性回归340
5.6.2基函数回归342
5.6.3正则化346
5.6.4案例：预测自行车流量349
5.7专题：支持向量机353
5.7.1支持向量机的由来354
5.7.2支持向量机：边界*大化355
5.7.3案例：人脸识别363
5.7.4支持向量机总结366
5.8专题：决策树与随机森林367
5.8.1随机森林的诱因：决策树367
5.8.2评估器集成算法：随机森林371
5.8.3随机森林回归373
5.8.4案例：用随机森林识别手写数字374
5.8.5随机森林总结376
5.9专题：主成分分析376
5.9.1主成分分析简介377
5.9.2用PCA作噪音过滤383
5.9.3案例：特征脸385
5.9.4主成分分析总结387
5.10专题：流形学习388
5.10.1流形学习：“HELLO”388
5.10.2多维标度法（MDS）389
5.10.3将MDS用于流形学习391
5.10.4非线性嵌入：当MDS失败时393
5.10.5非线性流形：局部线性嵌入395
5.10.6关于流形方法的一些思考396
5.10.7示例：用Isomap处理人脸数据397
5.10.8示例：手写数字的可视化结构400
5.11专题：k-means聚类402
5.11.1k-means简介403
5.11.2k-means算法：期望*大化404
5.11.3案例409
5.12专题：高斯混合模型415
5.12.1高斯混合模型（GMM）为什么会出现：k-means算法
的缺陷415
5.12.2一般化E-M：高斯混合模型417
5.12.3将GMM用作密度估计421
5.12.4示例：用GMM生成新的数据425
5.13专题：核密度估计427
5.13.1KDE的由来：直方图428
5.13.2核密度估计的实际应用431
5.13.3示例：球形空间的KDE433
5.13.4示例：不是很朴素的贝叶斯436
5.14应用：人脸识别管道439
5.14.1HOG特征440
5.14.2HOG实战：简单人脸识别器441
5.14.3注意事项与改进方案445
5.15机器学习参考资料446
5.15.1Python中的机器学习446
5.15.2通用机器学习资源447
关于作者448
关于封面448

内容摘要
《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章，每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始，它们提供了数据科学家需要的计算环境；第 2章讲解能提供ndarray对象的NumPy，它可以用Python高效地存储和操作大型数组；第3章主要涉及提供DataFrame对象的Pandas，它可以用Python高效地存储和操作带标签的列式数据；第4章的主角是Matplotlib，它为Python提供了许多数据可视化功能；第5章以Scikit-Learn为主，这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。《Python数据科学手册》适合有编程背景，并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。

主编推荐
Python语言拥有大量可用于存储、操作和洞察数据的程序库，已然成为深受数据科学研究人员推崇的工具。本书以IPython、NumPy、Pandas、Matplotlib和Scikit-Learn这5个能完成数据科学大部分工作的基础工具为主，从实战角度出发，讲授如何清洗和可视化数据、如何用数据建立各种统计学或机器学习模型等常见数据科学任务，旨在让各领域与数据处理相关的工作人员具备发现问题、解决问题的能力。
·IPython和Jupyter:为使用Python提供计算环境
·NumPy：用ndarray实现高维数组的高效存储与操作
·Pandas：用DataFrame实现带标签列式数据的高效存储与操作
·Matplotlib：实现各种数据可视化
·Scikit-Learn：用高效整洁的Python实现重要的机器学习算法

图书标准信息

作者 [美]杰克·万托布拉斯（Jake VanderPlas）著；陶俊杰、陈小莉译
出版社人民邮电出版社
出版时间 2018-02
版次 1
ISBN 9787115475893
定价 109.00元
装帧平装
开本 16开
纸张胶版纸
页数 448页
正文语种简体中文
丛书图灵程序设计丛书

【内容简介】: 《Python数据科学手册》是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章，每章介绍一到两个Python数据科学中的重点工具包。首先从IPython和Jupyter开始，它们提供了数据科学家需要的计算环境；第 2章讲解能提供ndarray对象的NumPy，它可以用Python高效地存储和操作大型数组；第3章主要涉及提供DataFrame对象的Pandas，它可以用Python高效地存储和操作带标签的/列式数据；第4章的主角是Matplotlib，它为Python提供了许多数据可视化功能；第5章以Scikit-Learn为主，这个程序库为重要的机器学习算法提供了高效整洁的Python版实现。

《Python数据科学手册》适合有编程背景，并打算将开源Python工具用作分析、操作、可视化以及学习数据的数据科学研究人员。
【作者简介】: Jake VanderPlas是Python科学栈的深度用户和开发人员，目前是华盛顿大学eScience学院物理科学研究院院长，研究方向为天文学。同时，他还为很多领域的科学家提供建议和咨询。
【目录】: 译者序 xiii

前言 xv

第 1 章　IPython：超越Python 1

1．1　shell还是Notebook 1

1．1．1　启动IPython shell 2

1．1．2　启动Jupyter Notebook 2

1．2　IPython的帮助和文档 3

1．2．1　用符号获取文档 3

1．2．2　通过符号获取源代码 4

1．2．3　用Tab补全的方式探索模块 5

1．3　IPython shell中的快捷键 7

1．3．1　导航快捷键 7

1．3．2　文本输入快捷键 7

1．3．3　命令历史快捷键 8

1．3．4　其他快捷键 9

1．4　IPython魔法命令 9

1．4．1　粘贴代码块：%paste和%cpaste 9

1．4．2　执行外部代码：%run 10

1．4．3　计算代码运行时间：%timeit 11

1．4．4　魔法函数的帮助：、%magic 和%lsmagic 11

1．5　输入和输出历史 12

1．5．1　IPython的输入和输出对象 12

1．5．2　下划线快捷键和以前的输出 13

1．5．3　禁止输出 13

1．5．4　相关的魔法命令 13

1．6　IPython和shell命令 14

1．6．1　shell快速入门 14

1．6．2　IPython中的shell命令 15

1．6．3　在shell中传入或传出值 15

1．7　与shell相关的魔法命令 16

1．8　错误和调试 17

1．8．1　控制异常：%xmode 17

1．8．2　调试：当阅读轨迹追溯不足以解决问题时 19

1．9　代码的分析和计时 21

1．9．1　代码段计时：%timeit和%time 22

1．9．2　分析整个脚本：%prun 23

1．9．3　用%lprun进行逐行分析 24

1．9．4　用%memit和%mprun进行内存分析 25

1．10　IPython参考资料 26

1．10．1　网络资源 26

1．10．2　相关图书 27

第 2 章　NumPy入门 28

2．1　理解Python中的数据类型 29

2．1．1　Python整型不仅仅是一个整型 30

2．1．2　Python列表不仅仅是一个列表 31

2．1．3　Python中的固定类型数组 32

2．1．4　从Python列表创建数组 32

2．1．5　从头创建数组 33

2．1．6　NumPy标准数据类型 34

2．2　NumPy数组基础 35

2．2．1　NumPy数组的属性 36

2．2．2　数组索引：获取单个元素 37

2．2．3　数组切片：获取子数组 38

2．2．4　数组的变形 41

2．2．5　数组拼接和分裂 42

2．3　NumPy数组的计算：通用函数 44

2．3．1　缓慢的循环 44

2．3．2　通用函数介绍 45

2．3．3　探索NumPy的通用函数 46

2．3．4　通用函数特性 49

2．3．5　通用函数：更多的信息 51

2．4　聚合：*小值、*大值和其他值 51

2．4．1　数组值求和 51

2．4．2　*小值和*大值 52

2．4．3　示例：美国总统的身高是多少 54

2．5　数组的计算：广播 55

2．5．1　广播的介绍 55

2．5．2　广播的规则 57

2．5．3　广播的实际应用 60

2．6　比较、掩码和布尔逻辑 61

2．6．1　示例：统计下雨天数 61

2．6．2　和通用函数类似的比较操作 62

2．6．3　操作布尔数组 64

2．6．4　将布尔数组作为掩码 66

2．7　花哨的索引 69

2．7．1　探索花哨的索引 69

2．7．2　组合索引 70

2．7．3　示例：选择随机点 71

2．7．4　用花哨的索引修改值 72

2．7．5　示例：数据区间划分 73

2．8　数组的排序 75

2．8．1　NumPy中的快速排序：np．sort和np．argsort 76

2．8．2　部分排序：分隔 77

2．8．3　示例：K个*近邻 78

2．9　结构化数据：NumPy的结构化数组 81

2．9．1　生成结构化数组 83

2．9．2　更高级的复合类型 84

2．9．3　记录数组：结构化数组的扭转 84

2．9．4　关于Pandas 85

第3 章　Pandas数据处理 86

3．1　安装并使用Pandas 86

3．2　Pandas对象简介 87

3．2．1　Pandas的Series对象 87

3．2．2　Pandas的DataFrame对象 90

3．2．3　Pandas的Index对象 93

3．3　数据取值与选择 95

3．3．1　Series数据选择方法 95

3．3．2　DataFrame数据选择方法 98

3．4　Pandas数值运算方法 102

3．4．1　通用函数：保留索引 102

3．4．2　通用函数：索引对齐 103

3．4．3　通用函数：DataFrame与Series的运算 105

3．5　处理缺失值 106

3．5．1　选择处理缺失值的方法 106

3．5．2　Pandas的缺失值 107

3．5．3　处理缺失值 110

3．6　层级索引 113

3．6．1　多级索引Series 113

3．6．2　多级索引的创建方法 116

3．6．3　多级索引的取值与切片 119

3．6．4　多级索引行列转换 121

3．6．5　多级索引的数据累计方法 124

3．7　合并数据集：Concat与Append操作 125

3．7．1　知识回顾：NumPy数组的合并 126

3．7．2　通过pd．concat实现简易合并 126

3．8　合并数据集：合并与连接 129

3．8．1　关系代数 129

3．8．2　数据连接的类型 130

3．8．3　设置数据合并的键 132

3．8．4　设置数据连接的集合操作规则 134

3．8．5　重复列名：suffixes参数 135

3．8．6　案例：美国各州的统计数据 136

3．9　累计与分组 140

3．9．1　行星数据 140

3．9．2　Pandas的简单累计功能 141

3．9．3　GroupBy：分割、应用和组合 142

3．10　数据透视表 150

3．10．1　演示数据透视表 150

3．10．2　手工制作数据透视表 151

3．10．3　数据透视表语法 151

3．10．4　案例：美国人的生日 153

3．11　向量化字符串操作 157

3．11．1　Pandas字符串操作简介 157

3．11．2　Pandas字符串方法列表 159

3．11．3　案例：食谱数据库 163

3．12　处理时间序列 166

3．12．1　Python的日期与时间工具 166

3．12．2　Pandas时间序列：用时间作索引 169

3．12．3　Pandas时间序列数据结构 170

3．12．4　时间频率与偏移量 172

3．12．5　重新取样、迁移和窗口 173

3．12．6　更多学习资料 178

3．12．7　案例：美国西雅图自行车统计数据的可视化 179

3．13　高性能Pandas：eval()与query() 184

3．13．1　query()与eval()的设计动机：复合代数式 184

3．13．2　用pandas．eval()实现高性能运算 185

3．13．3　用DataFrame．eval()实现列间运算 187

3．13．4　DataFrame．query()方法 188

3．13．5　性能决定使用时机 189

3．14　参考资料 189

第4 章　Matplotlib数据可视化 191

4．1　Matplotlib常用技巧 192

4．1．1　导入Matplotlib 192

4．1．2　设置绘图样式 192

4．1．3　用不用show()？如何显示图形 192

4．1．4　将图形保存为文件 194

4．2　两种画图接口 195

4．2．1　MATLAB风格接口 195

4．2．2　面向对象接口 196

4．3　简易线形图 197

4．3．1　调整图形：线条的颜色与风格 199

4．3．2　调整图形：坐标轴上下限 200

4．3．3　设置图形标签 203

4．4　简易散点图 204

4．4．1　用plt．plot画散点图 205

4．4．2　用plt．scatter画散点图 206

4．4．3　plot与scatter：效率对比 208

4．5　可视化异常处理 208

4．5．1　基本误差线 209

4．5．2　连续误差 210

4．6　密度图与等高线图 211

4．7　频次直方图、数据区间划分和分布密度 215

4．8　配置图例 219

4．8．1　选择图例显示的元素 221

4．8．2　在图例中显示不同尺寸的点 222

4．8．3　同时显示多个图例 223

4．9　配置颜色条 224

4．9．1　配置颜色条 224

4．9．2　案例：手写数字 228

4．10　多子图 230

4．10．1　plt．axes：手动创建子图 230

4．10．2　plt．subplot：简易网格子图 231

4．10．3　plt．subplots：用一行代码创建网格 233

4．10．4　plt．GridSpec：实现更复杂的排列方式 234

4．11　文字与注释 235

4．11．1　案例：节假日对美国出生率的影响 236

4．11．2　坐标变换与文字位置 237

4．11．3　箭头与注释 239

4．12　自定义坐标轴刻度 241

4．12．1　主要刻度与次要刻度 242

4．12．2　隐藏刻度与标签 243

4．12．3　增减刻度数量 244

4．12．4　花哨的刻度格式 245

4．12．5　格式生成器与定位器小结 247

4．13　Matplotlib自定义：配置文件与样式表 248

4．13．1　手动配置图形 248

4．13．2　修改默认配置：rcParams 249

4．13．3　样式表 251

4．14　用Matplotlib画三维图 255

4．14．1　三维数据点与线 256

4．14．2　三维等高线图 256

4．14．3　线框图和曲面图 258

4．14．4　曲面三角剖分 259

4．15　用Basemap可视化地理数据 261

4．15．1　地图投影 263

4．15．2　画一个地图背景 267

4．15．3　在地图上画数据 269

4．15．4　案例：美国加州城市数据 270

4．15．5　案例：地表温度数据 271

4．16　用Seaborn做数据可视化 273

4．16．1　Seaborn与Matplotlib 274

4．16．2　Seaborn图形介绍 275

4．16．3　案例：探索马拉松比赛成绩数据 283

4．17　参考资料 290

4．17．1　Matplotlib资源 290

4．17．2　其他Python画图程序库 290

第5 章　机器学习 291

5．1　什么是机器学习 291

5．1．1　机器学习的分类 292

5．1．2　机器学习应用的定性示例 292

5．1．3　小结 299

5．2　Scikit-Learn简介 300

5．2．1　Scikit-Learn的数据表示 300

5．2．2　Scikit-Learn的评估器API 302

5．2．3　应用：手写数字探索 309

5．2．4　小结 313

5．3　超参数与模型验证 313

5．3．1　什么是模型验证 314

5．3．2　选择模型 317

5．3．3　学习曲线 322

5．3．4　验证实践：网格搜索 326

5．3．5　小结 327

5．4　特征工程 327

5．4．1　分类特征 327

5．4．2　文本特征 329

5．4．3　图像特征 330

5．4．4　衍生特征 330

5．4．5　缺失值填充 332

5．4．6　特征管道 332

5．5　专题：朴素贝叶斯分类 333

5．5．1　贝叶斯分类 333

5．5．2　高斯朴素贝叶斯 334

5．5．3　多项式朴素贝叶斯 336

5．5．4　朴素贝叶斯的应用场景 339

5．6　专题：线性回归 340

5．6．1　简单线性回归 340

5．6．2　基函数回归 342

5．6．3　正则化 346

5．6．4　案例：预测自行车流量 349

5．7　专题：支持向量机 353

5．7．1　支持向量机的由来 354

5．7．2　支持向量机：边界*大化 355

5．7．3　案例：人脸识别 363

5．7．4　支持向量机总结 366

5．8　专题：决策树与随机森林 367

5．8．1　随机森林的诱因：决策树 367

5．8．2　评估器集成算法：随机森林 371

5．8．3　随机森林回归 373

5．8．4　案例：用随机森林识别手写数字 374

5．8．5　随机森林总结 376

5．9　专题：主成分分析 376

5．9．1　主成分分析简介 377

5．9．2　用PCA作噪音过滤 383

5．9．3　案例：特征脸 385

5．9．4　主成分分析总结 387

5．10　专题：流形学习 388

5．10．1　流形学习：“HELLO” 388

5．10．2　多维标度法（MDS） 389

5．10．3　将MDS用于流形学习 391

5．10．4　非线性嵌入：当MDS失败时 393

5．10．5　非线性流形：局部线性嵌入 395

5．10．6　关于流形方法的一些思考 396

5．10．7　示例：用Isomap 处理人脸数据 397

5．10．8　示例：手写数字的可视化结构 400

5．11　专题：k-means聚类 402

5．11．1　k-means简介 403

5．11．2　k-means算法：期望*大化 404

5．11．3　案例 409

5．12　专题：高斯混合模型 415

5．12．1　高斯混合模型（GMM）为什么会出现：k-means算法

的缺陷 415

5．12．2　一般化E-M：高斯混合模型 417

5．12．3　将GMM用作密度估计 421

5．12．4　示例：用GMM生成新的数据 425

5．13　专题：核密度估计 427

5．13．1　KDE的由来：直方图 428

5．13．2　核密度估计的实际应用 431

5．13．3　示例：球形空间的KDE 433

5．13．4　示例：不是很朴素的贝叶斯 436

5．14　应用：人脸识别管道 439

5．14．1　HOG特征 440

5．14．2　HOG实战：简单人脸识别器 441

5．14．3　注意事项与改进方案 445

5．15　机器学习参考资料 446

5．15．1　Python中的机器学习 446

5．15．2　通用机器学习资源 447

关于作者 448

关于封面 448

点击展开点击收起

— 没有更多了 —