Python机器学习——数据建模与分析(第2版)9787121459351
正版图书,可开发票,请放心购买。
¥
83.3
8.4折
¥
99
全新
仅1件
作者编者:薛薇|责编:秦淑灵
出版社电子工业
ISBN9787121459351
出版时间2023-07
装帧其他
开本其他
定价99元
货号31812800
上书时间2024-11-14
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
薛薇,工学硕士,经济学博士,中国人民大学应用统计学科研究中心副主任,中国人民大学统计学院副教授。主要研究领域:机器学习和文本挖掘、复杂网络建模等。关注统计和数据挖掘算法及软件应用。涉足企业客户终身价值测算,基于文本挖掘的热点事件主题提取和分类,金融、贸易等复杂网络动态建模等方面。主要代表性教材:《SPSS统计分析方法及应用》《R语言数据挖掘方法及应用》《R语言:大数据分析中的统计方法及应用》《SPSSModeler数据挖掘方法及应用》《数据科学概论――从概念到应用》《Python机器学习――数据建模与分析》等。
目录
目 录
第1章 机器学习概述1
1.1 机器学习的发展:人工智能中的机器学习1
1.1.1 符号主义人工智能2
1.1.2 基于机器学习的人工智能2
1.2 机器学习的核心:数据和数据建模4
1.2.1 机器学习的对象:数据集4
1.2.2 机器学习的任务:数据建模6
1.3 机器学习的典型应用11
1.3.1 机器学习的典型行业应用11
1.3.2 机器学习在客户细分中的应用12
1.3.3 机器学习在客户流失分析中的应用13
1.3.4 机器学习在营销响应分析中的应用14
1.3.5 机器学习在交叉销售中的应用15
1.3.6 机器学习在欺诈甄别中的应用16
本章总结16
本章习题16
第2章 Python机器学习基础17
2.1 Python:机器学习的首选工具17
2.2 Python的集成开发环境:Anaconda18
2.2.1 Anaconda的简介19
2.2.2 Anaconda Prompt的使用19
2.2.3 Spyder的使用20
2.2.4 Jupyter Notebook的使用22
2.3 Python第三方包的引用23
2.4 NumPy使用示例23
2.4.1 NumPy数组的创建和访问24
2.4.2 NumPy的计算功能26
2.5 Pandas使用示例28
2.5.1 Pandas的序列和索引28
2.5.2 Pandas的数据框29
2.5.3 Pandas的数据加工处理30
2.6 NumPy和Pandas的综合应用:空气质量监测数据的预处理和基本分析32
2.6.1 空气质量监测数据的预处理32
2.6.2 空气质量监测数据的基本分析34
2.7 Matplotlib的综合应用:空气质量监测数据的图形化展示37
2.7.1 AQI的时间序列变化特点37
2.7.2 AQI的分布特征及相关性分析38
本章总结40
本章相关函数列表40
本章习题47
第3章 数据预测与预测建模48
3.1 从线性回归模型说起49
3.1.1 线性回归模型的含义49
3.1.2 线性回归模型的几何理解50
3.1.3 线性回归模型的评价50
3.1.4 Python应用实践:PM2.5浓度预测51
3.2 认识线性分类模型56
3.2.1 线性分类模型的含义56
3.2.2 线性分类模型的几何理解58
3.2.3 线性分类模型的评价60
3.2.4 Python应用实践:空气质量等级预测62
3.3 从线性预测模型到非线性预测模型67
3.4 预测模型的参数估计68
3.4.1 损失函数与有监督学习68
3.4.2 参数搜索策略70
3.5 预测模型的选择72
3.5.1 泛化误差的估计72
3.5.2 Python模拟和启示:理解泛化误差75
3.5.3 预测模型过拟合问题78
3.5.4 模型选择:偏差和方差79
本章总结82
本章相关函数列表83
本章习题83
第4章 数据预测建模:贝叶斯分类器84
4.1 贝叶斯概率和贝叶斯法则84
4.1.1 贝叶斯概率84
4.1.2 贝叶斯法则85
4.2 朴素贝叶斯分类器85
4.2.1 从顾客行为分析角度看朴素贝叶斯分类器85
4.2.2 Python模拟和启示:认识朴素贝叶斯分类器的分类边界88
4.2.3 Python应用实践:空气质量等级预测91
4.3 朴素贝叶斯分类器在文本分类中的应用93
4.3.1 Python文本数据预处理:文本分词和量化计算94
4.3.2 Python文本描述性分析:词云图和文本相似性97
4.3.3 Python文本分析综合应用:裁判文书的要素提取99
4.4 贝叶斯参数估计简介*102
4.4.1 从科比投篮分析角度看贝叶斯参数估计的基本思想102
4.4.2 共轭先验分布103
4.4.3 Python应用实践:科比投篮命中率的研究106
本章总结108
本章相关函数列表108
本章习题109
第5章 数据预测建模:近邻分析110
5.1 近邻分析:K-近邻法110
5.1.1 距离:K-近邻法的近邻度量111
5.1.2 参数K:1-近邻法和K-近邻法112
5.2 回归预测中的K-近邻法113
5.2.1 Python模拟和启示:认识K-近邻回归线113
5.2.2 Python模拟和启示:认识K-近邻回归面115
5.3 分类预测中的K-近邻法117
5.3.1 基于1-近邻法和K-近邻法的分类117
5.3.2 Python模拟和启示:参数K和分类边界118
5.4 基于观测相似性的加权K-近邻法120
5.4.1 加权K-近邻法的权重121
5.4.2 Python模拟和启示:认识加权K-近邻分类边界123
5.5 K-近邻法的Python应用实践124
5.5.1 空气质量等级的预测124
5.5.2 国产电视剧大众评分的预测126
5.6 K-近邻法的适用性探讨*127
本章总结129
本章相关函数列表130
本章习题130
第6章 数据预测建模:决策树131
6.1 决策树的基本概念131
6.1.1 什么是决策树131
6.1.2 决策树的深层含义133
6.2 回归预测中的决策树134
6.2.1 决策树的回归面134
6.2.2 Python模拟和启示:树深度对回归面的影响135
6.3 分类预测中的决策树136
6.3.1 决策树的分类边界137
6.3.2 Python模拟和启示:树深度对分类边界的影响137
6.4 决策树的生长和剪枝139
6.4.1 决策树的生长140
6.4.2 决策树的剪枝141
6.5 经典决策树算法:CART142
6.5.1 CART的生长142
6.5.2 CART的后剪枝145
6.6 决策树的Python应用实践148
6.6.1 PM2.5浓度的预测148
6.6.2 空气质量等级的预测149
6.6.3 药物适用性研究151
6.7 决策树的高方差性*153
本章总结154
本章相关函数列表154
本章习题155
第7章 数据预测建模:集成学习156
7.1 集成学习概述156
7.1.1 高方差性问题的解决途径157
7.1.2 从弱模型到强模型的构建157
7.2 基于重抽样自举法的集成学习158
7.2.1 重抽样自举法158
7.2.2 袋装法的基本思想158
7.2.3 随机森林的基本思想160
7.2.4 Python应用实践:基于袋装法和随机森林预测PM2.5浓度162
7.3 从弱模型到强模型的构建:提升法165
7.3.1 提升法的基本思路165
7.3.2 Python模拟和启示:弱模型联合成为强模型166
7.3.3 分类预测中的提升法:AdaBoost.M1算法168
7.3.4 Python模拟和启示:认识AdaBoost.M1算法中高权重的样本观测171
7.3.5 回归预测中的提升法173
7.3.6 Python应用实践:基于AdaBoost预测PM2.5浓度174
7.3.7 提升法的推广算法*176
7.4 梯度提升决策树179
7.4.1 梯度提升算法179
7.4.2 梯度提升回归树183
7.4.3 Python模拟和启示:认识梯度提升回归树184
7.4.4 梯度提升分类树185
7.4.5 Python模拟和启示:认识梯度提升分类树186
7.5 XGBoost算法188
7.5.1 XGBoost算法的目标函数188
7.5.2 目标函数的近似表达189
7.5.3 决策树的求解190
7.5.4 Python应用实践:基于XGBoost算法预测空气质量等级191
本章总结194
本章相关函数列表194
本章习题195
第8章 数据预测建模:人工神经网络197
8.1 人工神经网络的基本概念198
8.1.1 人工神经网络的基本构成198
8.1.2 人工神经网络节点的功能199
8.2 感知机网络200
8.2.1 感知机网络中的节点200
8.2.2 感知机网络节点中的加法器201
8.2.3 感知机网络节点中的激活函数202
8.2.4 Python模拟和启示:认识激活函数203
8.2.5 感知机网络的权重训练206
8.3 多层感知机网络211
8.3.1 多层感知机网络的结构211
8.3.2 多层感知机网络中的隐藏节点213
8.3.3 Python模拟和启示:认识隐藏节点215
8.4 反向传播算法218
8.4.1 反向传播算法的基本思想218
8.4.2 局部梯度和连接权重更新218
8.5 多层神经网络的其他问题*220
8.6 人工神经网络的Python应用实践221
8.6.1 手写体邮政编码的识别221
8.6.2 PM2.5浓度的回归预测224
本章总结225
本章相关函数列表225
本章习题226
第9章 数据预测建模:支持向量机227
9.1 支持向量分类概述228
9.1.1 支持向量分类的基本思路228
9.1.2 支持向量分类的三种情况230
9.2 完全线性可分下的支持向量分类231
9.2.1 完全线性可分下的超平面231
9.2.2 参数求解和分类预测233
9.2.3 Python模拟和启示:认识支持向量236
9.3 广义线性可分下的支持向量分类238
9.3.1 广义线性可分下的超平面238
9.3.2 广义线性可分下的误差惩罚和目标函数239
9.3.3 Python模拟和启示:认识惩罚参数C240
9.3.4 参数求解和分类预测242
9.4 线性不可分下的支持向量分类243
9.4.1 线性不可分问题的一般解决方式243
9.4.2 支持向量分类克服维灾难的途径244
9.4.3 Python模拟和启示:认识核函数246
9.5 支持向量回归概述*249
9.5.1 支持向量回归的基本思路249
9.5.2 支持向量回归的目标函数和约束条件251
9.5.3 Python模拟和启示:认识参数? 253
9.6 支持向量机的Python应用实践:老人风险体位预警254
9.6.1 示例背景和数据说明255
9.6.2 Python实现255
本章总结260
本章相关函数列表260
本章习题260
第10章 特征选择:过滤、包裹和嵌入策略261
10.1 过滤策略下的特征选择262
10.1.1 低方差过滤法263
10.1.2 高相关过滤法中的方差分析264
10.1.3 高相关过滤法中的卡方检验268
10.1.4 Python应用实践:过滤策略下手写体邮政编码数字的特征选择270
10.1.5 其他高相关过滤法*272
10.2 包裹策略下的特征选择274
10.2.1 包裹策略的基本思路274
10.2.2 递特征剔除算法275
10.2.3 基于交叉验证的递归式特征剔除算法276
10.2.4 Python应用实践:包裹策略下手写体邮政编码数字的特征选择276
10.3 嵌入策略下的特征选择278
10.3.1 岭回归和Lasso回归278
10.3.2 弹性网回归282
10.3.3 Python应用实践:嵌入策略下手写体邮政编码数字的特征选择283
本章总结289
本章相关函数列表289
本章习题289
第11章 特征提取:空间变换策略290
11.1 主成分分析291
11.1.1 主成分分析的基本出发点291
11.1.2 主成分分析的基本原理292
11.1.3 确定主成分295
11.1.4 Python模拟与启示:认识主成分296
11.2 矩阵的奇异值分解298
11.2.1 奇异值分解的基本思路298
11.2.2 奇异值分解的Python应用实践:脸部数据特征提取299
11.3 核主成分分析*301
11.3.1 核主成分分析的出发点301
11.3.2 核主成分分析的基本原理303
11.3.3 Python模拟和启示:认识核主成分305
11.4 因子分析307
11.4.1 因子分析的基本出发点308
11.4.2 因子分析的基本原理309
11.4.3 Python模拟和启示:认识因子分析的计算过程312
11.4.4 因子分析的其他问题316
11.4.5 因子分析的Python应用实践:空气质量综合评测318
本章总结320
本章相关函数列表321
本章习题321
第12章 揭示数据内在结构:聚类分析322
12.1 聚类分析概述322
12.1.1 聚类分析的目的322
12.1.2 聚类算法概述324
12.1.3 聚类解的评价325
12.1.4 聚类解的可视化328
12.2 基于质心的聚类模型:K-均值聚类329
12.2.1 K-均值聚类基本过程329
12.2.2 基于K-均值聚类的类别预测331
12.2.3 Python模拟和启示:认识K-均值聚类中的聚类数目K331
12.3 基于连通性的聚类模型:系统聚类335
12.3.1 系统聚类的基本过程335
12.3.2 系统聚类中距离的连通性度量335
12.3.3 Python模拟和启示:认识系统聚类中的聚类数目K336
12.4 基于高斯分布的聚类模型:EM聚类*340
12.4.1 出发点:有限混合分布341
12.4.2 EM聚类算法342
12.4.3 Python模拟和启示:认识EM聚类345
12.5 聚类分析的Python应用实践:环境污染的区域特征分析348
本章总结351
本章相关函数列表351
本章习题352
第13章 揭示数据内在结构:特色聚类353
13.1 基于密度的聚类:DBSCAN353
13.1.1 DBSCAN中的相关概念353
13.1.2 DBSCAN过程355
13.1.3 Python模拟和启示:认识DBSCAN的异形聚类特点355
13.2 Mean-Shift聚类*358
13.2.1 什么是核密度估计359
13.2.2 核密度估计在Mean-Shift聚类中的意义361
13.2.3 Mean-Shift聚类过程362
13.2.4 Python模拟与启示:认识Mean-Shift聚类中的核宽363
13.3 BIRCH365
13.3.1 BIRCH的特点365
13.3.2 BIRCH算法中的聚类特征树365
13.3.3 BIRCH的基本思路368
13.3.4 Python模拟和启示:认识BIRCH的特点370
13.4 特色聚类的Python应用实践:批发商的市场细分374
13.4.1 数据说明374
13.4.2 Python实现375
本章总结377
本章相关函数列表377
本章习题378
内容摘要
本书将引领读者进入Python机器学习领域。机器学习是一套先进、深刻且内容丰富的算法集合,已成为数据科学中数据建模与分析的重要方法。Python是一款简明、高效且功能强大的开源工具,也是数据科学实践中最常用的计算机语言。学好机器学习的理论方法,掌握Python这个实用工具,是成长为数据科学人才所必需的。本书采用理论与实践相结合的方式,理论上突出可读性并兼具知识深度和广度,实践上强调可操作性并兼具应用广泛性,对机器学习的原理部分进行了深入透彻的讲解,对机器学习的算法部分给出了Python代码,并且在各章中设置了Python编程示例。全彩呈现机器学习的数据建模可视化图例(80多幅彩图),扫描书中相应二维码即可查看。提供配套数据集、源代码、教学PPT等学习资源,登录华信教育资源网(www.hxedu.com.cn)即可免费下载。本书可作为高等院校机器学习、数据分析等专业课程的教材,也可作为数据科学应用研究者及对Python机器学习感兴趣的数据建模与分析从业者的参考书。
— 没有更多了 —
以下为对购买帮助不大的评价