作者简介
余本国,博士,硕士研究生导师。2001年毕业于石河子大学数学系,同年到中北大学(原华北工学院)任教,主讲线性代数、高等数学、微积分、概率统计、数学实验、Python语言、大数据分析基础等课程。2012年到加拿大York University做访问学者。现工作于海南医学院生物医学信息与工程学院。作品有《Python数据分析基础》《基于Python的大数据分析基础及实战》等书。
孙玉林,西安电子科技大学人工智能学院博士在读。长期从事大数据统计分析、机器学习与计算机视觉等方面的研究,曾多次获得数学建模与数据挖掘比赛一等奖。出版《Python在机器学习中的应用》《R语言统计分析与机器学习》《PyTorch深度学习入门与实战》等著作。
目录
第1章 Python机器学习入门1
1.1 机器学习简介1
1.1.1 机器学习是什么1
1.1.2 机器学习算法分类2
1.2 安装Anaconda(Python)6
1.2.1 Spyder7
1.2.2 Jupyter Notebook8
1.2.3 JupyterLab8
1.3 Python快速入门10
1.3.1 列表、元组和字典10
1.3.2 条件判断、循环和函数15
1.4 Python基础库入门实战18
1.4.1 NumPy库应用入门18
1.4.2 pandas库应用入门25
1.4.3 Matplotlib库应用入门34
1.5 机器学习模型初探40
1.6 本章小结43
第2章 数据探索与可视化44
2.1 缺失值处理45
2.1.1 简单的缺失值处理方法46
2.1.2 复杂的缺失值填充方法52
2.2 数据描述与异常值发现55
2.2.1 数据描述统计55
2.2.2 发现异常值的基本方法61
2.3 可视化分析数据关系63
2.3.1 连续变量间关系可视化分析63
2.3.2 分类变量间关系可视化分析68
2.3.3 连续变量和分类变量间关系可视化分析71
2.3.4 其他类型数据可视化分析77
2.4 数据样本间的距离80
2.5 本章小结84
第3章 特征工程86
3.1 特征变换87
3.1.1 数据的无量纲化处理87
3.1.2 数据特征变换93
3.2 特征96
3.2.1 分类特征重新编码97
3.2.2 数值特征重新编码98
3.2.3 文本数据的特征构建102
3.3 特征选择105
3.3.1 基于统计方法106
3.3.2 基于递归消除特征法107
3.3.3 基于机器学习的方法108
3.4 特征提取和降维109
3.4.1 主成分分析109
3.4.2 核主成分分析111
3.4.3 流形学习113
3.4.4 t-SNE114
3.4.5 多维尺度分析115
3.5 数据平衡方法116
3.5.1 基于过采样算法117
3.5.2 基于欠采样算法119
3.5.3 基于过采样和欠采样的综合算法121
3.6 本章小结122
第4章 模型选择和评估124
4.1 模型拟合效果124
4.1.1 欠拟合与过拟合表现方式124
4.1.2 避免欠拟合与过拟合的方法126
4.2 模型训练技巧127
4.2.1 交叉验证128
4.2.2 参数网络搜索132
4.3 模型的评价指标134
4.3.1 分类效果评价134
4.3.2 回归效果评价135
4.3.3 聚类效果评价137
4.4 本章小结138
第5章 假设检验和回归分析139
5.1 假设检验141
5.1.1 数据分布检验141
5.1.2 t检验144
5.1.3 方差分析145
5.2 一元回归149
5.2.1 一元线性回归149
5.2.2 一元非线性回归151
5.3 多元回归154
5.3.1 多元线性回归155
5.3.2 逐步回归161
5.3.3 多元自适应回归样条164
5.4 正则化回归分析166
5.4.1 Ridge回归分析169
5.4.2 LASSO回归分析172
5.4.3 弹性网络回归176
5.5 Logistic回归分析178
5.5.1 数据准备与可视化179
5.5.2 逻辑回归分类181
5.6 本章小结185
第6章 时间序列分析186
6.1 时间序列数据的相关检验187
6.1.1 白噪声检验188
6.1.2 平稳性检验189
6.1.3 自相关分析和偏自相关分析192
6.2 移动平均算法196
6.2.1 简单移动平均法197
6.2.2 简单指数平滑法198
6.2.3 霍尔特线性趋势法199
6.2.4 Holt-Winters季节性预测模型201
6.3 ARIMA模型202
6.3.1 AR模型202
6.3.2 ARMA模型205
6.3.3 ARIMA模型209
6.4 SARIMA模型213
6.5 Prophet模型预测时间序列215
6.5.1 数据准备216
6.5.2 模型建立与数据预测216
6.6 多元时间序列ARIMAX模型220
6.6.1 数据准备与可视化220
6.6.2 ARIMAX模型建立与预测223
6.7 时序数据的异常值检测227
6.7.1 数据准备与可视化228
6.7.2 时序数据异常值检测228
6.8 本章小结230
第7章 聚类算法与异常值检测232
7.1 模型简介232
7.1.1 常用的聚类算法232
7.1.2 常用的异常值检测算法234
7.2 数据聚类分析236
7.2.1 K-均值与K-中值聚类算法236
7.2.2 层次聚类243
7.2.3 谱聚类与模糊聚类245
7.2.4 密度聚类(DBSCAN)249
7.2.5 高斯混合模型聚类253
7.2.6 亲和力传播聚类255
7.2.7 BIRCH聚类258
7.3 数据异常值检测分析261
7.3.1 LOF和COF算法262
7.3.2 带有异常值的高维数据探索267
7.3.3 基于PCA与SOD的异常值检测方法270
7.3.4 孤立森林异常值检测274
7.3.5 支持向量机异常值检测276
7.4 本章小结279
第8章 决策树和集成学习280
8.1 模型简介与数据准备280
8.1.1 决策树与集成学习算法思想280
8.1.2 数据准备和探索284
8.2 决策树模型290
8.2.1 决策树模型数据分类291
8.2.2 决策树模型数据回归295
8.3 随机森林模型302
8.3.1 随机森林模型数据分类302
8.3.2 随机森林模型数据回归306
8.4 AdaBoost模型310
8.4.1 AdaBoost模型数据分类310
8.4.2 AdaBoost模型数据回归314
8.5 梯度提升树(GBDT)317
8.5.1 GBDT模型数据分类317
8.5.2 GBDT模型数据回归319
8.6 本章小结321
第9章 贝叶斯算法和K-近邻算法322
9.1 模型简介322
9.2 贝叶斯分类算法325
9.2.1 文本数据准备与可视化325
9.2.2 朴素贝叶斯文本分类327
9.3 贝叶斯网络数据分类334
9.3.1 自定义贝叶斯网络结构334
9.3.2 搜索所有网络结构336
9.3.3 启发式搜索网络结构339
9.4 K-近邻算法340
9.4.1 K-近邻数据分类340
9.4.2 K-近邻数据回归353
9.5 本章小节357
第10章 支持向量机和人工神经网络358
10.1 模型简介358
10.2 支持向量机模型362
10.2.1 支持向量机数据分类363
10.2.2 支持向量机数据回归369
10.3 全连接神经网络模型374
10.3.1 单隐藏层全连接神经网络数据分类375
10.3.2 多隐藏层全连接神经网络数据分类379
10.3.3 全连接神经网络数据回归382
10.4 本章小结387
第11章 关联规则与文本挖掘388
11.1 模型简介388
11.1.1 关联规则388
11.1.2 文本挖掘390
11.2 数据关联规则挖掘392
11.2.1 FPGrowth关联规则挖掘393
11.2.2 Apriori关联规则挖掘396
11.3 文本数据预处理403
11.3.1 英文文本预处理403
11.3.2 《三国演义》文本预处理406
11.4 文本聚类分析410
11.4.1 文本数据特征获取410
11.4.2 常用的聚类算法412
11.4.3 LDA主题模型416
11.5 《三国演义》人物关系分析422
11.5.1 人物重要性时序分析422
11.5.2 人物关系可视化分析425
11.6 本章小节429
第12章 深度学习入门430
12.1 深度学习介绍431
12.1.1 卷积和池化431
12.1.2 卷积神经网络432
12.1.3 循环神经网络432
12.1.4 自编码网络433
12.2 PyTorch入门434
12.2.1 张量的使用434
12.2.2 常用的层438
12.3 卷积神经网络识别草书441
12.3.1 草书数据预处理与可视化441
12.3.2 ResNet18网络识别草书446
12.4 循环神经网络新闻分类452
12.4.1 数据准备452
12.4.2 LSTM网络文本分类454
12.5 自编码网络重构图像460
12.5.1 数据准备461
12.5.2 自编码网络重构手写数字462
12.6 本章小结467
参考文献468
内容摘要
本书基于Python语言,结合实际的数据集,介绍如何使用机器学习与深度学习算法,对数据进行实战分析。本书在内容上循序渐进,先介绍了Python的基础内容,以及如何利用Python中的第三方库对数据进行预处理和探索可视化的相关操作,然后结合实际数据集,分章节介绍了机器学习与深度学习的相关算法应用。本书为读者提供了源程序和使用的数据集,方便读者在阅读时同步运行程序,在增强学习效果的同时为读者节省了编写程序的时间。源程序使用Notebook的形式进行组织,每个小节注释清晰,讲解透彻。同时为程序配备了相应的视频讲解,辅助读者对程序能很好地理解和消化。本书在简明扼要地介绍算法原理的同时,更加注重实战应用和对结果的解读。
主编推荐
"学习目标:为那些想学习和掌握机器学习的读者提供一本“看了就能学会”的书。
《Python机器学习算法与实战》剔除了枯燥乏味的数学原理及其推导过程,全部通过在实际场景中对算法进行应用,并用浅显易懂的代码去实现这些经典和主流的算法,让读者能在操练实例的基础上快速掌握操作方法,以及在容易出错的地方设置“注意”等要点,潜移默化地掌握机器学习的相关理论知识。因此本书是机器学习专家余本国、孙玉林联袂撰写的全新内容,案例设计贴近学习曲线,内容详实,是一本相当好用的上手教材。本书就是以正确进行这些工作为目标,专注于使用机器学习需要掌握的基础部分。在简要介绍机器学习理论知识的同时,重点研究如何使用Python 语言来建模分析实际场景中的数据,增强读者的动手能力,促进读者对理论知识的深刻理解,着眼于怎么使用和活用,而不是满口理论但不知如何动手。"
以下为对购买帮助不大的评价