全新正版 极速发货
¥ 74.88 6.3折 ¥ 118 全新
库存4件
作者杨维忠、张甜
出版社清华大学出版社
ISBN9787302626114
出版时间2023-02
装帧平装
开本16开
定价118元
货号1202816106
上书时间2024-05-27
Python作为一门简单、易学、易读、易维护、用途广泛、速度快、免费、开源的主流编程语言,广泛应用于Web开发、大数据处理、人工智能、云计算、爬虫、游戏开发、自动化运维开发等各个领域,是众多高等院校学生的必修基础课程,也是堪与Office办公软件应用比肩的职场人士的必备技能。但不少学生或职场人士总面临这样一种窘境:数字化转型大背景、大趋势下,感觉非常有必要学习Python等分析工具,但在真正通过一本书学习Python的各种语言规则时,往往体验不到学习知识的乐趣,翻看个别章节后即将其束之高阁。造成这种情况的根本原因在于没有结合本职研究或工作需求、没有以解决问题为目标和导向开展学习。对很多读者来说,学以致用的一个非常好的出口就是使用Python进行机器学习。数字化转型浪潮下,机器学习的各种算法早已不再局限于概念普及和理念推广层面,而是真真切切地广泛应用在各类企事业单位的各个领域,从客户分层管理到目标客户选择,从客户满意度分析到客户流失预警,从信用风险防控到精准推荐,各种算法的应用对于企业全要素生产率的边际提升起到了举足轻重的作用。基于上述原因,笔者致力于编写一本Python机器学习原理与算法实现的教学参考书,将Python与机器学习应用相结合,通过“深入浅出讲解机器学习原理—贴近实际精选操作案例—详细演示Python操作及代码含义—准确完整解读分析结果”的一站式服务,旨在写出让读者“能看得懂、学得进去、真用得上”的机器学习图书,献给新时代的莘莘学子和职场奋斗者。
本书内容
第1章为Python入门知识,内容包括Python简介与本书教学理念,Python下载与安装,Python注释、基本输出与输入,Python变量和数据类型、Python序列、Python列表、Python元组、Python字典、Python集合、Python字符串。
第2章为Python进阶知识,内容包括Python流程控制语句、Python函数、Python模块和包、Python numpy模块数组、Python pandas模块序列与数据框、Python对象与类、Python数据读取、Python数据检索、Python数据缺失值处理、Python数据重复值处理、Python数据行列处理。
第3章为机器学习介绍,内容包括机器学习概述,机器学习术语,机器学习分类,机器学习中误差、泛化、过拟合与欠拟合、偏差、方差与噪声等重要概念,以及常用的机器学习性能量度和模型评估方法,机器学习的项目流程。
第4章为线性回归算法,主要介绍线性回归算法的基本原理及Python实现,还介绍了描述性分析、图形绘制、正态性检验、相关性分析等经典统计分析方法在Python中的实现。
第5章为二元Logistic回归算法,主要介绍二元Logistic回归算法的基本原理,并结合具体实例讲解该算法在Python中的实现与应用。
第6章为多元Logistic回归算法,主要介绍多元Logistic回归算法的基本原理,并结合具体实例讲解该算法在Python中的实现与应用。
第7章为判别分析算法,内容包括线性判别分析和二次判别分析两种判别分析算法的基本原理,并结合具体实例讲解这两个算法在Python中的实现与应用。
第8章为朴素贝叶斯算法,讲解贝叶斯算法的基本原理、贝叶斯定理、朴素贝叶斯算法的基本原理、拉普拉斯修正、朴素贝叶斯算法分类及适用条件,并结合具体实例讲解这些算法在Python中的实现与应用。
第9章为高维数据惩罚回归算法,主要讲解高维数据惩罚回归算法的基本原理、岭回归、Lasso回归、弹性网回归、惩罚回归算法的选择,并结合具体实例讲解这些算法在Python中的实现与应用。
第10章为K近邻算法,主要讲解K近邻算法的基本原理,并结合具体实例讲解该算法解决分类问题和回归问题的Python实现与应用。
第11章为主成分分析算法,主要讲解主成分分析算法的基本原理、数学概念、主成分特征值、样本的主成分得分、主成分载荷等内容,并结合具体实例讲解该算法在Python中的实现与应用。
第12章为聚类分析算法,主要讲解聚类分析算法的基本原理、划分聚类分析、层次聚类分析、样本距离的测度等内容,并结合具体实例讲解这些算法在Python中的实现与应用。
第13章为决策树算法,主要讲解决策树算法的概念与原理、特征变量选择及其临界值确定方法、决策树的剪枝、包含剪枝决策树的损失函数、变量重要性等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。
第14章为随机森林算法,主要讲解集成学习的概念与分类、装袋法的概念与原理、随机森林算法的概念与原理、随机森林算法特征变量重要性量度、部分依赖图与个体条件期望图等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。
第15章为提升法,主要讲解提升法的概念与原理、AdaBoost、梯度提升法、回归问题损失函数、分类问题损失函数、随机梯度提升法、XGBoost算法等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。
第16章为支持向量机算法,主要讲解线性可分,硬间隔分类器的概念、原理解释与求解步骤,软间隔分类器的概念、原理解释与求解步骤,核函数,多分类问题支持向量机,支持向量回归等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。
第17章为神经网络算法,主要讲解神经网络算法的基本思想、感知机、多层感知机、神经元激活函数、误差反向传播算法、万能近似定理及多隐藏层优势、BP算法过拟合问题的解决等内容,并结合具体实例讲解这些算法解决分类问题和回归问题的Python实现与应用。
本书特色
通过“入门—进阶—应用”的方式循序渐进地讲解Python。前两章分别讲解Python入门知识和Python进阶知识,使大家能够基本掌握Python的基础知识与进阶应用,后续章节在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释,使读者能够真正理解各种代码的含义,从而可以灵活运用于自身的科研或应用研究。
通过“复杂算法模型简单化、抽样理论概念具象化”深入浅出的方式讲解机器学习。本书尽可能用图像化、案例化的方式剖析各种算法的基本原理、适用条件,使读者真的能够看得明白、学得进去,避免在复杂的数学公式推导面前耗尽了所有的学习热情,苦技能虽好却不能为己所用。同时也做到了不失专业深度,使读者真正能够掌握各种算法的精髓,能根据自身需要选取算法、优化代码、科学调参。
实现了Python与机器学习应用的深度融合。本书以学以致用为桥梁实现了Python与机器学习之间的高效联动协同,使读者通过本书的学习能够同时掌握Python语言、机器学习这两大专业利器,达到“一箭双雕”的学习效果,有效提升自己的科研与应用水平。
本书提供的PPT与源代码、思维导图、视频教学可通过扫描下面二维码获取:
如果下载有问题,请发送电子邮件至booksaga@126.com,邮件主题为“Python机器学习原理与算法实现代码”。
本书在写作过程中也吸收了前人的研究成果,第二作者张甜博士也曾于2020年1月师从山东大学陈强教授系统学习了机器学习课程,在此一并表示感谢!
由于笔者水平有限,书中难免存在疏漏之处,诚请各位同仁和广大读者批评指正,并提出宝贵的意见。
笔 者
2023年1月
数字化转型背景下,Python作为一门简单、易学、速度快、免费、开源的主流编程语言,广泛应用于大数据处理、人工智能、云计算等各个领域,是众多高等院校学生的必修基础课程,也是堪与Office办公软件应用比肩的职场人士的必备技能。同时随着数据存储、数据处理等大数据技术的快速进步,机器学习的各种算法在各行各业得以广泛应用,同样成为高校师生、职场人士迎接数字化浪潮、与时俱进提升专业技能的必修课程。本书将“Python课程学习”与“机器学习课程学习”有机结合,推动数字化人才的培养,提升人才的实践应用能力。 全书内容共17章。第1、2章介绍Python的入门知识和进阶知识;第3章介绍机器学习的概念及各种术语及评价标准;第4~10章介绍相对简单的监督式学习方法,包括线性回归算法、二元Logistic回归算法、多元Logistic回归算法、判别分析算法、朴素贝叶斯算法、高维数据惩罚回归算法、K近邻算法;第11、12章介绍主成分分析算法、聚类分析算法两种非监督式学习算法;第13~15章介绍相对复杂的监督式学习算法,包括决策树算法和随机森林算法、提升法两种集成学习算法;第16、17章介绍支持向量机算法、神经网络算法两种高级监督式学习算法。 本书可以作为经济学、管理学、统计学、金融学、社会学、医学、电子商务等相关专业的学生学习Python或机器学习应用的专业教材、参考书;也可以作为企事业单位数字化人才培养的教科书、工具书,还可以作为职场人士自学掌握Python机器学习应用、提升数据挖掘分析能力进而提高工作效能和改善绩效水平的工具书。
杨维忠,山东大学经济学硕士,CPA,十年商业银行工作经历,历任运营、风控、营销、内控等多个职位,擅长商务建模,精通SPSS、Stata、EViews,编著有《SPSS数据挖掘与案例分析应用实践》 《Stata统计分析与实验指导》等近十本畅销书。 张甜,山东大学金融学博士生,金融风险领域研究专家,参与《地方金融运行动态监测及系统性风险预警研究》等多项重大项目,精通SPSS、Stata、R语言,编著有《SPSS统计分析与行业应用案例详解》 《Stata统计分析与行业应用案例详解》等畅销书。
第1章 Python入门知识 1
1.1 Python简介与本书的教学理念 1
1.2 Python的下载与安装 2
1.2.1 下载Python(Anaconda平台) 2
1.2.2 安装Python(Anaconda平台) 4
1.2.3 Anaconda Prompt(Anaconda3) 6
1.2.4 Spyder(Anaconda3)的介绍及偏好设置 7
1.2.5 Spyder(Anaconda3)窗口介绍 10
1.3 Python注释、基本输入与输出 16
1.3.1 Python的注释 16
1.3.2 print函数 17
1.3.3 input函数 17
1.4 Python变量和数据类型 18
1.4.1 Python的保留字与标识符 18
1.4.2 Python的变量 19
1.4.3 Python的基本数据类型 20
1.4.4 Python的数据运算符 23
1.5 Python序列 25
1.5.1 索引(Indexing) 26
1.5.2 切片(Slicing) 26
1.5.3 相加(Adding) 27
1.5.4 相乘(Multiplying) 28
1.5.5 元素检查 28
1.5.6 与序列相关的内置函数 28
1.6 Python列表 30
1.6.1 列表的基本操作 30
1.6.2 列表元素的基本操作 32
1.6.3 列表推导式 33
1.7 Python元组 34
1.7.1 元组的基本操作 34
1.7.2 元组元素的基本操作 35
1.7.3 元组推导式 36
1.8 Python字典 37
1.8.1 字典的基本操作 37
1.8.2 字典元素的基本操作 39
1.8.3 字典推导式 40
1.9 Python集合 41
1.10 Python字符串 42
1.11 习题 46
第2章 Python进阶知识 48
2.1 Python流程控制语句 48
2.1.1 选择语句 48
2.1.2 循环语句 50
2.1.3 跳转语句 52
2.2 Python函数 53
2.2.1 函数的创建和调用 53
2.2.2 参数的相关概念与操作 53
2.2.3 变量的作用域 56
2.3 Python模块和包 58
2.3.1 模块的创建和导入 58
2.3.2 包的创建和使用 61
2.4 Python numpy模块中的数组 63
2.4.1 数组的创建 63
2.4.2 数组的计算 65
2.4.3 使用数组开展矩阵运算 66
2.4.4 数组的排序、索引和切片 66
2.5 Python pandas模块中的序列与数据框 67
2.5.1 序列的相关操作 67
2.5.2 数据框的相关操作 69
2.6 Python对象与类 74
2.6.1 类的定义 74
2.6.2 定义适用于类对象的方法 75
2.6.3 子类从父类继承 76
2.7 Python数据读取 76
2.7.1 读取文本文件(CSV或者TXT文件) 77
2.7.2 读取EXCEL数据 80
2.7.3 读取SPSS数据 81
2.7.4 读取Stata数据 82
2.8 Python数据检索 83
2.9 Python数据缺失值处理 84
2.9.1 查看数据集中的缺失值 84
2.9.2 填充数据集中的缺失值 86
2.9.3 删除数据集中的缺失值 89
2.10 Python数据重复值处理 91
2.10.1 查看数据集中的重复值 91
2.10.2 删除数据集中的重复值 92
2.11 Python数据行列处理 94
2.11.1 删除变量列、样本行 94
2.11.2 更改变量列名称、调整变量列顺序 95
2.11.3 改变列的数据格式 96
2.11.4 多列转换 96
2.11.5 数据百分比格式转换 97
2.12 习题 98
第3章 机器学习介绍 99
3.1 机器学习概述 99
3.2 机器学习术语 100
3.3 机器学习分类 101
3.4 误差、泛化、过拟合与欠拟合 102
3.5 偏差、方差与噪声 103
3.5.1 偏差 103
3.5.2 方差 103
3.5.3 噪声 103
3.5.4 误差与偏差、方差、噪声的关系 104
3.5.5 偏差与方差的权衡 104
3.6 性能量度 105
3.6.1 “回归问题监督式学习”的性能量度 105
3.6.2 “分类问题监督式学习”的性能量度 106
3.7 模型评估 111
3.7.1 验证集法 111
3.7.2 K折交叉验证 112
3.7.3 自助法 113
3.8 机器学习项目流程 114
3.9 习题 118
第4章 线性回归算法 119
4.1 线性回归算法的基本原理 119
4.1.1 线性回归算法的概念及数学解释 119
4.1.2 线性回归算法的优缺点 120
4.2 数据准备 121
4.2.1 导入分析所需要的模块和函数 121
4.2.2 数据读取及观察 122
4.3 描述性分析 123
4.4 图形绘制 125
4.4.1 直方图 125
4.4.2 密度图 127
4.4.3 箱图 128
4.4.4 小提琴图 128
4.4.5 正态QQ图 129
4.4.6 散点图和线图 130
4.4.7 热力图 131
4.4.8 回归拟合图 132
4.4.9 联合分布图 132
4.5 正态性检验 133
4.5.1 Shapiro-Wilk test检验 133
4.5.2 kstest检验 134
4.6 相关性分析 135
4.7 使用statsmodels进行线性回归 137
4.7.1 使用 smf 进行线性回归 137
4.7.2 多重共线性检验 139
4.7.3 解决多重共线性问题 140
4.7.4 绘制拟合回归平面 141
4.8 使用sklearn进行线性回归 142
4.8.1 使用验证集法进行模型拟合 142
4.8.2 更换随机数种子,使用验证集法进行模型拟合 143
4.8.3 使用10折交叉验证法进行模型拟合 143
4.8.4 使用10折重复10次交叉验证法进行模型拟合 144
4.8.5 使用留一交叉验证法进行模型拟合 144
4.9 习题 145
第5章 二元Logistic回归算法 147
5.1 二元Logistic回归算法的基本原理 147
5.2 数据准备 148
5.2.1 导入分析所需要的模块和函数 149
5.2.2 数据读取及观察 150
5.3 描述性分析 152
5.4 数据处理 154
5.4.1 区分分类特征和连续特征并进行处理 154
5.4.2 将样本全集分割为训练样本和测试样本 154
5.5 建立二元Logistic回归算法模型 155
5.5.1 使用statsmodels建立二元Logistic回归算法模型 155
5.5.2 使用sklearn建立二元Logistic回归算法模型 159
5.5.3 特征变量重要性水平分析 162
5.5.4 绘制ROC曲线,计算AUC值 165
5.5.5 计算科恩kappa得分 166
5.6 习题 167
第6章 多元Logistic回归算法 169
6.1 多元Logistic回归算法的基本原理 169
6.2 数据准备 170
6.2.1 导入分析所需要的模块和函数 170
6.2.2 数据读取及观察 171
6.3 描述性分析及图形绘制 172
6.3.1 描述性分析 172
6.3.2 绘制直方图 173
6.3.3 绘制箱图 173
6.4 数据处理 175
6.4.1 区分分类特征和连续特征并进行处理 175
6.4.2 将样本全集分割为训练样本和测试样本 175
6.5 建立多元Logistic回归算法模型 175
6.5.1 模型估计 176
6.5.2 模型性能分析 176
6.6 习题 179
第7章 判别分析算法 180
7.1 判别分析算法的基本原理 180
7.1.1 线性判别分析的基本原理 180
7.1.2 线性判别分析的算法过程 181
7.1.3 二次判别分析的基本原理 182
7.2 数据准备 183
7.2.1 导入分析所需要的模块和函数 184
7.2.2 线性判别分析降维优势展示 185
7.2.3 数据读取及观察 187
7.3 特征变量相关性分析 188
7.4 使用样本全集开展线性判别分析 189
7.4.1 模型估计及性能分析 189
7.4.2 运用两个特征变量绘制LDA决策边界图 192
7.5 使用分割样本开展线性判别分析 193
7.6 使用分割样本开展二次判别分析 195
7.6.1 模型估计 195
7.6.2 运用两个特征变量绘制QDA决策边界图 196
7.7 习题 197
第8章 朴素贝叶斯算法 198
8.1 朴素贝叶斯算法的基本原理 198
8.1.1 贝叶斯方法的基本原理 198
8.1.2 贝叶斯定理 199
8.1.3 朴素贝叶斯算法的基本原理 201
8.1.4 拉普拉斯修正 202
8.1.5 朴素贝叶斯算法分类及适用条件 202
8.2 数据准备 203
8.2.1 案例数据说明 203
8.2.2 导入分析所需要的模块和函数 205
8.3 高斯朴素贝叶斯算法示例 205
8.3.1 数据读取及观察 206
8.3.2 将样本全集分割为训练样本和测试样本 207
8.3.3 高斯朴素贝叶斯算法拟合 207
8.3.4 绘制ROC曲线 207
8.3.5 运用两个特征变量绘制高斯朴素贝叶斯决策边界图 208
8.4 多项式、补集、二项式朴素贝叶斯算法示例 208
8.4.1 数据读取及观察 209
8.4.2 将样本全集分割为训练样本和测试样本 209
8.4.3 多项式、补集、二项式朴素贝叶斯算法拟合 210
8.4.4 寻求二项式朴素贝叶斯算法拟合的最优参数 210
8.4.5 最优二项式朴素贝叶斯算法模型性能评价 213
8.5 习题 214
第9章 高维数据惩罚回归算法 216
9.1 高维数据惩罚回归算法简介 216
9.1.1 高维数据惩罚回归算法的基本原理 216
9.1.2 岭回归 217
9.1.3 Lasso回归 217
9.1.4 弹性网回归 218
9.1.5 惩罚回归算法的选择 218
9.2 数据准备 218
9.2.1 导入分析所需要的模块和函数 220
9.2.2 数据读取及观察 220
9.3 变量设置及数据处理 221
9.4 岭回归算法 222
9.4.1 使用默认惩罚系数构建岭回归模型 222
9.4.2 使用留一交叉验证法寻求最优惩罚系数构建岭回归模型 223
9.4.3 使用K折交叉验证法寻求最优惩罚系数构建岭回归模型 224
9.4.4 划分训练样本和测试样本下的最优岭回归模型 225
9.5 Lasso回归算法 226
9.5.1 使用随机选取惩罚系数构建岭回归模型 226
9.5.2 使用留一交叉验证法寻求最优惩罚系数构建Lasso回归模型 227
9.5.3 使用K折交叉验证法寻求最优惩罚系数构建Lasso回归模型 227
9.5.4 划分训练样本和测试样本下的最优Lasso回归模型 228
9.6 弹性网回归算法 229
9.6.1 使用随机选取惩罚系数构建弹性网回归模型 229
9.6.2 使用K折交叉验证法寻求最优惩罚系数构建弹性网回归模型 230
9.6.3 划分训练样本和测试样本下的最优弹性网回归模型 231
9.7 习题 231
第10章 K近邻算法 233
10.1 K近邻算法简介 233
10.1.1 K近邻算法的基本原理 233
10.1.2 K值的选择 235
10.1.3 K近邻算法的变种 235
10.2 数据准备 236
10.2.1 案例数据说明 236
10.2.2 导入分析所需要的模块和函数 236
10.3 回归问题K近邻算法示例 237
10.3.1 变量设置
— 没有更多了 —
以下为对购买帮助不大的评价