从零开始学Python数据分析与挖掘(第2版)
全新正版 极速发货
¥
37.3
4.7折
¥
79.8
全新
库存2件
作者刘顺祥|责编:王金柱
出版社清华大学
ISBN9787302553052
出版时间2020-06
装帧其他
开本其他
定价79.8元
货号30874706
上书时间2024-11-18
商品详情
- 品相描述:全新
- 商品描述
-
目录
目 录
第1章 数据分析与挖掘概述1
1.1 什么是数据分析和挖掘1
1.2 数据分析与挖掘的应用领域2
1.2.1 电商领域——发现破坏规则的“害群之马”2
1.2.2 交通出行领域——为打车平台进行私人订制3
1.2.3 医疗健康领域——找到最佳医疗方案3
1.3 数据分析与挖掘的区别4
1.4 数据挖掘的流程5
1.4.1 明确目标5
1.4.2 数据搜集6
1.4.3 数据清洗6
1.4.4 构建模型7
1.4.5 模型评估7
1.4.6 应用部署7
1.5 常用的数据分析与挖掘工具8
1.6 本章小结9
1.7 课后练习9
第2章 从收入的预测分析开始10
2.1 下载与安装Anaconda10
2.1.1 基于Windows系统安装11
2.1.2 基于Mac系统安装12
2.1.3 基于Linux系统安装14
2.2 基于Python的案例实战14
2.2.1 数据的预处理14
2.2.2 数据的探索性分析16
2.2.3 数据建模19
2.3 本章小结29
2.4 课后练习29
第3章 Python基础与数据抓取30
3.1 数据结构及方法30
3.1.1 列表30
3.1.2 元组36
3.1.3 字典36
3.2 控制流40
3.2.1 if分支40
3.2.2 for循环41
3.2.3 while循环43
3.3 字符串处理方法45
3.3.1 字符串的常用方法45
3.3.2 正则表达式47
3.4 自定义函数50
3.4.1 自定义函数语法50
3.4.2 自定义函数的几种参数52
3.5 一个爬虫案例55
3.6 本章小结57
3.7 课后练习59
第4章 Python数值计算——numpy的高效技能60
4.1 数组的创建与操作60
4.1.1 数组的创建60
4.1.2 数组元素的获取61
4.1.3 数组的常用属性63
4.1.4 数组的形状处理64
4.2 数组的基本运算符67
4.2.1 四则运算67
4.2.2 比较运算68
4.2.3 广播运算70
4.3 常用的数学和统计函数71
4.4 线性代数的相关计算73
4.4.1 矩阵乘法73
4.4.2 diag函数的使用74
4.4.3 特征根与特征向量75
4.4.4 多元线性回归模型的解75
4.4.5 多元一次方程组的求解76
4.4.6 范数的计算76
4.5 伪随机数的生成77
4.6 本章小结80
4.7 课后练习81
第5章 Python数据处理——展现pandas的强大82
5.1 序列与数据框的构造82
5.1.1 构造序列83
5.1.2 构造数据框85
5.2 外部数据的读取86
5.2.1 文本文件的读取86
5.2.2 电子表格的读取88
5.2.3 数据库数据的读取89
5.3 数据类型转换及描述统计91
5.4 字符与日期数据的处理95
5.5 常用的数据清洗方法99
5.5.1 重复观测处理99
5.5.2 缺失值处理100
5.5.3 异常值处理103
5.6 数据子集的获取106
5.7 透视表功能108
5.8 表之间的合并与连接111
5.9 分组聚合操作114
5.10 本章小结116
5.11 课后练习118
第6章 Python数据可视化——分析报告必要元素119
6.1 离散型变量的可视化119
6.1.1 饼图——“芝麻信用”失信用户分布120
6.1.2 条形图——胡润排行榜124
6.2 数值型变量的可视化134
6.2.1 直方图与核密度曲线——展现年龄分布特征134
6.2.2 箱线图——二手房单价分布形态138
6.2.3 小提琴图——客户消费数据的呈现142
6.2.4 折线图——公众号每日阅读趋势144
6.3 关系型数据的可视化149
6.3.1 散点图——探究鸢尾花花瓣长度与宽度的关系149
6.3.2 气泡图——暴露商品的销售特征153
6.3.3 热力图——一份简单的月度日历154
6.4 多个图形的合并157
6.5 本章小结160
6.6 课后练习161
第7章 线性回归预测模型163
7.1 一元线性回归模型——收入预测163
7.2 多元线性回归模型——销售利润预测167
7.2.1 回归模型的参数求解167
7.2.2 回归模型的预测168
7.3 回归模型的假设检验171
7.3.1 模型的显著性检验——F检验171
7.3.2 回归系数的显著性检验——t检验174
7.4 回归模型的诊断175
7.4.1 正态性检验176
7.4.2 多重共线性检验178
7.4.3 线性相关性检验179
7.4.4 异常值检验181
7.4.5 独立性检验184
7.4.6 方差齐性检验184
7.5 本章小结187
7.6 课后练习188
第8章 岭回归与LASSO回归模型189
8.1 岭回归模型189
8.1.1 参数求解190
8.1.2 系数求解的几何意义191
8.2 岭回归模型的应用——糖尿病病情预测(1)192
8.2.1 可视化方法确定λ值192
8.2.2 交叉验证法确定λ值194
8.2.3 模型的预测196
8.3 LASSO回归模型——糖尿病病情预测(2)197
8.3.1 参数求解197
8.3.2 系数求解的几何意义199
8.4 LASSO回归模型的应用200
8.4.1 可视化方法确定λ值200
8.4.2 交叉验证法确定λ值201
8.4.3 模型的预测202
8.5 本章小结204
8.6 课后练习205
第9章 Logistic回归分类模型206
9.1 Logistic模型的构建207
9.1.1 Logistic模型的参数求解209
9.1.2 Logistic模型的参数解释211
9.2 分类模型的评估方法211
9.2.1 混淆矩阵212
9.2.2 ROC曲线213
9.2.3 K-S曲线214
9.3 Logistic回归模型的应用——运动状态的识别217
9.3.1 模型的构建217
9.3.2 模型的预测219
9.3.3 模型的评估219
9.4 本章小结223
9.5 课后练习224
第10章 决策树与随机森林225
10.1 节点字段的选择226
10.1.1 信息增益227
10.1.2 信息增益率229
10.1.3 基尼指数230
10.2 决策树的剪枝233
10.2.1 误差降低剪枝法234
10.2.2 悲观剪枝法234
10.2.3 代价复杂度剪枝法236
10.3 随机森林237
10.4 决策树与随机森林的应用——肾病患者病情预测239
10.4.1 分类问题的解决239
10.4.2 预测问题的解决246
10.5 本章小结249
10.6 课后练习250
第11章 KNN模型及应用251
11.1 KNN算法的思想251
11.2 最佳k值的选择252
11.3 相似度的度量方法253
11.3.1 欧式距离253
11.3.2 曼哈顿距离254
11.3.3 余弦相似度254
11.3.4 杰卡德相似系数255
11.4 近邻样本的搜寻方法255
11.4.1 KD树搜寻法256
11.4.2 球树搜寻法259
11.5 KNN模型的应用——高炉发电量的预测260
11.5.1 分类问题的解决261
11.5.2 预测问题的解决265
11.6 本章小结269
11.7 课后练习270
第12章 朴素贝叶斯模型271
12.1 朴素贝叶斯理论基础272
12.2 几种贝叶斯模型273
12.2.1 高斯贝叶斯分类器273
12.2.2 高斯贝叶斯分类器的应用——面部皮肤的判别275
12.2.3 多项式贝叶斯分类器278
12.2.4 多项式贝叶斯分类器的应用——蘑菇毒性的预判280
12.2.5 伯努利贝叶斯分类器283
12.2.6 伯努利贝叶斯分类器的应用——评论的情感识别285
12.3 本章小结289
12.4 课后练习290
第13章 SVM模型及应用292
13.1 SVM简介293
13.1.1 距离公式的介绍293
13.1.2 SVM的实现思想294
13.2 几种常见的SVM模型295
13.2.1 线性可分的SVM295
13.2.2 一个手动计算的案例298
13.2.3 近似线性可分SVM300
13.2.4 非线性可分SVM303
13.2.5 几种常用的SVM核函数304
13.2.6 SVM的回归预测306
13.3 分类问题的解决——手写字母的识别308
13.4 预测问题的解决——受灾面积的预测310
13.5 本章小结314
13.6 课后练习315
第14章 GBDT模型及应用316
14.1 提升树算法317
14.1.1 AdaBoost算法的损失函数317
14.1.2 AdaBoost算法的操作步骤319
14.1.3 AdaBoost算法的简单例子320
14.1.4 AdaBoost算法的应用——违约客户的识别322
14.2 梯度提升树算法328
14.2.1 GBDT算法的操作步骤328
14.2.2 GBDT分类算法329
14.2.3 GBDT回归算法330
14.2.4 GBDT算法的应用——欺诈交易的识别331
14.3 非平衡数据的处理334
14.4 XGBoost算法336
14.4.1 XGBoost算法的损失函数336
14.4.2 损失函数的演变337
14.4.3 XGBoost算法的应用340
14.5 本章小结346
14.6 课后练习347
第15章 Kmeans聚类分析349
15.1 Kmeans聚类350
15.1.1 Kmeans的思想350
15.1.2 Kmeans的原理351
15.2 最佳k值的确定352
15.2.1 拐点法352
15.2.2 轮廓系数法355
15.2.3 间隔统计量法357
15.3 Kmeans聚类的应用359
15.3.1 鸢尾花类别的聚合360
15.3.2 基于NBA球员历史参赛数据的聚类363
15.4 Kmeans聚类的注意事项367
15.5 本章小结367
15.6 课后练习368
第16章 DBSCAN与层次聚类分析369
16.1 密度聚类简介370
16.1.1 密度聚类相关的概念370
16.1.2 密度聚类的步骤371
16.2 密度聚类与Kmeans的比较373
16.3 层次聚类376
16.3.1 簇间的距离度量377
16.3.2 层次聚类的步骤378
16.3.3 三种层次聚类的比较380
16.4 密度聚类与层次聚类的应用——基于各省出生率与死亡率的聚类382
16.5 本章小结388
16.6 课后练习390
内容摘要
\\\\\\\\\\\\\\\"本书以Python3.7版本作为数据分析与挖掘实战的应用工具,从Python的基础语法开始,陆续介绍有关数值计算的numpy、数据处理的pandas、数据可视化的matplotlib和数据挖掘的sklearn等内容。全书共涵盖15种可视化图形以及10个常用的数据挖掘算法和实战项目,通过本书的学习,读者可以掌握数据分析与挖掘的理论知识和实战技能。
本书适于统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生使用,也能够提高从事数据咨询、研究或分析等人士的专业水平和技能。
\\\\\\\\\\\\\\\"
— 没有更多了 —
以下为对购买帮助不大的评价