• Python大数据与机器学习实战
21年品牌 40万+商家 超1.5亿件商品

Python大数据与机器学习实战

全新正版 极速发货

58.91 5.0折 119 全新

库存2件

广东广州
认证卖家担保交易快速发货售后保障

作者编者:谢彦|责编:高洪霞

出版社电子工业

ISBN9787121384257

出版时间2020-04

装帧其他

开本其他

定价119元

货号30850873

上书时间2024-06-11

谢岳书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
目    录

第1章  Python大数据开发入门1
1.1  大数据工程师必备技能1
1.2  Python开发环境5
1.2.1  Windows环境5
1.2.2  Linux环境7
1.2.3  Docker环境10
1.3  Python开发工具16
1.3.1  Python命令行环境16
1.3.2  Jupyter环境18
1.4  Python数据类型23
1.4.1  数值24
1.4.2  字符串24
1.4.3  列表25
1.4.4  元组26
1.4.5  集合26
1.4.6  字典27
1.5  Python函数和类27
1.5.1  定义和使用函数28
1.5.2  lambda匿名函数28
1.5.3  类和继承28
1.6  Python常用库29
1.6.1  Python内置库29
1.6.2  Python图形图像处理30
1.6.3  Python自然语言处理31
1.6.4  Python数据分析和
处理32
1.6.5  Python机器学习33
1.7  Python技巧34
1.7.1  Python程序调试34
1.7.2  去掉警告信息35
1.7.3  制作和导入模块36
1.7.4  异常处理37
1.8  Python常见问题38
第2章  科学计算Numpy40
2.1  多维数组40
2.1.1  创建数组40
2.1.2  访问数组42
2.1.3  修改数组43
2.2  数组元素运算44
2.2.1  一元函数44
2.2.2  二元函数45
2.2.3  广播46
2.2.4  自定义ufunc函数47

2.3  常用函数48
2.3.1  分段函数48
2.3.2  统计函数49
2.3.3  组合与分割51
2.3.4  矩阵与二维数组52
2.3.5  其他常用函数54
第3章  数据操作Pandas55
3.1  数据对象55
3.1.1  Series对象55
3.1.2  DataFrame对象57
3.1.3  Index对象60
3.2  数据存取63
3.2.1  访问数据表元素63
3.2.2  修改数据表元素66
3.3  分组运算68
3.3.1  分组69
3.3.2  聚合70
3.3.3  转换71
3.3.4  过滤72
3.3.5  应用72
3.4  日期时间处理73
3.4.1  Python日期时间处理73
3.4.2  Pandas日期时间处理75
3.4.3  时间序列操作76
3.4.4  数据重排84
第4章  数据可视化86
4.1  Matplotlib绘图库87
4.1.1  准备工作87
4.1.2  散点图与气泡图88
4.1.3  线图90

4.1.4  柱图92
4.1.5  饼图95
4.1.6  箱线图和小提琴图96
4.1.7  三维图97
4.1.8  Matplotlib绘图区域100
4.1.9  文字显示问题103
4.1.10  导出图表104
4.1.11  Matplotlib技巧105
4.2  Seaborn高级数据可视化107
4.2.1  准备工作107
4.2.2  连续变量相关图108
4.2.3  分类变量图109
4.2.4  回归图113
4.2.5  多图组合115
4.2.6  热力图118
4.2.7  印刷品作图119
4.3  PyEcharts交互图119
4.3.1  ECharts119
4.3.2  准备工作120
4.3.3  绘制交互图120
4.3.4  在网页中显示图123
第5章  获取数据125
5.1  读写文件126
5.1.1  读写文本文件126
5.1.2  写日志文件127
5.1.3  读写XML文件128
5.1.4  读写Json文件130
5.1.5  读写CSV文件131
5.1.6  读写PKL文件132
5.1.7  读写HDF5文件133
5.1.8  读写Excel文件134

5.2  读写数据库135
5.2.1  数据库基本操作136
5.2.2  Python存取MySQL
数据库138
5.2.3  Python存取SQL Server
数据库140
5.2.4  Python存取Sqlite
数据库143
5.2.5  Python存取Dbase
数据库143
5.3  读写数据仓库144
5.3.1  读取ElasticSearch
数据144
5.3.2  读取S3云存储数据146
5.3.3  读取Hive数据148
5.4  获取网络数据151
5.4.1  从网络接口读取
数据151
5.4.2  抓取网站数据152
5.4.3  使用POST方法抓取
数据153
5.4.4  转换HTML文件153
5.5  选择数据存储方式154
第6章  数据预处理155
6.1  数据类型识别与转换155
6.1.1  基本类型转换156
6.1.2  数据类型识别157
6.2  数据清洗158
6.2.1  缺失值处理158
6.2.2  异常值处理160
6.2.3  去重处理162
6.3  数据归约163
6.3.1  经验筛选特征163
6.3.2  统计学方法筛选
特征163
6.3.3  模型筛选特征164
6.3.4  数学方法降维165
6.4  数据抽样166
6.4.1  简单随机抽样167
6.4.2  系统抽样168
6.4.3  分层抽样168
6.4.4  整群抽样168
6.5  数据组合169
6.5.1  merge函数169
6.5.2  concat函数170
6.6  特征提取171
6.6.1  数值型特征171
6.6.2  分类型特征171
6.6.3  字符型特征172
第7章  数据分析175
7.1  入门实例175
7.2  假设检验177
7.2.1  基本概念177
7.2.2  假设检验的步骤178
7.2.3  统计分析工具178
7.3  参数检验与非参数检验179
7.3.1  正态性检验179
7.3.2  方差齐性检验181
7.3.3  分析检验结果182
7.4  T检验182
7.4.1  单样本T检验182
7.4.2  独立样本T检验183

7.4.3  配对样本T检验183
7.5  方差分析184
7.6  秩和检验185
7.7  卡方检验186
7.8  相关性分析187
7.8.1  图形描述相关性188
7.8.2  正态资料的相关
分析189
7.8.3  非正态资料的相关
分析190
7.9  变量分析190
7.9.1  单变量分析190
7.9.2  多变量分析191
7.10  TableOne工具193
7.11  统计方法总结194
第8章  机器学习基础知识196
8.1  基本概念196
8.1.1  深度学习、机器学习、
人工智能197
8.1.2  有监督学习、无监督
学习、半监督学习197
8.1.3  训练集、验证集、
测试集198
8.1.4  过拟合与欠拟合198
8.1.5  常用术语199
8.2  评价模型199
8.2.1  方差、协方差、协
方差矩阵200
8.2.2  距离与范数204
8.2.3  回归效果评估207
8.2.4  分类效果评估210
第9章  机器学习模型与工具216
9.1  基于距离的算法217
9.1.1  K近邻算法217
9.1.2  聚类算法219
9.2  线性回归与逻辑回归221
9.2.1  线性回归222
9.2.2  逻辑回归225
9.3  支持向量机226
9.4  信息熵和决策树230
9.4.1  信息量和熵231
9.4.2  决策树234
9.5  关联规则236
9.5.1  Apriori关联规则237
9.5.2  FP-Growth关联
分析240
9.6  贝叶斯模型242
9.6.1  贝叶斯公式242
9.6.2  朴素贝叶斯算法244
9.6.3  贝叶斯网络248
9.7  隐马尔可夫模型250
9.8  集成算法254
第10章  模型选择与相关技术259
10.1  数据准备与模型选择259
10.1.1  预处理259
10.1.2  选择模型260
10.2  自动机器学习框架263
10.2.1  框架原理263
10.2.2  Auto-Sklearn264
10.2.3  Auto-ML266
10.2.4  Auto-Keras267

10.3  自然语言处理269
10.3.1  分词工具269
10.3.2  TF-IDF271
10.4  建模相关技术274
10.4.1  切分数据集与交叉
验证274
10.4.2  模型调参276
10.4.3  学习曲线和验证
曲线279
10.4.4  保存模型282
第11章  大数据竞赛平台283
11.1  定义问题283
11.1.1  强人工智能与弱
人工智能284
11.1.2  Datathon竞赛285
11.2  算法竞赛286
11.2.1  大数据竞赛平台
优势287
11.2.2  Kaggle大数据
平台288
11.2.3  实战

内容摘要
本书结合作者十余年软件开发、系统架构、算法实战及培训经验,致力于系统地阐释Python大数据和机器学习技术。从数据的采集、存储、清洗;到建立模型、统计分析;最终用前端程序呈现给用户的数据展示;以及后台的系统服务支持。结合了Python数据工具使用、算法原理、以及典型实例各个层面,希望读者通过对本书的阅读,少走弯路,以最小的学习成本得到最大的知识收益。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP