Python数据科学实战
全新正版 极速发货
¥
110.78
6.2折
¥
178
全新
库存5件
作者(美)内森·乔治|责编:刘志红|译者:殷海英
出版社电子工业
ISBN9787121459429
出版时间2023-07
装帧平装
开本其他
定价178元
货号1203008691
上书时间2024-10-21
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
NathanGeorge在科罗拉多州丹佛市的里吉斯大学(RegisUniversity)担任教授并讲授了4年的数据科学课程。他拥有化学工程、LED照明用荧光粉和薄膜太阳能电池方面的相关背景,并利用所学知识成为一名数据科学家。他为Regis、DataCamp和ManningliveProject创建了许多数据科学课程。Nathan还为在Udacity学习人工智能和机器学习的学生提供指导。他目前在瑞典斯德哥尔摩的一家金融科技公司Tink担任数据科学家。
殷海英,从2013年底开始在美国大学作为客座教授,主持数据分析与数据科学项目的研究生研修班,截止2021年已经开办近20期,培训来自世界多个国家的数百名硕士(含博士)研究生。并独立编写数据分析与数据科学教材,并设计多版实训教程。在甲骨文公司,作为亚太区的数据科学家参与Oracle数据科学产品的研发与推广。近期的主要研究方向为机器视觉与高性能运算在现实当中的应用。作为甲骨文公司官方媒体的管理员及编辑,从2016年起编写并发表近100篇技术文章,涵盖数据库技术、数据科学以及机器视觉等方面。
目录
第1部分 简介和基础知识
第1章 数据科学简介2
数据科学的起源2
顶级数据科学工具和技能5
GUI和平台9
云端工具10
统计方法和数学12
数据的收集、组织和准备12
软件开发13
业务理解与沟通13
数据科学及相关专业13
选择如何专业化16
数据科学项目方法论18
进一步阅读数据科学项目管理策略20
本章测试21
本章小结21
第2章 Python入门23
使用Anaconda安装并使用Python23
运行Python代码25
为什么使用命令行31
安装并使用代码文本编辑器―VS Code33
安装Python包和创建虚拟环境35
Python基础38
列表、元组、集合和字典45
循环和遍历49
布尔值和条件51
包和模块53
函数55
类57
多线程和多进程58
软件工程最佳实践59
开发技巧62
本章测试64
本章小结64
第2部分 处理数据
第3章 Python中的SQL和内置文件处理模块67
本章主要内容67
使用基础Python加载、读取和写入文件67
在Python中使用SQLAlchemy包85
本章测试87
本章小结88
第4章 使用Pandas和NumPy加载和整理数据89
对iTunes数据进行整理和分析89
使用Pandas进行探索性数据分析(EDA)和基本数据清理94
清洗数据104
使用GroupBy115
将DataFrame写入磁盘116
分析比特币价格数据117
了解NumPy基础知识119
本章测试122
本章小结122
第5章 探索性数据分析和可视化123
Python中的EDA和可视化库123
使用Seaborn和pandas执行EDA124
使用Python EDA包140
使用可视化最佳实践148
为共享及报告保存绘图157
使用Plotly进行绘图158
本章测试161
本章小结161
第6章 数据处理文档和电子表格163
解析和处理Word和PDF文档163
使用Excel文件读取和写入数据176
分析数据181
使用openpyxl处理Excel文件182
本章测试184
本章小结184
第7章 网页抓取186
了解互联网的结构187
执行简单的网页抓取189
从抓取的页面中解析HTML196
使用XPath、lxml和bs4从网页中提取数据199
从多个页面收集数据203
使用API收集数据205
使用API包装器207
网络抓取的道德规范及合法性212
本章测试213
本章小结214
第3部分 数据科学中的统计学
第8章 概率、分布和抽样216
概率基础216
分布223
从数据中采样234
本章测试237
本章小结238
第9章 数据科学的统计检验239
统计检验基础和样本比较检验239
其他统计检验248
本章测验251
本章小结251
第4部分 机器学习
第10章 为机器学习准备数据:特征选择、特征工程和降维253
机器学习的类型253
特征选择255
单变量统计特征选择260
特征工程270
数据的清洗和准备271
转换数值数据277
提取日期时间特征281
分箱(Binning)282
热独编码和标签编码283
降维287
本章测试291
本章小结292
第11章 机器学习分类293
机器学习分类算法293
逻辑回归的工作原理297
使用sklearn检查特征的重要性299
使用统计模型进行逻辑回归301
最大似然估计、优化器和逻辑回归算法304
正则化307
超参数和交叉验证308
大数据的逻辑回归(和其他模型)310
用于二元分类的朴素贝叶斯311
k-最近邻(KNN)313
多类分类315
选择正确的模型319
“没有免费的午餐”定理319
模型的计算复杂度320
本章测试321
本章小结321
第12章 评估机器学习分类模型和分类抽样322
使用指标评估分类算法的性能322
采样和平衡分类数据339
本章测试344
本章小结344
第13章 带有回归的机器学习345
线性回归345
评估回归模型354
线性回归假设358
大数据回归模型362
预测363
本章测试366
本章小结366
第14章 优化模型和使用AutoML368
使用搜索方法进行超参数优化368
使用ML模型优化特征数量377
使用PyCaret进行AutoML378
本章测试384
本章小结384
第15章 基于树的机器学习模型385
决策树385
随机森林390
基于树的方法的特征重要性395
增强树模型:AdaBoost、XGboost、LightGBM和CatBoost397
在GPU上训练增强模型404
LightGBM405
CatBoost408
使用提前停止的算法410
本章测试411
本章小结411
第16章 支持向量机(SVM)机器学习模型413
SVM是如何工作的414
使用SVM416
本章测试421
本章小结421
第5部分 文本分析和报告
第17章 使用机器学习进行聚类423
使用k-means聚类423
聚类指标424
优化k-means中的K425
检查聚类429
层次聚类433
DBSCAN436
其他无监督方法438
本章测试439
本章小结439
第18章 处理文本441
文本预处理441
基本的文本分析453
无监督学习463
监督学习467
本章测试474
本章小结474
第6部分 总结
第19章 讲述数据故事和自动报告及仪表板477
用数据讲故事477
自动报告和仪表板484
本章测试491
本章小结491
第20章 道德与隐私492
机器学习算法的道德492
偏见492
数据隐私495
将数据科学用于公共利益501
其他道德考虑502
本章测试504
本章小结504
第21章 数据科学的发展与未来506
博客、newsletter、书籍和学术资源506
在线学习平台510
云服务511
其他值得关注的内容511
保持与时俱进的策略512
其他没有在本书中涉及的内容512
数据科学的未来发展514
本章小结515
内容摘要
数据科学如今已经深入到我们生活中的各个领域,行业从业者都应该懂得一些数据科学的知识。那么如何能够快速掌握这门流行的技术呢?通过系统地学习本书和动手实践,可以满足这个需求。本书共六个部分,用通俗的语言和生动的例子为读者展现数据科学的魅力。第一部分介绍了数据科学的基本知识,让读者可以轻松了解它的流程与原理。第二部分,通过几个例子为读者介绍如何处理各种数据,从电子表格到网络抓取,涵盖了工作中的常用数据处理方法。第三部分,使用通俗易懂的语言为读者介绍数据科学中使用到的统计学知识。第四部分,通过示例介绍机器学习技术,让读者可以根据以往的数据对未来进行预测。在本书的后两部分,为读者介绍如何对文本进行分析及制作生动的报告,并讨论了数据科学的未来发展趋势。
— 没有更多了 —
以下为对购买帮助不大的评价