• Python数据科学实战
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

Python数据科学实战

115.3 6.5折 178 全新

库存30件

河北保定
认证卖家担保交易快速发货售后保障

作者[美]Nathan George(内森·乔治)

出版社电子工业出版社

出版时间2023-07

版次1

装帧其他

货号1

上书时间2024-07-04

尚贤文化东营分店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 [美]Nathan George(内森·乔治)
  • 出版社 电子工业出版社
  • 出版时间 2023-07
  • 版次 1
  • ISBN 9787121459429
  • 定价 178.00元
  • 装帧 其他
  • 页数 548页
【内容简介】
数据科学如今已经深入到我们生活中的各个领域,行业从业者都应该懂得一些数据科学的知识。那么如何能够快速掌握这门流行的技术呢?通过系统地学习本书和动手实践,可以满足这个需求。本书共六个部分,用通俗的语言和生动的例子为读者展现数据科学的魅力。第一部分介绍了数据科学的基本知识,让读者可以轻松了解它的流程与原理。第二部分,通过几个例子为读者介绍如何处理各种数据,从电子表格到网络抓取,涵盖了工作中的常用数据处理方法。第三部分,使用通俗易懂的语言为读者介绍数据科学中使用到的统计学知识。第四部分,通过示例介绍机器学习技术,让读者可以根据以往的数据对未来进行预测。在本书的后两部分,为读者介绍如何对文本进行分析及制作生动的报告,并讨论了数据科学的未来发展趋势。
【作者简介】
Nathan George在科罗拉多州丹佛市的里吉斯大学(Regis University)担任教授并讲授了4年的数据科学课程。他拥有化学工程、LED照明用荧光粉和薄膜太阳能电池方面的相关背景,并利用所学知识成为一名数据科学家。他为Regis、DataCamp和ManningliveProject创建了许多数据科学课程。Nathan还为在Udacity学习人工智能和机器学习的学生提供指导。他目前在瑞典斯德哥尔摩的一家金融科技公司Tink担任数据科学家。

殷海英,从2013年底开始在美国大学作为客座教授,主持数据分析与数据科学项目的研究生研修班,截止2021年已经开办近20期,培训来自世界多个国家的数百名硕士(含博士)研究生。并独立编写数据分析与数据科学教材,并设计多版实训教程。在甲骨文公司,作为亚太区的数据科学家参与Oracle数据科学产品的研发与推广。近期的主要研究方向为机器视觉与高性能运算在现实当中的应用。作为甲骨文公司官方媒体的管理员及编辑,从2016年起编写并发表近100篇技术文章,涵盖数据库技术、数据科学以及机器视觉等方面。
【目录】
第1部分  简介和基础知识

第1章  数据科学简介2

数据科学的起源2

顶级数据科学工具和技能5

GUI和平台9

云端工具10

统计方法和数学12

数据的收集、组织和准备12

软件开发13

业务理解与沟通13

数据科学及相关专业13

选择如何专业化16

数据科学项目方法论18

进一步阅读数据科学项目管理策略20

本章测试21

本章小结21

第2章  Python入门23

使用Anaconda安装并使用Python23

运行Python代码25

为什么使用命令行31

安装并使用代码文本编辑器—VS Code33

安装Python包和创建虚拟环境35

Python基础38

列表、元组、集合和字典45

循环和遍历49

布尔值和条件51

包和模块53

函数55

类57

多线程和多进程58

软件工程最佳实践59

开发技巧62

本章测试64

本章小结64

第2部分  处理数据

第3章  Python中的SQL和内置文件处理模块67

本章主要内容67

使用基础Python加载、读取和写入文件67

在Python中使用SQLAlchemy包85

本章测试87

本章小结88

第4章  使用Pandas和NumPy加载和整理数据89

对iTunes数据进行整理和分析89

使用Pandas进行探索性数据分析(EDA)和基本数据清理94

清洗数据104

使用GroupBy115

将DataFrame写入磁盘116

分析比特币价格数据117

了解NumPy基础知识119

本章测试122

本章小结122

第5章  探索性数据分析和可视化123

Python中的EDA和可视化库123

使用Seaborn和pandas执行EDA124

使用Python EDA包140

使用可视化最佳实践148

为共享及报告保存绘图157

使用Plotly进行绘图158

本章测试161

本章小结161

第6章  数据处理文档和电子表格163

解析和处理Word和PDF文档163

使用Excel文件读取和写入数据176

分析数据181

使用openpyxl处理Excel文件182

本章测试184

本章小结184

第7章  网页抓取186

了解互联网的结构187

执行简单的网页抓取189

从抓取的页面中解析HTML196

使用XPath、lxml和bs4从网页中提取数据199

从多个页面收集数据203

使用API收集数据205

使用API包装器207

网络抓取的道德规范及合法性212

本章测试213

本章小结214

第3部分  数据科学中的统计学

第8章  概率、分布和抽样216

概率基础216

分布223

从数据中采样234

本章测试237

本章小结238

第9章  数据科学的统计检验239

统计检验基础和样本比较检验239

其他统计检验248

本章测验251

本章小结251

第4部分  机器学习

第10章  为机器学习准备数据:特征选择、特征工程和降维253

机器学习的类型253

特征选择255

单变量统计特征选择260

特征工程270

数据的清洗和准备271

转换数值数据277

提取日期时间特征281

分箱(Binning)282

热独编码和标签编码283

降维287

本章测试291

本章小结292

第11章  机器学习分类293

机器学习分类算法293

逻辑回归的工作原理297

使用sklearn检查特征的重要性299

使用统计模型进行逻辑回归301

最大似然估计、优化器和逻辑回归算法304

正则化307

超参数和交叉验证308

大数据的逻辑回归(和其他模型)310

用于二元分类的朴素贝叶斯311

k-最近邻(KNN)313

多类分类315

选择正确的模型319

“没有免费的午餐”定理319

模型的计算复杂度320

本章测试321

本章小结321

第12章  评估机器学习分类模型和分类抽样322

使用指标评估分类算法的性能322

采样和平衡分类数据339

本章测试344

本章小结344

第13章  带有回归的机器学习345

线性回归345

评估回归模型354

线性回归假设358

大数据回归模型362

预测363

本章测试366

本章小结366

第14章  优化模型和使用AutoML368

使用搜索方法进行超参数优化368

使用ML模型优化特征数量377

使用PyCaret进行AutoML378

本章测试384

本章小结384

第15章  基于树的机器学习模型385

决策树385

随机森林390

基于树的方法的特征重要性395

增强树模型:AdaBoost、XGboost、LightGBM和CatBoost397

在GPU上训练增强模型404

LightGBM405

CatBoost408

使用提前停止的算法410

本章测试411

本章小结411

第16章  支持向量机(SVM)机器学习模型413

SVM是如何工作的414

使用SVM416

本章测试421

本章小结421

第5部分  文本分析和报告

第17章  使用机器学习进行聚类423

使用k-means聚类423

聚类指标424

优化k-means中的K425

检查聚类429

层次聚类433

DBSCAN436

其他无监督方法438

本章测试439

本章小结439

第18章  处理文本441

文本预处理441

基本的文本分析453

无监督学习463

监督学习467

本章测试474

本章小结474

第6部分  总结

第19章  讲述数据故事和自动报告及仪表板477

用数据讲故事477

自动报告和仪表板484

本章测试491

本章小结491

第20章  道德与隐私492

机器学习算法的道德492

偏见492

数据隐私495

将数据科学用于公共利益501

其他道德考虑502

本章测试504

本章小结504

第21章  数据科学的发展与未来506

博客、newsletter、书籍和学术资源506

在线学习平台510

云服务511

其他值得关注的内容511

保持与时俱进的策略512

其他没有在本书中涉及的内容512

数据科学的未来发展514

本章小结515
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP