消息首页搜索举报

Pandas数据分析

批量上传，套装书可能不全，下单前咨询在线客服！正版书！！！

82.71 4.9折 169 全新

库存19件

四川成都

认证卖家担保交易快速发货售后保障

作者[美]斯蒂芬妮·莫林著李强译

出版社清华大学出版社

ISBN9787302631354

出版时间2023-06

装帧平装

开本16开

定价169元

货号29599087

上书时间2024-10-21

百叶图书

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 19小时
好评率暂无

最新上架

我最想学的社交读心术 ¥19.26

工程造价案例分析第3版 ¥22.97

法理学。宪法学3 ¥24.57

畅游首尔－新浪草根名博深度体验之旅 ¥31.76

领导应用逻辑 ¥13.38

马克思主义发展史纲 ¥10.89

机械制图与计算机辅助绘图习题集 ¥18.18

日常生活英语口语看这本就够 ¥26.90

会计和审计中的实验研究方法 ¥12.79

商品详情

品相描述：全新

商品描述

前言

数据科学通常被认为是一个跨学科领域，涉及编程技能、统计知识和领域知识等。它已经迅速成为当今社会最热门的领域之一，而了解如何处理数据将使你在职业生涯中拥有很大的优势。无论是哪个行业、职位或项目，对数据技能的需求都很高，因此学习和掌握数据分析技能对于现代人来说至关重要。

数据科学领域涵盖许多不同方面：数据分析师更专注于提取业务见解，数据科学家重在将机器学习技术应用于业务问题，数据工程师专注于设计、构建和维护数据分析师和科学家使用的数据管道，机器学习工程师则拥有数据科学家的大部分技能，并且与数据工程师一样，都是熟练的软件工程师。

由此可见，数据科学涵盖许多领域，但对于它所涉及的领域而言，数据分析都是一个基本组成部分。你无论是要成为数据分析师、数据科学家、数据工程师，还是机器学习工程师，本书都可以为你提供基础技能。

数据科学中的传统技能包括了解如何从各种来源（如数据库和API）收集数据并对其进行处理。Python是一种流行的数据科学语言，它提供了收集和处理数据以及构建生产质量数据产品的方法。由于它是开源的，因此我们很容易通过利用其他人编写的库解决常见的数据任务和问题。

Pandas是强大且流行的库，是Python中数据科学的代名词。本书将向你介绍如何使用Pandas对真实世界的数据集进行数据分析，如股市数据、模拟黑客攻击的数据、天气趋势、地震数据、葡萄酒数据和天文数据等。Pandas使我们能够有效地处理表格数据，从而使数据整理和可视化变得更容易。

一旦学会了如何进行数据分析，就可以探索一些应用。我们将构建Python包，并借助常用于数据可视化、数据整理和机器学习的其他库（如Matplotlib、Seaborn、NumPy和scikit-learn）。学习完本书之后，你将有能力用Python完成自己的数据科学项目。

本书读者

本书是为那些想要学习Python数据科学的具有不同经验水平的人编写的，如果你的知识背景与以下一项（或两项）相似，则可从本书中获得最大收益：

你之前拥有使用另一种语言（如R、SAS或MATLAB）的数据科学经验，并且想要学习Pandas以便将你的工作流转移到Python。

你拥有一些Python经验，并希望使用Python学习数据科学。

内容介绍

本书内容分为5篇共12章，具体介绍如下。

第1篇：Pandas入门，包括第1～2章。

第1章“数据分析导论”，阐释数据分析的基础知识、统计学基础知识，并指导你设置环境以在Python中处理数据和使用Jupyter Notebook。

第2章“使用Pandas DataFrame”，详细介绍Pandas数据结构，并演示创建Pandas DataFrame和检查DataFrame对象的操作。

第2篇：使用Pandas进行数据分析，包括第3～6章。

第3章“使用Pandas进行数据整理”，介绍数据整理的过程，展示如何探索API以收集数据，并指导你使用Pandas进行数据清理和重塑。

第4章“聚合Pandas DataFrame”，介绍如何查询和合并DataFrame，如何对DataFrame执行复杂的操作（包括滚动计算和聚合），以及如何有效地处理时间序列数据。

第5章“使用Pandas和Matplotlib可视化数据”，介绍如何在Python中创建数据可视化，首先使用Matplotlib库，然后直接从Pandas对象中创建绘图。

第6章“使用Seaborn和自定义技术绘图”，继续介绍数据可视化，演示如何使用Seaborn库可视化长格式数据，并阐释自定义可视化所需的工具，使其可用于演示。

第3篇：使用Pandas进行实际应用分析，包括第7～8章。

第7章“金融分析”，介绍构建Python包的操作，演示如何创建用于分析股票的Python包，并将其应用于金融应用程序。

第8章“基于规则的异常检测”，介绍模拟登录尝试数据并执行探索性数据分析的操作，然后使用基于规则的方法实现黑客登录异常检测策略。

第4篇：scikit-learn和机器学习，包括第9～11章。

第9章“Python机器学习入门”，介绍机器学习和使用scikit-learn库构建模型，以执行聚类、回归和分类等任务。

第10章“做出更好的预测”，展示调整和提高机器学习模型性能的策略。

第11章“机器学习异常检测”，使用机器学习技术重新执行登录尝试数据的异常检测任务，演示无监督学习和有监督学习工作流。

第5篇：其他资源，包括第12章。

第12章“未来之路”，提供更多资源，以方便你继续数据科学探索之旅。

充分利用本书

你应该熟悉Python，尤其是Python 3及更高版本。另外，你还应该知道如何用Python编写函数和基本脚本，了解变量、数据类型和控制流（if/else、for/while循环）等标准编程概念，并能够使用Python作为函数式编程语言。掌握一些面向对象编程的基本知识可能对你会有所帮助，但不是必需的。如果你的Python实力还没有达到这个水平，则Python文档包含一个有用的教程，可帮助你快速上手：

https://docs.python.org/3/tutorial/index.html

本书随附的代码可以在GitHub上找到，其网址如下：

https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition

为了充分利用本书，可在Jupyter Notebook中进行操作（每章都提供了相应的笔记本）。在第1章“数据分析导论”中介绍了设置环境和获取这些文件的操作。本书还有一个Python入门笔记本提供了速成课程，其网址如下：

https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition/blob/master/ch_01/python_101.ipynb

最后，一定要认真完成每章末尾的练习。其中一些练习可能非常具有挑战性，但它们会使你对章节内容的理解变得更透彻。每章练习的答案可在以下网址中找到：

https://github.com/stefmolin/Hands-On-Data-Analysis-with-Pandas-2nd-edition/tree/master/solutions

下载彩色图像

我们还提供了一个PDF文件，其中包含本书中使用的屏幕截图/图表的彩色图像。你可通过以下地址下载：

https://static.packt-cdn.com/downloads/9781800563452_ColorImages.pdf

本书约定

本书中使用了许多文本约定。

（1）有关代码块的设置如下。代码行将以>>>开头，而该行的后续行将以...开头：

>>> df = pd.read_csv(

... 'data/fb_2018.csv', index_col='date', parse_dates=True

... )

>>> df.head()

任何前面没有>>>或...的代码都不是我们将要运行的，它们仅供参考：

try:

del df['ones']

except KeyError:

pass # 在此处理错误

（2）要突出代码块时，相关行将加粗显示：

>>> df.price.plot(

... title='Price over Time', ylim=(0, None)

... )

（3）代码结果前不会显示任何内容：

>>> pd.Series(np.random.rand(2), name='random')

0 0.235793

1 0.257935

Name: random, dtype: float64

（4）任何命令行输入或输出都采用如下所示的粗体代码形式：

# Windows:

C:\path\of\your\choosing> mkdir pandas_exercises

# Linux, Mac, and shorthand:

$ mkdir pandas_exercises

（5）术语或重要单词采用中英文对照的形式给出，在括号内保留其英文原文。示例如下：

虽然箱形图是初步了解分布的好工具，但我们仍无法了解每个四分位数内的分布情况。为此，可以转向对离散（discrete）变量（如人数或书籍数量）使用直方图（histogram），而对连续（continuous）变量（如高度或时间）则使用核密度估计（kernel density estimates，KDE）。

（6）对于界面词汇或专有名词将保留其英文原文，在括号内添加其中文译名。示例如下：

在File Browser（文件浏览器）窗格中，双击 ch_01 文件夹，其中应该已经包含我们将用于验证设置的Jupyter Notebook。

（6）本书还使用了以下两个图标：

表示警告或重要的注意事项。

表示提示信息或操作技巧。

导语摘要

《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案，主要包括数据分析导论、使用Pandas DataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seaborn和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学用书和参考手册。

作者简介

斯蒂芬妮·莫林是纽约彭博有限合伙企业（Bloomberg LP）的数据科学家和软件工程师，负责解决信息安全方面的棘手问题，特别是围绕异常检测、构建数据收集工具和知识共享等方面的工作。她在数据科学、设计异常检测解决方案以及在广告技术（AdTech）和金融科技（FinTech）行业中利用R和Python的机器学习方面拥有丰富的经验。
她拥有哥伦比亚大学傅氏基金工程和应用科学学院运筹学学士学位，辅修经济学、创业与创新。在闲暇时间，她喜欢环游世界、发明新食谱、学习人与计算机之间使用的新语言。

第1篇  Pandas入门
第1章  数据分析导论 3
1.1  章节材料 3
1.2  数据分析基础知识 5
1.2.1  数据收集 6
1.2.2  数据整理 7
1.2.3  探索性数据分析 8
1.2.4  得出结论 9
1.3  统计基础知识 10
1.3.1  采样 11
1.3.2  描述性统计 12
1.3.3  集中趋势的度量 12
1.3.4  均值 12
1.3.5  中位数 13
1.3.6  众数 13
1.3.7  数据散布的度量 14
1.3.8  全距 14
1.3.9  方差 15
1.3.10  标准差 15
1.3.11  变异系数 16
1.3.12  四分位距 17
1.3.13  四分位离散系数 17
1.3.14  汇总数据 18
1.3.15  常见分布 22
1.3.16  缩放数据 24
1.3.17  量化变量之间的关系 25
1.3.18  汇总统计的陷阱 27
1.3.19  预测 28
1.3.20  推论统计 32
1.4  设置虚拟环境 35
1.4.1  虚拟环境 35
1.4.2  使用venv 36
1.4.3  Windows中的操作 37
1.4.4  Linux/macOS中的操作 37
1.4.5  使用conda 38
1.4.6  安装所需的Python包 40
1.4.7  关于Pandas 40
1.4.8  Jupyter Notebook 41
1.4.9  启动JupyterLab 41
1.4.10  验证虚拟环境 43
1.4.11  关闭JupyterLab 45
1.5  小结 45
1.6  练习 46
1.7  延伸阅读 47
第2章  使用Pandas DataFrame 49
2.1  章节材料 49
2.2  Pandas数据结构 50
2.2.1  Series 55
2.2.2  Index 56
2.2.3  DataFrame 57
2.3  创建Pandas DataFrame 60
2.3.1  从Python对象中创建DataFrame 61
2.3.2  从文件中创建DataFrame 65
2.3.3  从数据库中创建DataFrame 69
2.3.4  从API中获取数据以创建DataFrame 71
2.4  检查DataFrame对象 74
2.4.1  检查数据 74
2.4.2  描述数据 77
2.5  抓取数据的子集 80
2.5.1  选择列 81
2.5.2  切片 84
2.5.3  索引 86
2.5.4  过滤 88
2.6  添加和删除数据 95
2.6.1  创建新数据 96
2.6.2  删除不需要的数据 104
2.7  小结 106
2.8  练习 107
2.9  延伸阅读 107
第2篇  使用Pandas进行数据分析
第3章  使用Pandas进行数据整理 111
3.1  章节材料 112
3.2  关于数据整理 113
3.2.1  数据清洗 114
3.2.2  数据转换 114
3.2.3  宽数据格式 116
3.2.4  长数据格式 118
3.2.5  数据充实 121
3.3  探索API以查找和收集温度数据 122
3.4  清洗数据 132
3.4.1  重命名列 133
3.4.2  类型转换 134
3.4.3  按值排序 140
3.4.4  索引排序 143
3.4.5  设置索引 144
3.4.6  重置索引 145
3.4.7  重新索引 146
3.5  重塑数据 153
3.5.1  转置DataFrame 155
3.5.2  旋转DataFrame 155
3.5.3  融合DataFrame 161
3.6  处理重复、缺失或无效的数据 164
3.6.1  查找有问题的数据 164
3.6.2  处理潜在的问题 171
3.7  小结 180
3.8  练习 180
3.9  延伸阅读 182
第4章  聚合Pandas DataFrame 183
4.1  章节材料 183
4.2  在DataFrame上执行数据库风格的操作 185
4.2.1  查询DataFrame 186
4.2.2  合并DataFrame 187
4.3  使用DataFrame操作充实数据 197
4.3.1  算术和统计 198
4.3.2  分箱 200
4.3.3  应用函数 205
4.3.4  窗口计算 207
4.3.5  滚动窗口 207
4.3.6  扩展窗口 210
4.3.7  指数加权移动窗口 211
4.3.8  管道 212
4.4  聚合数据 215
4.4.1  汇总DataFrame 217
4.4.2  按组聚合 218
4.4.3  数据透视表和交叉表 224
4.5  处理时间序列数据 227
4.5.1  基于日期选择和过滤数据 228
4.5.2  基于时间选择和过滤数据 230
4.5.3  移动滞后数据 234
4.5.4  差分数据 235
4.5.5  重采样 236
4.5.6  合并时间序列 240
4.6  小结 242
4.7  练习 243
4.8  延伸阅读 245
第5章  使用Pandas和Matplotlib可视化数据 247
5.1  章节材料 247
5.2  Matplotlib简介 249
5.2.1  基础知识 249
5.2.2  绘图组件 255
5.2.3  其他选项 258
5.3  使用Pandas绘图 260
5.3.1  随时间演变 262
5.3.2  变量之间的关系 269
5.3.3  分布 275
5.3.4  计数和频率 283
5.4  pandas.plotting模块 291
5.4.1  散点图矩阵 291
5.4.2  滞后图 294
5.4.3  自相关图 296
5.4.4  自举图 297
5.5  小结 298
5.6  练习 299
5.7  延伸阅读 299
第6章  使用Seaborn和自定义技术绘图 301
6.1  章节材料 301
6.2  使用Seaborn进行高级绘图 303
6.2.1  分类数据 304
6.2.2  相关性和热图 308
6.2.3  回归图 317
6.2.4  分面 321
6.3  使用Matplotlib格式化绘图 323
6.3.1  标题和标签 323

— 没有更多了 —

Pandas数据分析

百叶图书

商品详情

相关推荐