• python 大数据分析 数据库 (美)ivan marin 新华正版
  • python 大数据分析 数据库 (美)ivan marin 新华正版
21年品牌 40万+商家 超1.5亿件商品

python 大数据分析 数据库 (美)ivan marin 新华正版

41.1 6.0折 69 全新

库存3件

河北保定
认证卖家担保交易快速发货售后保障

作者(美)ivan marin

出版社北京航空航天大学出版社

ISBN9787512440715

出版时间2023-04

版次1

装帧平装

开本16

页数248页

定价69元

货号702_9787512440715

上书时间2024-06-14

凡凡图书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
目录:

章python数据科学堆栈1

1.1概述1

1.2python库和软件包2

1.2.1ipython:一个功能强大的交互式shell2

1.2.2jupyter notebook4

1.2.3使用ipython还是jupyter8

1.2.4numpy9

1.2.5scipy10

1.2.6matplotlib10

1.2.7pandas11

1.3使用pandas11

1.3.1读取数据12

1.3.2数据作13

1.4数据类型转换21

1.5聚合和分组24

1.6从pandas导出数据26

1.7pandas可视化29

1.8结31

第2章统据可视化33

2.1概述33

2.2可视化图表34

2.3图表的组件36

2.4seaborn40

2.5图的类型41

2.5.1折线图(line graph)42

2.5.2散点图(scatter plot)45

2.5.3直方图(histogram)48

2.5.4箱线图(boxplot)51

2.6pandas dataframe54

2.7修改图的组件57

2.7.1配置轴对象的标题和标签57

2.7.2修改线条和样式60

2.7.3修改图的大小60

2.8导出图像63

2.9结67

第3章使用大数据框架69

3.1概述69

3.2hadoop70

3.2.1使用hdfs控数据71

3.3spark数据处理台73

3.3.1spark sol以及pandas dataframe75

3.4parquet文件80

3.4.1编写parquet文件81

3.4.2使用parquet和partitions提高分析能82

3.5处理非结构化数据84

3.6结87

第4章spark dataframe89

4.1概述89

4.2使用spark dataframe使用方法90

4.3从spark dataframe中写入输出94

4.4探索和了解spark dataframe更多特点95

4.5使用spark dataframe对数据进行相关作98

4.6spark dataframe绘制图形106

4.7结112

第5章处理缺失值以及相关分析114

5.1概述114

5.2设置jupyter notebook115

5.3缺失值116

5.4处理spark dataframe中的缺失值119

5.5相关121

5.6结126

第6章进行探索数据分析127

6.1概述127

6.2定义商业问题128

6.2.1问题识别129

6.2.2需求收集130

6.2.3数据管道和工作流130

6.2.4识别可测量的指标130

6.2.5文档和展示131

6.3将商业问题转化为可测量的度量标准和进行探索数据分析(exploratory data analysis, eda)131

6.3.1数据采集132

6.3.2数据生成分析132

6.3.3kpi可视化133

6.3.4特征重要133

6.4数据科学项目生命周期的结构化方法145

6.4.1阶段:理解和定义业务问题146

6.4.2第二阶段:数据访问与发现146

6.4.3第三阶段:数据工程和预处理147

6.4.4第四阶段:模型开发148

6.5结149

第7章大数据分析中的再现150

7.1概述150

7.2jupyter notebooks的再现151

7.2.1业务问题介绍152

7.2.2记录方法和工作流程152

7.2.3数据管道153

7.2.4相关153

7.2.5使用源代码版本控制153

7.2.6模块化过程154

7.3以可复制的方式收集数据154

7.3.1标记单元格和代码单元格中的功能155

7.3.2解释标记语言中的业务问题156

7.3.3提供数据源的详细介绍157

7.3.4解释标记中的数据属157

7.4进行编码实践和标准编写162

7.4.1环境文件162

7.4.2编写带有注释的可读代码162

7.4.3工作流程的有效分割163

7.4.4工作流文档163

7.5避重复167

7.5.1使用函数和循环优化代码168

7.5.2为代码/算法重用开发库/包169

7.6结170

第8章创建完整的分析报告171

8.1概述171

8.2spark可从不同的数据源读取数据172

8.3在spark dataframe上进行sql作173

8.4生成统计测量值181

8.5结185

附录187

内容简介:

这本书先介绍了如何使用ppanda在python中进行数据作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用dak分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳数据时,为绘图聚合数据。本书还将带领您探索hadoop(hdf和yarn),它可帮助您处理更大的数据集。此外,这本书还介绍了park相关知识,并解释了它如何与其他工具进行交互。
python大数据分析是为python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP