• Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
21年品牌 40万+商家 超1.5亿件商品

Python和PySpark数据分析

全新正版 极速发货

77.25 6.5折 118 全新

库存5件

广东广州
认证卖家担保交易快速发货售后保障

作者(加)乔纳森·里乌

出版社清华大学出版社

ISBN9787302645368

出版时间2023-10

装帧平装

开本16开

定价118元

货号1203112730

上书时间2024-06-13

徐小智的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
    作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

目录
第1章介绍1

1.1什么是PySpark1

1.1.1从头开始:什么是Spark2

1.1.2PySpark=Spark+Python3

1.1.3为什么选择PySpark3

1.2PySpark的工作原理5

1.2.1使用集群管理器进行物理规划6

1.2.2懒惰的主管成就工厂的高效8

1.3你将从本书学到什么11

1.4我们将如何开始12

1.5本章小结13

第Ⅰ部分介绍:PySpark的第一步

第2章使用PySpark编写的第一个数据处理程序17

2.1设置pysparkshell18

2.1.1SparkSession入口点20

2.1.2配置PySpark的日志级别21

2.2映射程序22

2.3采集和探索:为数据转换奠定基础23

2.3.1用spark.read将数据读入数据帧24

2.3.2从结构到内容:使用show()探索数据帧27

2.4简单的列转换:将句子拆解为单词列表29

2.4.1使用select()选择特定的列30

2.4.2转换列:将字符串拆分为单词列表31

2.4.3重命名列:alias和withColumnRenamed33

2.4.4重塑数据:将list分解成行34

2.4.5处理单词:更改大小写并删除标点符号36

2.5筛选记录38

2.6本章小结40

2.7扩展练习40

第3章提交并扩展你的第一个PySpark程序43

3.1对记录进行分组:计算词频43

3.2使用orderBy对结果排序46

3.3保存数据帧中的数据48

3.4整合所有内容:计数49

3.4.1使用PySpark的导入约定简化依赖50

3.4.2通过方法链简化程序51

3.5使用spark-submit以批处理模式启动程序53

3.6本章未涉及的内容54

3.7扩展词频程序55

3.8本章小结56

3.9扩展练习57

第4章使用pyspark.sql分析表格数据59

4.1什么是表格数据60

4.2使用PySpark分析和处理表格数据62

4.3在PySpark中读取和评估带分隔符的数据63

4.3.1第一次使用专门处理CSV文件的SparkReader63

4.3.2自定义SparkReader对象来读取CSV数据文件65

4.3.3探索数据世界的轮廓67

4.4数据操作基础:选择、删除、

重命名、排序及诊断68

4.4.1了解我们想要什么:选择列69

4.4.2只保留我们想要的:删除列71

4.4.3创建新列:使用withColumn()创建新列73

4.4.4整理数据帧:对列进行重命名和重排序76

4.4.5用describe()和summary()分析数据帧78

4.5本章小结80

4.6扩展练习80

第5章数据帧操作:连接和分组83

5.1连接数据83

5.1.1探索连接的世界84

5.1.2了解连接的两边85

5.1.3成功连接的规则:谓词85

5.1.4连接方法87

5.1.5连接的命名约定91

5.2通过groupby和GroupedData汇总数据94

5.2.1一个简单的分组蓝图95

5.2.2对自定义列使用agg()98

5.3处理null值:删除或填充100

5.3.1立即删除:使用dropna()

删除具有null值的记录100

5.3.2使用fillna()替换null值101

5.4问题回顾:端到端程序102

5.5本章小结105

5.6扩展练习105

第Ⅱ部分进级:将你的想法转化为代码

第6章多维数据帧:使用PySpark处理JSON数据109

6.1读取JSON数据:为schemapocalypse做好准备109

6.1.1从小处开始:将JSON数据作为受限的Python字典111

6.1.2更进一步:在PySpark中读取JSON数据113

6.2用复杂的数据类型突破二维数据114

6.2.1当有多个值时:使用数组116

6.2.2映射类型:同一列中的键和值119

6.3结构体:列中的嵌套列121

6.4构建和使用数据帧模式125

6.4.1使用Spark类型作为schema的基本代码块125

6.4.2使用结构体模式原地读取JSON文档127

6.4.3循环往复:以JSON格式指定模式131

6.5进行整合:使用复杂数据类型减少重复数据133

6.5.1获取“刚刚好”的数据帧:explode和collect135

6.5.2创建自己的层次结构:作为函数的结构体138

6.6本章小结139

6.7扩展练习139

第7章双语PySpark:混合Python和SQL141

7.1根据我们的了解:pyspark.sql与普通SQL142

7.2为SQL准备数据帧143

7.2.1将数据帧转换为Spark表144

7.2.2使用Spark目录145

7.3SQL和PySpark146

7.4在数据帧方法中使用类似SQL的语法148

7.4.1获取所需的行和列:select和where148

7.4.2将相似的记录分组在一起:groupby和orderby149

7.4.3在分组后使用having进行筛选150

7.4.4使用CREATE关键字创建新表/视图151

7.4.5使用UNION和JOIN向表中添加数据153

7.4.6通过子查询和公共表表达式更好地组织SQL代码154

7.4.7PySpark与SQL语法的快速总结157

7.5简化代码:混合SQL和Python157

7.5.1使用Python提高弹性并简化数据读取阶段158

7.5.2在PySpark中使用SQL风格的表达式159

7.6结论161

7.7本章小结161

7.8扩展练习162

第8章使用Python扩展PySpark:RDD和UDF165

8.1PySpark中的RDD166

8.2使用Python通过UDF扩展PySpark173

8.2.1这一切都从简单的Python开始:使用类型化的Python函数174

8.2.2使用udf()将Python函数转换为UDF176

8.3本章小结179

8.4扩展练习179

第9章大数据就是大量的小数据:使用pandasUDF181

9.1通过pandas进行列转换:使用SeriesUDF182

9.1.1将Spark连接到谷歌的BigQuery183

9.1.2SeriestoSeriesUDF:使用pandas的列函数188

9.1.3标量UDF+冷启动=SeriesUDF的迭代器190

9.2分组数据上的UDF:聚合

与应用193

9.2.1分组聚合UDF194

9.2.2分组映射UDF196

9.3何时用,怎么用198

9.4本章小结200

9.5扩展练习200

第10章不同视角下的数据:窗口函数203

10.1学习并使用简单的窗口函数204

10.1.1确定每年最冷的一天204

10.1.2创建并使用一个简单的窗口函数来获取最冷的日子206

10.1.3比较两种方法210

10.2除了汇总:使用排名和分析功能211

10.2.1排名函数:看看谁是第一212

10.2.2分析函数:回顾过去和展望未来216

10.3弹性窗口!使用行和范围的边界218

10.3.1计数,窗口样式:静态、增长和无边界219

10.3.2范围和行221

10.4综合实践:在窗口中使用UDF224

10.5查看窗口:成功的窗口函数的主要步骤226

10.6本章小结226

10.7扩展练习226

第11章加速PySpark:理解Spark的查询计划229

11.1芝麻开门:通过SparkUI了解Spark环境229

11.1.1查看配置:Environment选项卡231

11.1.2Executors选项卡和resourcemanagement选项卡233

11.1.3了解任务的运行:通过SparkUI判断任务是否完成237

11.1.4通过Spark查询计划映射操作:SQL选项卡240

11.1.5Spark的核心:解析、分析、优化和物理计划242

11.2关于性能:操作和内存246

11.2.1宽操作与窄操作246

11.2.2缓存数据帧:功能强大,但往往致命(对于性能而言)251

11.3本章小结254

第Ⅲ部分使用PySpark进行机器学习

第12章准备工作:为机器学习准备特征259

12.1阅读、探索和准备机器学习数据集260

12.1.1使用toDF()对列名进行标准化261

12.1.2探索数据并获取第一个特征列262

12.1.3解决数据错误并构建第一个特征集264

12.1.4删除无用记录并估算二分类特征266

12.1.5处理极值:清洗带有连续值的列268

12.1.6删除不常见的二分类列271

12.2特征创建和细化272

12.2.1创建自定义特征272

12.2.2去除高度相关的特征273

12.3基于转换器和估计器的特征准备276

12.3.1使用Imputer估计器填充连续特征277

12.3.2使用MinMaxScaler估计器对特征进行缩放279

12.4本章小结281

第13章通过机器学习管道增强机器学习283

13.1转换器和估计器:Spark

中机器学习的构建块284

13.1.1数据进出:转换器285

13.1.2估计器289

13.2构建(完整的)机器学习管道290

13.2.1使用向量列类型组装最终数据集292

13.2.2使用LogisticRegression分类器训练机器学习模型295

13.3评估和优化模型297

13.3.1评估模型准确率:混淆矩阵和评估器对象298

13.3.2真阳性与假阳性:ROC曲线300

13.3.3使用交叉验证优化超参数302

13.4从模型中获取优选的驱动力:提取系数305

13.5本章小结307

第14章构建自定义机器学习转换器和估计器309

14.1创建自己的转换器309

14.1.1设计转换器:从Param和转换的角度思考310

14.1.2创建转换器的Param312

14.1.3getter和setter:成为PySpark中优秀的一员314

14.1.4创建自定义转换器的初始化函数316

14.1.5创建转换函数317

14.1.6使用转换器319

14.2创建自己的估计器321

14.2.1设计估计器:从模型到Param321

14.2.2实现伴生模型:创建自己的Mixin324

14.2.3创建ExtremeValueCapper估计器326

14.2.4使用自定义估计器328

14.3在机器学习管道中使用转换器和估计器328

14.3.1处理多个输入329

14.3.2将自定义组件应用于机器学习管道331

14.4本章小结334

14.5结论:有数据,我就开心334

附录A习题答案337

附录B安装PySpark369

附录C一些有用的Python内容389

内容摘要
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。

主编推荐
《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP