消息首页搜索举报

图书条目标准图

SparkSQL入门与数据分析实践

本店卖的都是正版二手书，常年销售回收二手书，有想卖书的同学可以联系我们

4.74 1.0折 49.8 八五品

仅1件

湖北孝感

认证卖家担保交易快速发货售后保障

作者杨虹、谢显中、周前能、张安文著

出版社人民邮电出版社

出版时间2021-09

版次1

装帧平装

货号9787115553249

上书时间2024-12-18

雁山区桂林理工兴兴书店

七年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 8小时
好评率暂无

最新上架

“十四五”职业教育国家规划教材--酒水知识与酒吧管理（第三版） ¥7.00

彩色图解商务英语口语书英语入门自学零基础 ¥7.00

电子商务数据分析与应用（第2版） ¥7.00

化工节能减排技术（李平辉）（第三版） ¥4.90

数控车床编程与操作项目教程第3版 ¥5.80

“十三五”职业教育国家规划教材变电站综合自动化技术（第二版） ¥4.90

职业综合英语 2 第3版智慧版大中专高职外语新华正版 ¥3.40

高等数学（第7版/本科药学） ¥11.50

化工腐蚀与防护（钟红梅） ¥7.00

商品详情

品相描述：八五品

图书标准信息

作者杨虹、谢显中、周前能、张安文著
出版社人民邮电出版社
出版时间 2021-09
版次 1
ISBN 9787115553249
定价 49.80元
装帧平装
开本 16开
纸张胶版纸
页数 184页
字数 278千字

【内容简介】: Spark?SQL是Spark用于处理结构化数据的一个模块。本书共8章内容，由浅入深地讲解Spark?SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习，读者能够掌握Spark?SQL核心技术。本书每章安排了习题和总结，以便使读者能更好地学习和更牢固地掌握Spark?SQL编程方法。此外，本书还提供了PPT教学课件、源代码等配套资源，供使用本书的读者下载。

本书可作为高等学校大数据、计算机、统计相关专业学生的大数据进阶课程的教材，也可供相关技术人员学习参考。
【作者简介】: 杨虹重庆市半导体行业协会副理事长，重庆市电子学会常务理事，重庆市高校青年骨干教师。

张安文加米谷大数据负责人，国家大数据标准组成员、大数据架构师，大数据实战开发者。
【目录】: 章spark sql基础知识1

1.1spark sql背景1

1.2spark sql简介1

1.2.1spark sql的特点2

1.2.2spark sql的用途2

1.2.3spark sql的使用场景2

1.3为什么要学spark sql3

1.4spark sql的3

1.4.1传统sql的运行3

1.4.2spark sql的运行4

1.4.3spark sql的开发步骤6

1.5spark sql的运行模式7

1.5.1local模式7

1.5.2standalone模式7

1.5.3onyarn模式8

小结11

题11

第2章spark sql安装部署12

2.1运行环境说明12

2.1.1作系统说明12

2.1.2java版本说明12

2.1.3scala版本说明12

2.1.4作系统客户端工具说明13

2.2运行环境准备13

2.2.1依赖下载13

2.2.2安装java14

2.2.3安装scala14

2.3部署spark sql15

2.3.1下载安装包15

2.3.2单机部署15

2.3.3集群部署16

2.3.4运行环境参数21

小结23

题23

第3章个spark sql应用程序24

3.1搭建开发环境24

3.1.1下载开发工具24

3.1.2安装idea25

3.2编写spark sql应用程序26

3.2.1spark sql应用程序的编写步骤27

3.2.2编写个spark sql应用程序27

3.2.3运行个spark sql应用程序38

小结44

题44

第4章spark sql编程基础45

4.1rdd概述45

4.1.1rdd的优缺点45

4.1.2rdd模型介绍46

4.2深入剖析rdd47

4.2.1spark相关专业术语定义47

4.2.2sparkapplication的构成55

4.2.3spark运行的基本流程55

4.2.4spark运行架构的特点56

4.2.5spark核心58

4.3创建rdd62

4.4rdd作65

4.4.1rdd转换作65

4.4.2rdd控制作72

4.4.3rdd行动作73

4.5rdd持久化76

4.5.1持久化优势77

4.5.2持久化策略77

4.6rdd容错机制78

4.6.1lineage机制78

4.6.2checkpoint机制79

小结81

题81

第5章spark sql编程82

5.1概述82

5.2sparksession82

5.2.1sparksession介绍82

5.2.2创建sparksession82

5.2.3sparksession参数设置85

5.2.4sparksession元信息读取85

5.3dataframe85

5.3.1深入理解dataframe86

5.3.2dataframe的优缺点86

5.3.3dataframe的演变过程87

5.3.4dataframe的使用形式89

5.3.5创建dataframe89

5.3.6dataframe作102

5.3.7dataframe持久化114

5.3.8dataframe实例117

5.4dataset120

5.4.1深入理解dataset120

5.4.2dataset的优点120

5.4.3创建dataset121

5.4.4dataset作121

5.4.5dataset持久化122

5.5数据抽象的共与区别122

5.5.13种数据抽象的共123

5.5.23种数据抽象的区别123

5.6数据抽象的相互转换123

5.6.1将rdd转换为dataframe124

5.6.2将dataframe转换为dataset124

5.6.3将dataset转换为dataframe124

小结125

题125

第6章spark sql函数126

6.1用户定义函数126

6.1.1注册udf126

6.1.2使用udf126

6.1.3udf实例127

6.2用户定义聚合函数128

6.2.1注册udaf129

6.2.2使用udaf129

6.2.3udaf实例129

6.3常用内置函数131

小结131

题131

第7章spark sql能调优133

7.1概述133

7.1.1木桶133

7.1.2阿姆达尔定律134

7.2并行度调优134

7.2.1什么是并行度134

7.2.2为什么需要对并行度进行调优134

7.2.3如何合理设置并行度135

7.3内存调优135

7.3.1为什么需要对内存进行调优136

7.3.2如何充分使用内存136

7.4磁盘i/o调优137

7.4.1为什么需要对磁盘i/o进行调优137

7.4.2如何充分使用磁盘i/o138

7.5网络i/o调优139

7.5.1为什么需要对网络i/o进行调优139

7.5.2如何充分使用网络i/o139

小结140

题140

第8章spark sql编程实践141

8.1spark sql实践一——试信息分析141

8.2spark sql实践二——生鲜电商交易数据分析142

8.3spark sql实践三——四川省新生婴儿信息分析144

小结152

附录153

附录1常用内置函数153

附录1.1常用聚合函数153

附录1.2常用排序函数156

附录1.3常用字符串函数157

附录1.4常用时间函数162

附录1.5常用数学函数167

附录1.6常用集合函数170

附录1.7其他常用函数172

附录2常用高阶函数173

附录2.1transform函数173

附录2.2aggregate函数174

附录2.3filter函数174

附录2.4ests函数175

附录2.5zip_with函数175

附录3术语解释175

点击展开点击收起

— 没有更多了 —

SparkSQL入门与数据分析实践

雁山区桂林理工兴兴书店

商品详情

图书标准信息

相关推荐