• SparkSQL入门与数据分析实践
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

SparkSQL入门与数据分析实践

塑封消毒 正版书 套装书为一本

10.5 2.1折 49.8 九品

仅1件

北京丰台
认证卖家担保交易快速发货售后保障

作者杨虹、谢显中、周前能、张安文 著

出版社人民邮电出版社

出版时间2021-09

版次1

装帧平装

货号有2

上书时间2024-12-19

福宝书店

五年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
商品描述
二手书不缺页不掉页不影响阅读,部分有笔记划线,没有光盘书签书腰等赠品,套装书为一本。拍下即代表接受该情况描述,不再另做通知,也不接受另外留言备注关于品相的要求。
图书标准信息
  • 作者 杨虹、谢显中、周前能、张安文 著
  • 出版社 人民邮电出版社
  • 出版时间 2021-09
  • 版次 1
  • ISBN 9787115553249
  • 定价 49.80元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 184页
  • 字数 278千字
【内容简介】
Spark?SQL是Spark用于处理结构化数据的一个模块。本书共8章内容,由浅入深地讲解Spark?SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习,读者能够掌握Spark?SQL核心技术。本书每章安排了习题和总结,以便使读者能更好地学习和更牢固地掌握Spark?SQL编程方法。此外,本书还提供了PPT教学课件、源代码等配套资源,供使用本书的读者下载。 

本书可作为高等学校大数据、计算机、统计相关专业学生的大数据进阶课程的教材,也可供相关技术人员学习参考。
【作者简介】
杨虹 重庆市半导体行业协会副理事长,重庆市电子学会常务理事,重庆市高校青年骨干教师。 

张安文 加米谷大数据负责人,国家大数据标准组成员、大数据架构师,大数据实战开发者。
【目录】


章spark sql基础知识1

1.1spark sql背景1

1.2spark sql简介1

1.2.1spark sql的特点2

1.2.2spark sql的用途2

1.2.3spark sql的使用场景2

1.3为什么要学spark sql3

1.4spark sql的3

1.4.1传统sql的运行3

1.4.2spark sql的运行4

1.4.3spark sql的开发步骤6

1.5spark sql的运行模式7

1.5.1local模式7

1.5.2standalone模式7

1.5.3onyarn模式8

小结11

题11

第2章spark sql安装部署12

2.1运行环境说明12

2.1.1作系统说明12

2.1.2java版本说明12

2.1.3scala版本说明12

2.1.4作系统客户端工具说明13

2.2运行环境准备13

2.2.1依赖下载13

2.2.2安装java14

2.2.3安装scala14

2.3部署spark sql15

2.3.1下载安装包15

2.3.2单机部署15

2.3.3集群部署16

2.3.4运行环境参数21

小结23

题23

第3章个spark sql应用程序24

3.1搭建开发环境24

3.1.1下载开发工具24

3.1.2安装idea25

3.2编写spark sql应用程序26

3.2.1spark sql应用程序的编写步骤27

3.2.2编写个spark sql应用程序27

3.2.3运行个spark sql应用程序38

小结44

题44

第4章spark sql编程基础45

4.1rdd概述45

4.1.1rdd的优缺点45

4.1.2rdd模型介绍46

4.2深入剖析rdd47

4.2.1spark相关专业术语定义47

4.2.2sparkapplication的构成55

4.2.3spark运行的基本流程55

4.2.4spark运行架构的特点56

4.2.5spark核心58

4.3创建rdd62

4.4rdd作65

4.4.1rdd转换作65

4.4.2rdd控制作72

4.4.3rdd行动作73

4.5rdd持久化76

4.5.1持久化优势77

4.5.2持久化策略77

4.6rdd容错机制78

4.6.1lineage机制78

4.6.2checkpoint机制79

小结81

题81

第5章spark sql编程82

5.1概述82

5.2sparksession82

5.2.1sparksession介绍82

5.2.2创建sparksession82

5.2.3sparksession参数设置85

5.2.4sparksession元信息读取85

5.3dataframe85

5.3.1深入理解dataframe86

5.3.2dataframe的优缺点86

5.3.3dataframe的演变过程87

5.3.4dataframe的使用形式89

5.3.5创建dataframe89

5.3.6dataframe作102

5.3.7dataframe持久化114

5.3.8dataframe实例117

5.4dataset120

5.4.1深入理解dataset120

5.4.2dataset的优点120

5.4.3创建dataset121

5.4.4dataset作121

5.4.5dataset持久化122

5.5数据抽象的共与区别122

5.5.13种数据抽象的共123

5.5.23种数据抽象的区别123

5.6数据抽象的相互转换123

5.6.1将rdd转换为dataframe124

5.6.2将dataframe转换为dataset124

5.6.3将dataset转换为dataframe124

小结125

题125

第6章spark sql函数126

6.1用户定义函数126

6.1.1注册udf126

6.1.2使用udf126

6.1.3udf实例127

6.2用户定义聚合函数128

6.2.1注册udaf129

6.2.2使用udaf129

6.2.3udaf实例129

6.3常用内置函数131

小结131

题131

第7章spark sql能调优133

7.1概述133

7.1.1木桶133

7.1.2阿姆达尔定律134

7.2并行度调优134

7.2.1什么是并行度134

7.2.2为什么需要对并行度进行调优134

7.2.3如何合理设置并行度135

7.3内存调优135

7.3.1为什么需要对内存进行调优136

7.3.2如何充分使用内存136

7.4磁盘i/o调优137

7.4.1为什么需要对磁盘i/o进行调优137

7.4.2如何充分使用磁盘i/o138

7.5网络i/o调优139

7.5.1为什么需要对网络i/o进行调优139

7.5.2如何充分使用网络i/o139

小结140

题140

第8章spark sql编程实践141

8.1spark sql实践一——试信息分析141

8.2spark sql实践二——生鲜电商交易数据分析142

8.3spark sql实践三——四川省新生婴儿信息分析144

小结152

附录153

附录1常用内置函数153

附录1.1常用聚合函数153

附录1.2常用排序函数156

附录1.3常用字符串函数157

附录1.4常用时间函数162

附录1.5常用数学函数167

附录1.6常用集合函数170

附录1.7其他常用函数172

附录2常用高阶函数173

附录2.1transform函数173

附录2.2aggregate函数174

附录2.3filter函数174

附录2.4ests函数175

附录2.5zip_with函数175

附录3术语解释175

点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP