SparkSQL入门与数据分析实践
本店卖的都是正版二手书,常年销售回收二手书,有想卖书的同学可以联系我们
¥
4.74
1.0折
¥
49.8
八五品
仅1件
作者杨虹、谢显中、周前能、张安文 著
出版社人民邮电出版社
出版时间2021-09
版次1
装帧平装
货号9787115553249
上书时间2024-12-18
商品详情
- 品相描述:八五品
图书标准信息
-
作者
杨虹、谢显中、周前能、张安文 著
-
出版社
人民邮电出版社
-
出版时间
2021-09
-
版次
1
-
ISBN
9787115553249
-
定价
49.80元
-
装帧
平装
-
开本
16开
-
纸张
胶版纸
-
页数
184页
-
字数
278千字
- 【内容简介】
-
Spark?SQL是Spark用于处理结构化数据的一个模块。本书共8章内容,由浅入深地讲解Spark?SQL的基础知识、安装部署、编程基础、编程进阶、函数、性能调优技巧以及编程实践等知识。通过本书的学习,读者能够掌握Spark?SQL核心技术。本书每章安排了习题和总结,以便使读者能更好地学习和更牢固地掌握Spark?SQL编程方法。此外,本书还提供了PPT教学课件、源代码等配套资源,供使用本书的读者下载。
本书可作为高等学校大数据、计算机、统计相关专业学生的大数据进阶课程的教材,也可供相关技术人员学习参考。
- 【作者简介】
-
杨虹 重庆市半导体行业协会副理事长,重庆市电子学会常务理事,重庆市高校青年骨干教师。
张安文 加米谷大数据负责人,国家大数据标准组成员、大数据架构师,大数据实战开发者。
- 【目录】
-
章spark sql基础知识1
1.1spark sql背景1
1.2spark sql简介1
1.2.1spark sql的特点2
1.2.2spark sql的用途2
1.2.3spark sql的使用场景2
1.3为什么要学spark sql3
1.4spark sql的3
1.4.1传统sql的运行3
1.4.2spark sql的运行4
1.4.3spark sql的开发步骤6
1.5spark sql的运行模式7
1.5.1local模式7
1.5.2standalone模式7
1.5.3onyarn模式8
小结11
题11
第2章spark sql安装部署12
2.1运行环境说明12
2.1.1作系统说明12
2.1.2java版本说明12
2.1.3scala版本说明12
2.1.4作系统客户端工具说明13
2.2运行环境准备13
2.2.1依赖下载13
2.2.2安装java14
2.2.3安装scala14
2.3部署spark sql15
2.3.1下载安装包15
2.3.2单机部署15
2.3.3集群部署16
2.3.4运行环境参数21
小结23
题23
第3章个spark sql应用程序24
3.1搭建开发环境24
3.1.1下载开发工具24
3.1.2安装idea25
3.2编写spark sql应用程序26
3.2.1spark sql应用程序的编写步骤27
3.2.2编写个spark sql应用程序27
3.2.3运行个spark sql应用程序38
小结44
题44
第4章spark sql编程基础45
4.1rdd概述45
4.1.1rdd的优缺点45
4.1.2rdd模型介绍46
4.2深入剖析rdd47
4.2.1spark相关专业术语定义47
4.2.2sparkapplication的构成55
4.2.3spark运行的基本流程55
4.2.4spark运行架构的特点56
4.2.5spark核心58
4.3创建rdd62
4.4rdd作65
4.4.1rdd转换作65
4.4.2rdd控制作72
4.4.3rdd行动作73
4.5rdd持久化76
4.5.1持久化优势77
4.5.2持久化策略77
4.6rdd容错机制78
4.6.1lineage机制78
4.6.2checkpoint机制79
小结81
题81
第5章spark sql编程82
5.1概述82
5.2sparksession82
5.2.1sparksession介绍82
5.2.2创建sparksession82
5.2.3sparksession参数设置85
5.2.4sparksession元信息读取85
5.3dataframe85
5.3.1深入理解dataframe86
5.3.2dataframe的优缺点86
5.3.3dataframe的演变过程87
5.3.4dataframe的使用形式89
5.3.5创建dataframe89
5.3.6dataframe作102
5.3.7dataframe持久化114
5.3.8dataframe实例117
5.4dataset120
5.4.1深入理解dataset120
5.4.2dataset的优点120
5.4.3创建dataset121
5.4.4dataset作121
5.4.5dataset持久化122
5.5数据抽象的共与区别122
5.5.13种数据抽象的共123
5.5.23种数据抽象的区别123
5.6数据抽象的相互转换123
5.6.1将rdd转换为dataframe124
5.6.2将dataframe转换为dataset124
5.6.3将dataset转换为dataframe124
小结125
题125
第6章spark sql函数126
6.1用户定义函数126
6.1.1注册udf126
6.1.2使用udf126
6.1.3udf实例127
6.2用户定义聚合函数128
6.2.1注册udaf129
6.2.2使用udaf129
6.2.3udaf实例129
6.3常用内置函数131
小结131
题131
第7章spark sql能调优133
7.1概述133
7.1.1木桶133
7.1.2阿姆达尔定律134
7.2并行度调优134
7.2.1什么是并行度134
7.2.2为什么需要对并行度进行调优134
7.2.3如何合理设置并行度135
7.3内存调优135
7.3.1为什么需要对内存进行调优136
7.3.2如何充分使用内存136
7.4磁盘i/o调优137
7.4.1为什么需要对磁盘i/o进行调优137
7.4.2如何充分使用磁盘i/o138
7.5网络i/o调优139
7.5.1为什么需要对网络i/o进行调优139
7.5.2如何充分使用网络i/o139
小结140
题140
第8章spark sql编程实践141
8.1spark sql实践一——试信息分析141
8.2spark sql实践二——生鲜电商交易数据分析142
8.3spark sql实践三——四川省新生婴儿信息分析144
小结152
附录153
附录1常用内置函数153
附录1.1常用聚合函数153
附录1.2常用排序函数156
附录1.3常用字符串函数157
附录1.4常用时间函数162
附录1.5常用数学函数167
附录1.6常用集合函数170
附录1.7其他常用函数172
附录2常用高阶函数173
附录2.1transform函数173
附录2.2aggregate函数174
附录2.3filter函数174
附录2.4ests函数175
附录2.5zip_with函数175
附录3术语解释175
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价