PySpark原理深入与编程实战(微课视频版)/开发者成长丛书9787302625971
正版图书,可开发票,请放心购买。
¥
64.09
5.4折
¥
119
全新
库存2件
作者编者:辛立伟//辛雨桐|责编:赵佳霓
出版社清华大学
ISBN9787302625971
出版时间2023-08
装帧平装
开本其他
定价119元
货号31830780
上书时间2024-12-15
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章 Spark架构原理与集群搭建(回78min)
1.1 Spark简介
1.2 Spark技术找
1.2.1 Spark Core
1.2.2 Spark SQL
1.2.3 Spark Streaming和Structured Streaming
1.2.4 Spark MLlib
1.2.5 Spark GraphX
1.2.6 SparkR
1.3 Spark和PySpark架构原理
1.3.1 Spark集群和资源管理系统
1.3.2 Spark应用程序
1.3.3 Spark Driver和Executor
1.3.4 PySpark架构
1.4 Spark程序部署模式
1.5 安装和配置Spark集群
1.5.1 安装Spark
1.5.2 了解Spark目录结构
1.5.3 配置Spark/PySpark集群
1.5.4 验证PySpark安装
1.6 配置Spark历史服务器
1.6.1 历史服务器配置
1.6.2 启动Spark历史服务器
1.7 使用PySpark Shell进行交互式分析
1.7.1 运行模式--master
1.7.2 启动和退出PySpark Shell
1.7.3 PySpark Shell常用命令
1.7.4 SparkContext和SparkSession
1.7.5 Spark Web UI
1.8 使用spark-submit提交PySpark应用程序
1.8.1 spark-submit指令的各种参数说明
1.8.2 提交pi.ipynb程序,计算圆周率x值
1.8.3 将PySpark程序提交到YARN集群上执行
第2章 开发和部署PySpark应用程序
2.1 使用PyCharm开发PySpark应用程序
2.1.1 准备数据文件
2.1.2 安装PyCharm
2.1.3 创建一个新的PyChamm项目
2.1.4 安装PySpark包
2.1.5 创建PySpark应用程序
2.1.6 部署到集群中运行
2.2 使用Zeppelin进行交互式分析
2.2.1 下载Zeppelin安装包
2.2.2 安装和配置Zeppelin
2.2.3 配置Spark/PySpark解释器
2.2.4 创建和执行Notebook文件
2.3 使用Jupyter Notebook进行交互式分析
2.3.1 配置PySpark Driver使用Jupyter Notebook
2.3.2 使用findSpark包
第3章 PySpark核心编程
内容摘要
本书系统讲述ApacheSpark/PySpark大数据计算平台的原理,以及如何将ApachePySpark应用于大数据的实时流处理、批处理等场景。通过对原理的深入讲解和对实践示例、案例的讲解,使读者了解并掌握ApacheSpark/PySpark的基本原理和技能,拉近理论与实践的距离。
全书共分为8章,主要内容包括Spark架构原理与集群搭建、开发和部署PySpark应用程序、PySpark核心编程、PySparkSQL、
PySpark结构化流、PySpark大数据分析综合案例。本书源码全部在ApacheSpark3.1.2上调试成功,所有示例和案例均基于Python3.x语言。
为降低读者学习大数据技术的门槛,本书除提供了丰富的上机实践操作和详细的范例程序讲解之外,还提供了搭建好的Hadoop、
Hive数据仓库和PySpark大数据开发和学习环境。读者既可参照本书的讲解自行搭建Hadoop和PySpark环境,也可直接使用本书提供的开
发和学习环境,快速开始大数据和PySpark的学习。
本书内容全面、实例丰富、可操作性强,做到了理论与实践相结合。本书适合大数据学习爱好者、想要入门ApacheSpark/PySpark的读者作为入门和提高的技术参考书,也适合用作高等院校大数据专业相关课程的教材或教学参考书。
— 没有更多了 —
以下为对购买帮助不大的评价