• Spark原理深入与编程实战:微课视频版
21年品牌 40万+商家 超1.5亿件商品

Spark原理深入与编程实战:微课视频版

正版图书,可开发票,请放心购买。

128.14 6.8折 189 全新

库存40件

广东广州
认证卖家担保交易快速发货售后保障

作者辛立伟,张帆,张会娟编著

出版社清华大学出版社

ISBN9787302628866

出版时间2023-07

装帧平装

开本16开

定价189元

货号13420302

上书时间2024-06-22

哲仁书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
辛立伟,一个在IT领域摸爬滚打二十多年的老程序员、技术培训师、技术作者。横跨Java、数据库、大数据开发与分析、人工智能等多个领域,参与多个IT项目的架构设计与开发。长期坚持撰写技术博客,曾在多个大学讲授Java开发、数据库和大数据技术课程,曾担任中国石油大学(青岛校区)等多所院校的外聘讲师。 张帆,硕士,副教授,中国计算机学会会员,河南省教育厅学术技术带头人,华为认证openGauss数据库工程师。主持参与各级项目19项,发表论文22篇,参编著作5部。研究方向为数据库技术、大数据存储与处理技术、云计算技术。 张会娟,博士,华北水利水电大学公共管理学院教师。于2020年在河南理工大学测绘科学与技术系获得工学博士学位。研究兴趣包括地理信息系统、遥感、人工智能等方向,在数据挖掘、深度学习等方面有深入研究,在国内外期刊发表相关论文多篇。

目录
第1章 Spark架构原理与集群搭建

 1.1 Spark简介

 1.2 Spark技术栈

 1.2.1 Spark Core

 1.2.2 Spark SQL

 1.2.3 Spark Streaming和Structured Streaming

 1.2.4 Spark MLlib

 1.2.5 Spark GraphX

 1.2.6 SparkR

 1.3 Spark架构原理

 1.3.1 Spark集群和资源管理系统

 1.3.2 Spark应用程序

 1.3.3 SparkDriver和Executor

 1.4 Spark程序部署模式

 1.5 安装和配置Spark集群

 1.5.1 安装Spark

 1.5.2 了解Spark目录结构

 1.5.3 配置Spark集群

 1.5.4 验证Spark安装

 1.6 配置Spark历史服务器

 1.6.1 历史服务器配置

 1.6.2 启动Spark历史服务器

 1.7 使用spark-shell进行交互式分析

 1.7.1 运行模式--master

 1.7.2 启动和退出spark-shell

 1.7.3 spark-shell常用命令

 1.7.4 SparkContext和SparkSession

 1.7.5 SparkWeb UI

 1.8 使用spark-submit提交Spark应用程序

 1.8.1 spark-submit指令的各种参数说明

 1.8.2 提交SparkPi程序,计算圆周率π值

 1.8.3 将SparkPi程序提交到YARN集群上执行

 第 2章 开发和部署Spark应用程序

 2.1 使用IntelliJ IDEA开发SparkSBT应用程序

 2.1.1 安装IntelliJ IDEA

 2.1.2 配置 IntelliJ IDEA Scala环境

 2.1.3 创建 IntelliJ IDEA SBT项目

 2.1.4 配置SBT构建文件

 2.1.5 准备数据文件

 2.1.6 创建Spark应用程序

 2.1.7 部署分布式Spark应用程序

 2.1.8 远程调试Spark程序

 2.2 使用IntelliJ IDEA开发SparkMaven应用程序

 2.2.1 创建IntelliJ IDEA Maven项目

 2.2.2 验证SDK安装和配置

 2.2.3 项目依赖和配置管理

 2.2.4 测试Spark程序

 2.2.5 项目编译和打包

 2.3 使用Java 开发Spark应用程序

 2.3.1 创建一个新的IntelliJ项目

 2.3.2 验证SDK安装和配置

 2.3.3 安装和配置Maven

 2.3.4 创建Spark应用程序

 2.3.5 部署Spark应用程序

 2.3.6 远程调试Spark应用程序

 2.4 使用Zeppelin进行交互式分析

 2.4.1 下载Zeppelin安装包

 2.4.2 安装和配置Zeppelin

 2.4.3 配置Spark解释器

 2.4.4 创建和执行Notebook程序

 第3章 Spark核心编程

 3.1 理解数据抽象RDD

 3.1.1 RDD结构

 3.1.2 RDD容错

 3.2 RDD编程模型

 3.2.1 单词计数应用程序

 3.2.2 理解SparkSession

 3.2.3 理解SparkContext

 3.3 创建RDD

 3.3.1 将现有的集合并行化以创建RDD

 3.3.2 从存储系统读取数据集以创建RDD

 3.3.3 从已有的RDD转换得到新的RDD

 3.3.4 创建RDD时指定分区数量

 ……

 第4章 Spark SQL

 第5章 Spark SQL(高级)

 第6章 Spark Streaming流处理

 第7章 Spark结构化流

 第8章 Spark结构化流(高级)

 第9章 Spark图处理库GraphFrame

 第10章 Delta Lake数据湖

 第11章 Iceberg数据湖

 第12章 Hudi数据湖

 第13章 Spark大数据处理综合案例

主编推荐
本书具有以下几个特点: (1) 面向零基础读者,知识点深浅适当,代码完整易懂。 (2) 内容全面系统,包括架构原理、开发环境及程序部署、流和批计算、图计算等,并特别包含了Delta Lake、Iceberg、Hudi等数据湖内容。 (3) 版本优选,所有代码均基于Spark 3.1.2。特别值得一提的是,图计算部分抛弃了性能欠佳的GraphX,而是引入了下一代Spark图计算库GraphFrames进行讲解和演示。 (4) 全书包含大量的示例代码讲解和完整项目案例。

精彩内容
本书系统讲述Apache Spark大数据计算平台的原理,以及如果将Apache Spark应用于大数据的实时流处理、批处理、图计算等各个场景。通过原理深入学习和实践示例、案例的学习应用,使读者了解并掌握Apache Spark大数据计算平台的基本原理和技能,接近理论与实践的距离。 全书共分为13章,主要内容包括Spark架构原理与集群搭建、开发和部署Spark应用程序、Spark核心编程、Spark SQL、Spark SQL高级分析、Spark Streaming流处理、Spark结构化流、Spark结构化流高级处理、下一代Spark图处理库GraphFrames、下一代大数据技术(Delta Lake数据湖、Iceberg数据湖和Hudi数据湖)、Spark大数据处理综合案例。本书源码全部在Apache Spark 3.1.2上调试成功,所有示例和案例均基于Scala语言。 为降低读者学习大数据技术的门槛,本书除了提供了丰富的上机实践操作和范例程序详细讲解之外,本书作者还为购买和使用本书的读者提供了搭建好的Hadoop、Hive数仓和Spark大数据开发和学习环境。读者既可以参照本书的讲解自行搭建Hadoop和Spark环境,也可直接使用作者提供的开始和学习环境,快速开始大数据和Spark、数据湖的学习。 本书系统讲解了Apache Spark大数据计算平台的原理和流、批处理的开发实践,内容全面、实例丰富、可操作性强,做到了理论与实践相结合。本书适合大数据学习爱好者、想要入门Apache Spark的读者作为入门和提高的技术参考书,也适合用作大中专院校大数据专业相关的学生和老师的教材或教学参考书。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP