• 大数据处理框架ApacheSpark设计与实现
  • 大数据处理框架ApacheSpark设计与实现
21年品牌 40万+商家 超1.5亿件商品

大数据处理框架ApacheSpark设计与实现

全新正版 极速发货

61.91 5.8折 106 全新

库存12件

广东广州
认证卖家担保交易快速发货售后保障

作者许利杰//方亚芬|责编:孙学瑛

出版社电子工业

ISBN9787121391712

出版时间2020-08

装帧其他

开本其他

定价106元

货号1202098350

上书时间2024-06-09

大智慧小美丽

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
目 录
第 1 章 大数据处理框架概览 .....................2
1.1 大数据及其带来的挑战 ...................2
1.2 大数据处理框架 ...............................3
1.3 大数据应用及编程模型 ...................4
1.4 大数据处理框架的四层结构 ...........5
1.4.1 用户层 ......................................... 7
1.4.2 分布式数据并行处理层 ............11
1.4.3 资源管理与任务调度层 ........... 13
1.4.4 物理执行层 ............................... 15
1.5 错误容忍机制 .................................17
1.6 其他大数据处理框架 .....................18
1.7 本章小结 .........................................18
1.8 扩展阅读 .........................................18
第 2 章 Spark 系统部署与应用运行的基本流程 .....................................20
2.1 Spark 安装部署 ..............................20
2.2 Spark 系统架构 ..............................21
2.3 Spark 应用例子 ..............................24
2.3.1 用户代码基本逻辑 ................... 24
2.3.2 逻辑处理流程 ........................... 28
2.3.3 物理执行计划 ........................... 32
2.3.4 可视化执行过程 ....................... 34
2.4 Spark 编程模型 ..............................38
2.5 本章小结 .........................................39
第 3 章 Spark 逻辑处理流程 ...................41
3.1 Spark 逻辑处理流程概览 ..............41
3.2 Spark 逻辑处理流程生成方法 ......43
3.2.1 根据应用程序如何产生 RDD,产生什么样的 RDD ................ 44
3.2.2 如何建立 RDD 之间的数据依赖 关系.......................................... 44
3.2.3 如何计算 RDD 中的数据 ........ 49
3.3 常用 transformation() 数据操作 ....50
3.4 常用 action() 数据操作 ..................86
3.5 对比 MapReduce,Spark 的优缺点.................................................98
3.6 本章小结 .........................................99
3.7 扩展阅读 .......................................100
第 4 章 Spark 物理执行计划 .................101
4.1 Spark 物理执行计划概览 ............101
4.2 Spark 物理执行计划生成方法 ....105
4.3 常用数据操作生成的物理执行计划...............................................113
4.4 本章小结 .......................................121
4.5 扩展阅读 .......................................121
第 5 章 迭代型 Spark 应用 ....................123
5.1 迭代型 Spark 应用的分类及特点...............................................123
5.2 迭代型机器学习应用 SparkLR ...124
5.2.1 应用描述 ................................ 124
5.2.2 算法原理 ................................ 125
5.2.3 基于 Spark 的并行化实现 ..... 129
5.2.4 深入讨论 ................................. 131
5.3 迭代型机器学习应用——广义 线性模型.......................................132
5.3.1 算法原理 ................................. 132
5.3.2 基于 Spark 的并行化实现 ..... 136
5.3.3 深入讨论 ................................. 139
5.4 迭代型图计算应用——PageRank ......................................140
5.4.1 应用描述 ................................. 140
5.4.2 基于 Spark 的并行化实现 ..... 143
5.4.3 深入讨论 ................................. 149
5.5 本章小结 .......................................151
第 6 章 Shuffle 机制 ..............................153
6.1 Shuffle 的意义及设计挑战 ..........153
6.2 Shuffle 的设计思想 ......................155
6.2.1 解决数据分区和数据聚合问题 ........................................ 156
6.2.2 解决 map() 端 combine问题 ........................................ 158
6.2.3 解决 sort 问题 ......................... 158
6.2.4 解决内存不足问题 ................. 159
6.3 Spark 中 Shuffle 框架的设计 .......160
6.3.1 Shuffle Write 框架设计和实现 ........................................ 161
6.3.2 Shuffle Read 框架设计和实现 ........................................ 166
6.4 支持高效聚合和排序的数据 结构...............................................170
6.4.1 AppendOnlyMap 的原理 ........ 171
6.4.2 ExternalAppendOnlyMap ...... 173
6.4.3 PartitionedAppendOnlyMap ... 176
6.4.4 PartitionedPairBuffer .............. 176
6.5 与 Hadoop MapReduce 的 Shuffle 机制对比.......................................177
6.6 本章小结 .......................................179
第 7 章 数据缓存机制 ...........................180
7.1 数据缓存的意义 ...........................180
7.2 数据缓存机制的设计原理 ...........181
7.2.1 决定哪些数据需要被缓存 ..... 181
7.2.2 包含数据缓存操作的逻辑处理流程和物理执行计划 .... 184
7.2.3 缓存级别 ................................. 186
7.2.4 缓存数据的写入方法 ............. 189
7.2.5 缓存数据的读取方法 ............. 191
7.2.6 用户接口的设计 ..................... 192
7.2.7 缓存数据的替换与回收方法 ........................................ 193
7.3 与 Hadoop MapReduce 的缓存机制进行对比...............................197
7.4 本章小结 .......................................198
第 8 章 错误容忍机制 ...........................199
8.1 错误容忍机制的意义及挑战 .......199
8.2 错误容忍机制的设

内容摘要
近年来,以ApacheSpark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以ApacheSpark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP