大数据处理框架Apache Spark设计与实现
全新正版 极速发货
¥
59.95
5.7折
¥
106
全新
库存12件
作者许利杰,方亚芬
出版社电子工业出版社
ISBN9787121391712
出版时间2020-08
装帧平装
开本16开
定价106元
货号1202098350
上书时间2024-08-07
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章大数据处理框架概览2
1.1大数据及其带来的挑战2
1.2大数据处理框架3
1.3大数据应用及编程模型4
1.4大数据处理框架的四层结构5
1.4.1用户层7
1.4.2分布式数据并行处理层11
1.4.3资源管理与任务调度层13
1.4.4物理执行层15
1.5错误容忍机制17
1.6其他大数据处理框架18
1.7本章小结18
1.8扩展阅读18
第2章Spark系统部署与应用运行的基本流程20
2.1Spark安装部署20
2.2Spark系统架构21
2.3Spark应用例子24
2.3.1用户代码基本逻辑24
2.3.2逻辑处理流程28
2.3.3物理执行计划32
2.3.4可视化执行过程34
2.4Spark编程模型38
2.5本章小结39
第3章Spark逻辑处理流程41
3.1Spark逻辑处理流程概览41
3.2Spark逻辑处理流程生成方法43
3.2.1根据应用程序如何产生RDD,产生什么样的RDD44
3.2.2如何建立RDD之间的数据依赖关系44
3.2.3如何计算RDD中的数据49
3.3常用transformation()数据操作50
3.4常用action()数据操作86
3.5对比MapReduce,Spark的优缺点98
3.6本章小结99
3.7扩展阅读100
第4章Spark物理执行计划101
4.1Spark物理执行计划概览101
4.2Spark物理执行计划生成方法105
4.3常用数据操作生成的物理执行计划113
4.4本章小结121
4.5扩展阅读121
第5章迭代型Spark应用123
5.1迭代型Spark应用的分类及特点123
5.2迭代型机器学习应用SparkLR124
5.2.1应用描述124
5.2.2算法原理125
5.2.3基于Spark的并行化实现129
5.2.4深入讨论131
5.3迭代型机器学习应用――广义线性模型132
5.3.1算法原理132
5.3.2基于Spark的并行化实现136
5.3.3深入讨论139
5.4迭代型图计算应用――PageRank140
5.4.1应用描述140
5.4.2基于Spark的并行化实现143
5.4.3深入讨论149
5.5本章小结151
第6章Shuffle机制153
6.1Shuffle的意义及设计挑战153
6.2Shuffle的设计思想155
6.2.1解决数据分区和数据聚合问题156
6.2.2解决map()端combine问题158
6.2.3解决sort问题158
6.2.4解决内存不足问题159
6.3Spark中Shuffle框架的设计160
6.3.1ShuffleWrite框架设计和实现161
6.3.2ShuffleRead框架设计和实现166
6.4支持高效聚合和排序的数据结构170
6.4.1AppendOnlyMap的原理171
6.4.2ExternalAppendOnlyMap173
6.4.3PartitionedAppendOnlyMap176
6.4.4PartitionedPairBuffer176
6.5与HadoopMapReduce的Shuffle机制对比177
6.6本章小结179
第7章数据缓存机制180
7.1数据缓存的意义180
7.2数据缓存机制的设计原理181
7.2.1决定哪些数据需要被缓存181
7.2.2包含数据缓存操作的逻辑处理流程和物理执行计划184
7.2.3缓存级别186
7.2.4缓存数据的写入方法189
7.2.5缓存数据的读取方法191
7.2.6用户接口的设计192
7.2.7缓存数据的替换与回收方法193
7.3与HadoopMapReduce的缓存机制进行对比197
7.4本章小结198
第8章错误容忍机制199
8.1错误容忍机制的意义及挑战199
8.2错误容忍机制的设计思想201
8.3重新计算机制201
8.3.1重新计算是否能够得到与之前一样的结果202
8.3.2从哪里开始重新计算204
8.3.3重新计算机制小结207
8.4checkpoint机制的设计与实现207
8.4.1哪些数据需要使用checkpoint机制207
8.4.2checkpoint数据的写入及接口210
8.4.3checkpoint时机及计算顺序212
8.4.4checkpoint数据的读取213
8.4.5checkpoint数据写入和读取的实现细节213
8.4.6checkpoint语句位置的影响216
8.4.7cache+checkpoint220
8.5checkpoint与数据缓存的区别225
8.6本章小结226
第9章内存管理机制227
9.1内存管理机制问题及挑战227
9.2应用内存消耗来源及影响因素228
9.2.1内存消耗来源1:用户代码229
9.2.2内存消耗来源2:Shuffle机制中产生的中间数据230
9.2.3内存消耗来源3:缓存数据231
9.3Spark框架内存管理模型232
9.3.1静态内存管理模型233
9.3.2统一内存管理模型234
9.4Spark框架执行内存消耗与管理237
9.4.1ShuffleWrite阶段内存消耗及管理239
9.4.2ShuffleRead阶段内存消耗及管理245
9.5数据缓存空间管理249
9.5.1RDD缓存数据250
9.5.2广播数据253
9.5.3task的计算结果254
9.6本章小结256
参考文献258
内容摘要
近年来,以ApacheSpark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以ApacheSpark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理的流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。本书将帮助大数据系统的用户、开发者、研究人员等从理论层和实现层深人理解大数据处理框架,也帮助其对大数据处理框架进一步优化改进。
主编推荐
"1 作者为中科院软件所博士,其多年发表论文的经验使得这本书的行文接近会让你眼前一亮,严谨且准确。
2 作者精心绘制200余幅图,本书用四色印刷尽力真实还原出来,呈现着作者强大的技术工匠精神。
3 本书采用问题驱动的叙述方式,强调基本原理的阐述,内容非常扎实,且更多的是关乎大数据处理框架的底层原理描述,所以一旦学懂,肯定会让你在大数据领域更上一层楼。"
— 没有更多了 —
以下为对购买帮助不大的评价