Spark技术内幕
¥
7.74
1.6折
¥
49
九五品
仅1件
作者张安站 主编
出版社机械工业出版社
ISBN9787111509646
出版时间2015-09
版次1
装帧平装
开本16开
纸张胶版纸
页数201页
字数99999千字
定价49元
上书时间2024-07-13
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:Spark技术内幕
定价:49元
作者:张安站 主编
出版社:机械工业出版社
出版日期:2015-09-01
ISBN:9787111509646
字数:300000
页码:201
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
序前言章 Spark简介1.1Spark的技术背景1.2Spark的优点1.3Spark架构综述1.4Spark核心组件概述1.4.1Spark Streaming1.4.2MLlib1.4.3Spark SQL1.4.4 GraphX1.5Spark的整体代码结构规模第2章 Spark学习环境的搭建2.1源码的获取与编译2.1.1源码获取2.1.2源码编译2.2构建Spark的源码阅读环境2.3小结第3章 RDD实现详解3.1概述3.2什么是RDD3.2.1RDD的创建3.2.2RDD的转换3.2.3 RDD的动作3.2.4RDD的缓存3.2.5RDD的检查点3.3RDD的转换和DAG的生成3.3.1RDD的依赖关系3.3.2DAG的生成3.3.3Word Count的RDD转换和DAG划分的逻辑视图3.4RDD的计算3.4.1Task简介3.4.2Task的执行起点3.4.3缓存的处理3.4.4checkpoint的处理3.4.5RDD的计算逻辑3.5RDD的容错机制3.6小结第4章 Scheduler 模块详解4.1模块概述4.1.1整体架构4.1.2Scheduler的实现概述4.2DAGScheduler实现详解4.2.1DAGScheduler的创建4.2.2Job的提交4.2.3Stage的划分4.2.4任务的生成4.3任务调度实现详解4.3.1TaskScheduler的创建4.3.2Task的提交概述4.3.3任务调度具体实现4.3.4Task运算结果的处理4.4Word Count调度计算过程详解4.5小结第5章 Deploy模块详解5.1 Spark运行模式概述5.1.1 local5.1.2Mesos5.1.3YARN5.2模块整体架构5.3消息传递机制详解5.3.1Master和Worker5.3.2Master和Client5.3.3Client和Executor5.4集群的启动5.4.1Master的启动5.4.2Worker的启动5.5集群容错处理5.5.1Master 异常退出5.5.2Worker异常退出5.5.3Executor异常退出5.6Master HA实现详解5.6.1Master启动的选举和数据恢复策略5.6.2集群启动参数的配置5.6.3Curator Framework简介 5.6.4ZooKeeperLeaderElectionAgent的实现5.7小结第6章 Executor模块详解6.1Standalone模式的Executor分配详解6.1.1SchedulerBackend创建AppClient6.1.2AppClient向Master注册Applicatio6.1.3Master根据AppClient的提交选择Worker6.1.4Worker根据Master的资源分配结果创建Executor6.2Task的执行6.2.1依赖环境的创建和分发6.2.2任务执行6.2.3任务结果的处理6.2.4Driver端的处理6.3 参数设置6.3.park.executor.memory6.3.2日志相关6.3.3spark.executor.heartbeatInterval6.4小结第7章 Shuffle模块详解7.1Hash Based Shuffle Write7.1.1Basic Shuffle Writer实现解析7.1.2存在的问题7.1.3Shuffle Consolidate Writer7.1.4小结7.2Shuffle Pluggable 框架7.2.1org.apache.spark.shuffle.ShuffleManager7.2.2org.apache.spark.shuffle.ShuffleWriter7.2.3org.apache.spark.shuffle.ShuffleBlockManager7.2.4org.apache.spark.shuffle.ShuffleReader7.2.5如何开发自己的Shuffle机制7.3Sort Based Write7.4Shuffle Map Task运算结果的处理7.4.1Executor端的处理7.4.2Driver端的处理7.5Shuffle Read7.5.1整体流程7.5.2数据读取策略的划分7.5.3本地读取7.5.4远程读取7.6性能调优7.6.park.shuffle.manager7.6.2spark.shuffle.spill7.6.3spark.shuffle.memoryFraction和spark.shuffle.safetyFractio7.6.4spark.shuffle.sort.bypassMergeThreshold 7.6.5spark.shuffle.blockTransferService 7.6.6spark.shuffle.consolidateFiles 7.6.7spark.shuffle.compress和 spark.shuffle.spill.compress7.6.8spark.reducer.maxMbInFlight7.7小结第8章 Storage模块详解8.1模块整体架构8.1.1整体架构8.1.2源码组织结构8.1.3Master 和Slave的消息传递详解8.2存储实现详解8.2.1存储级别8.2.2模块类图8.2.3org.apache.spark.storage.DiskStore实现详解8.2.4org.apache.spark.storage.MemoryStore实现详解8.2.5org.apache.spark.storage.TachyonStore实现详解8.2.6Block存储的实现8.3性能调优8.3.park.local.dir8.3.2spark.executor.memory8.3.3spark.storage.memoryFractio8.3.4spark.streaming.blockInterval8.4小结第9章 企业应用概述9.1Spark在百度9.1.1现状9.1.2百度开放云BMR的Spark9.1.3在Spark中使用Tachyo9.2Spark在阿里9.3Spark在腾讯9.4小结
内容提要
目录
序前言章 Spark简介1.1Spark的技术背景1.2Spark的优点1.3Spark架构综述1.4Spark核心组件概述1.4.1Spark Streaming1.4.2MLlib1.4.3Spark SQL1.4.4 GraphX1.5Spark的整体代码结构规模第2章 Spark学习环境的搭建2.1源码的获取与编译2.1.1源码获取2.1.2源码编译2.2构建Spark的源码阅读环境2.3小结第3章 RDD实现详解3.1概述3.2什么是RDD3.2.1RDD的创建3.2.2RDD的转换3.2.3 RDD的动作3.2.4RDD的缓存3.2.5RDD的检查点3.3RDD的转换和DAG的生成3.3.1RDD的依赖关系3.3.2DAG的生成3.3.3Word Count的RDD转换和DAG划分的逻辑视图3.4RDD的计算3.4.1Task简介3.4.2Task的执行起点3.4.3缓存的处理3.4.4checkpoint的处理3.4.5RDD的计算逻辑3.5RDD的容错机制3.6小结第4章 Scheduler 模块详解4.1模块概述4.1.1整体架构4.1.2Scheduler的实现概述4.2DAGScheduler实现详解4.2.1DAGScheduler的创建4.2.2Job的提交4.2.3Stage的划分4.2.4任务的生成4.3任务调度实现详解4.3.1TaskScheduler的创建4.3.2Task的提交概述4.3.3任务调度具体实现4.3.4Task运算结果的处理4.4Word Count调度计算过程详解4.5小结第5章 Deploy模块详解5.1 Spark运行模式概述5.1.1 local5.1.2Mesos5.1.3YARN5.2模块整体架构5.3消息传递机制详解5.3.1Master和Worker5.3.2Master和Client5.3.3Client和Executor5.4集群的启动5.4.1Master的启动5.4.2Worker的启动5.5集群容错处理5.5.1Master 异常退出5.5.2Worker异常退出5.5.3Executor异常退出5.6Master HA实现详解5.6.1Master启动的选举和数据恢复策略5.6.2集群启动参数的配置5.6.3Curator Framework简介 5.6.4ZooKeeperLeaderElectionAgent的实现5.7小结第6章 Executor模块详解6.1Standalone模式的Executor分配详解6.1.1SchedulerBackend创建AppClient6.1.2AppClient向Master注册Applicatio6.1.3Master根据AppClient的提交选择Worker6.1.4Worker根据Master的资源分配结果创建Executor6.2Task的执行6.2.1依赖环境的创建和分发6.2.2任务执行6.2.3任务结果的处理6.2.4Driver端的处理6.3 参数设置6.3.park.executor.memory6.3.2日志相关6.3.3spark.executor.heartbeatInterval6.4小结第7章 Shuffle模块详解7.1Hash Based Shuffle Write7.1.1Basic Shuffle Writer实现解析7.1.2存在的问题7.1.3Shuffle Consolidate Writer7.1.4小结7.2Shuffle Pluggable 框架7.2.1org.apache.spark.shuffle.ShuffleManager7.2.2org.apache.spark.shuffle.ShuffleWriter7.2.3org.apache.spark.shuffle.ShuffleBlockManager7.2.4org.apache.spark.shuffle.ShuffleReader7.2.5如何开发自己的Shuffle机制7.3Sort Based Write7.4Shuffle Map Task运算结果的处理7.4.1Executor端的处理7.4.2Driver端的处理7.5Shuffle Read7.5.1整体流程7.5.2数据读取策略的划分7.5.3本地读取7.5.4远程读取7.6性能调优7.6.park.shuffle.manager7.6.2spark.shuffle.spill7.6.3spark.shuffle.memoryFraction和spark.shuffle.safetyFractio7.6.4spark.shuffle.sort.bypassMergeThreshold 7.6.5spark.shuffle.blockTransferService 7.6.6spark.shuffle.consolidateFiles 7.6.7spark.shuffle.compress和 spark.shuffle.spill.compress7.6.8spark.reducer.maxMbInFlight7.7小结第8章 Storage模块详解8.1模块整体架构8.1.1整体架构8.1.2源码组织结构8.1.3Master 和Slave的消息传递详解8.2存储实现详解8.2.1存储级别8.2.2模块类图8.2.3org.apache.spark.storage.DiskStore实现详解8.2.4org.apache.spark.storage.MemoryStore实现详解8.2.5org.apache.spark.storage.TachyonStore实现详解8.2.6Block存储的实现8.3性能调优8.3.park.local.dir8.3.2spark.executor.memory8.3.3spark.storage.memoryFractio8.3.4spark.streaming.blockInterval8.4小结第9章 企业应用概述9.1Spark在百度9.1.1现状9.1.2百度开放云BMR的Spark9.1.3在Spark中使用Tachyo9.2Spark在阿里9.3Spark在腾讯9.4小结
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价