消息首页搜索举报

【包邮】 Apache Spark源码剖析【正版九新】

九品消毒塑封

19.5 2.9折 68 九五品

库存4件

天津宝坻

认证卖家担保交易快速发货售后保障

作者许鹏

出版社电子工业

ISBN9787121254208

出版时间2015-03

装帧其他

开本16开

定价68元

货号9787121254208

上书时间2024-11-30

文渊文化传媒

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

【包邮】哈克贝利*费恩历险记【正版九新】 ¥12.70

【包邮】八卦象数点穴疗法【正版九新】 ¥14.50

【包邮】鼠王【正版九新】 ¥14.10

【包邮】家常菜·烘焙·主食·饮品大全【正版九新】 ¥14.60

【包邮】苏轼与朱熹（精装版）：触摸中国士人的精神内核！【正版九新】 ¥13.80

【包邮】杜邦十大安全理念透视【正版九新】 ¥14.10

【包邮】爱的川流不息(插图版) 【正版九新】 ¥13.50

【包邮】古诗带你去探秘(第二册)(美绘版) 【正版九新】 ¥14.10

【包邮】《教你炒股票》系列之二:见龙在田——做熟一种盈利模式【正版九新】 ¥15.00

商品详情

品相描述：九五品

商品描述: 作者简介
许鹏长，期致力于电信领域和互联网的软件研发，在数据处理方面积累了大量经验，对系统的可扩展性、可靠性方面进行过深入学习和研究。因此，累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核，作者也曾进行过深入的分析。

目录
第一部分  Spark概述
第1章  初识Spark
  1.1  大数据和Spark
    1.1.1  大数据的由来
    1.1.2  大数据的分析
    1.1.3  Hadoop
    1.1.4  Spark简介
  1.2  与Spark的第一次亲密接触
    1.2.1  环境准备
    1.2.2  下载安装Spark
    1.2.3  Spark下的WordCount
第二部分  Spark核心概念
第2章  Spark整体框架
  2.1  编程模型
    2.1.1  RDD
    2.1.2  Operation
  2.2  运行框架
    2.2.1  作业提交
    2.2.2  集群的节点构成
    2.2.3  容错处理
    2.2.4  为什么是Scala
  2.3  源码阅读环境准备
    2.3.1  源码下载及编译
    2.3.2  源码目录结构
    2.3.3  源码阅读工具
    2.3.4  本章小结
第3章  SparkContext初始化
  3.1  spark-shell
  3.2  SparkContext的初始化综述
  3.3  Spark Repl综述
    3.3.1  Scala Repl执行过程
    3.3.2  Spark Repl
第4章  Spark作业提交
  4.1  作业提交
  4.2  作业执行
    4.2.1  依赖性分析及stage划分
    4.2.2  Actor Model和Akka
    4.2.3  任务的创建和分发
    4.2.4  任务执行
    4.2.5  Checkpoint和Cache
    4.2.6  WebUIS和HMetrics
  4.3  存储机制
    4.3.1  Shuffle结果的写入和读取
    4.3.2  Memory Store
    4.3.3  存储子模块启动过程分析
    4.3.4  数据写入过程分析
    4.3.5  数据读取过程分析
    4.3.6  TachyonStore
第5章  部署方式分析
  5.1  部署模型
  5.2  单机模式local
  5.3  伪集群部署local-cluster
  5.4  原生集群Standalone Cluster
    5.4.1  启动Master
    5.4.2  启动Worker
    5.4.3  运行spark-shell
    5.4.4  容错性分析
  5.5  Spark On YARN
    5.5.1  YARN的编程模型
    5.5.2  YARN中的作业提交
    5.5.3  Spark On YARN实现详解
    5.5.4  SparkPi on YARN
第三部分  Spark Lib
第6章  Spark Streaming
  6.1  Spark Streaming整体架构
    6.1.1  DStream
    6.1.2  编程接口
    6.1.3  Streaming WordCount
  6.2  Spark Streaming执行过程
    6.2.1  StreamingContext初始化过程
    6.2.2  数据接收
    6.2.3  数据处理
    6.2.4  BlockRDD
  6.3  窗口操作
  6.4  容错性分析
  6.5  Spark Streaming vs.Storm
    6.5.1  Storm简介
    6.5.2  Storm和Spark Streaming对比
  6.6  应用举例
    6.6.1  搭建Kafka Cluster
    6.6.2  KafkaWbrdCount
第7章  SQL
  7.1  SQL语句的通用执行过程分析
  7.2  SQL On Spark的实现分析
    7.2.1  SqlParser
    7.2.2  Analyzer
    7.2.3  Optimizer
    7.2.4  SparkPlan
  7.3  Parquet文件和JSON数据集
  7.4  Hive简介
    7.4.1  Hive架构
    7.4.2  HiveQL On MapReduce执行过程分析
  7.5  HiveQL On Spark详解
    7.5.1  Hive On Spark环境搭建
    7.5.2  编译支持Hadoop 2.x的Spark
    7.5.3  运行Hive On Spark测试用例
第8章  GraphX
  8.1  GraphX简介
    8.1.1  主要特点
    8.1.2  版本演化
    8.1.3  应用场景
  8.2  分布式图计算处理技术介绍
    8.2.1  属性图
    8.2.2  图数据的存储与分割
  8.3  Pregel计算模型
    8.3.1  BSP
    8.3.2  像顶点一样思考
  8.4  GraphX图计算框架实现分析
    8.4.1  基本概念
    8.4.2  图的加载与构建
    8.4.3  图数据存储与分割
    8.4.4  操作接口
    8.4.5  Pregel在GraphX中的源码实现
  8.5  PageRank
    8.5.1  什么是PageRank
    8.5.2  PageRank核心思想
第9章  MLLib
  9.1  线性回归
    9.1.1  数据和估计
    9.1.2  线性回归参数求解方法
    9.1.3  正则化
  9.2  线性回归的代码实现
    9.2.1  简单示例
    9.2.2  入口函数train
    9.2.3  最优化算法optimizer
    9.2.4  权重更新update
    9.2.5  结果预测predict
  9.3  分类算法
    9.3.1  逻辑回归
    9.3.2  支持向量机
  9.4  拟牛顿法
    9.4.1  数学原理
    9.4.2  代码实现
  9.5  MLLib与其他应用模块间的整合
第四部分  附录
  附录A  Spark源码调试
  附录B  源码阅读技巧

内容摘要
许鹏编著的这本《ApacheSpark源码剖析》以Spark1.02版本源码为切入点，着力于探寻Spark所
要解决的主要问题及其解决办法，通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
本书第3～5章详细介绍了SparkCore中作业的提交与执行，对容错处理也进行了详细分析，有助读者深刻把握Spark实现机理。第6～9章对SparkLib库进行了初步的探索。在对源码有了一定的分析之后，读者可尽快掌握Spark技术。
本书对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值；对于那些想从源码学习而又不知如何入手的读者，也不失为一种借鉴。