消息首页搜索举报

大数据技术体系详解：原理、架构与实践

全新正版极速发货

46.83 5.9折 79 全新

库存9件

广东广州

认证卖家担保交易快速发货售后保障

作者董西成

出版社机械工业

ISBN9787111590729

出版时间2018-03

装帧其他

开本其他

定价79元

货号1201666622

上书时间2024-06-14

谢岳书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

建筑·室内·园林·景观·规划SketchUp 2018实战精通208例 ¥49.53

《中国的粮食安全》白皮书重要文献汇编 ¥89.23

地质学基础 ¥46.45

中国广播电影电视发展报告(2019) ¥45.76

识人的智慧人才评鉴方法与工具 ¥37.28

电子管风琴伴奏中外经典合唱曲集 ¥45.91

英译汉翻译研究功能途径 ¥53.30

高等代数(下册)/丘维声 ¥32.03

建筑抗震设计学习辅导与习题精解 ¥15.57

商品详情

品相描述：全新

商品描述: 作者简介
董西成，资深大数据技术实践者和研究者，对大数据基础架构有非常深刻的认识和理解，有着丰富的实践经验。熟悉常见的开源大数据解决方案，包括Hadoop和spark生态系统等，擅长底层分布式系统的优化和开发。撰写了大量Had00p和spark等大数据相关的技术文章并分享在自己的博客上，由于文章技术含量高，所以非常受欢迎。
出版有大数据领域负有盛名的专著：《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》和《Had00p技术内幕：深入解析YARN架构设计与实现原理》。
个人博客：http://dongxicheng.Org／(大量关于Hadoop的干货分享)微信公众账号：hadoopl23(大量关于大数据最新资讯和干货分享)如果想了解更多关于本书的内容，可访问：http://hadoopl23.com／

目录
前言
第一部分概述篇
第1章企业级大数据技术体系概述
  1.1 大数据系统产生背景及应用场景
    1.1.1 产生背景
    1.1.2 常见大数据应用场景
  1.2 企业级大数据技术框架
    1.2.1 数据收集层
    1.2.2 数据存储层
    1.2.3 资源管理与服务协调层
    1.2.4 计算引擎层
    1.2.5 数据分析层
    1.2.6 数据可视化层
  1.3 企业级大数据技术实现方案
    1.3.1 Google大数据技术栈
    1.3.2 Hadoop与Spark开源大数据技术栈
  1.4 大数据架构：Lambda Architecture
  1.5 Hadoop与Spark版本选择及安装部署
    1.5.1 Hadoop与Spark版本选择
    1.5.2 Hadoop与Spark安装部署
  1.6 小结
  1.7 本章问题
第二部分数据收集篇
第2章关系型数据的收集
  2.1 Sqoop概述
    2.1.1 设计动机
    2.1.2 Sqoop基本思想及特点
  2.2 Sqoop基本架构
    2.2.1 Sqoop1基本架构
    2.2.2 Sqoop2基本架构
    2.2.3 Sqoop1与Sqoop2对比
  2.3 Sqoop使用方式
    2.3.1 Sqoop1使用方式
    2.3.2 Sqoop2使用方式
  2.4 数据增量收集CDC
    2.4.1 CDC动机与应用场景
    2.4.2 CDC开源实现Canal
    2.4.3 多机房数据同步系统Otter
  2.5 小结
  2.6 本章问题
……
第3章非关系型数据的收集
第4章分布式消息队列Kafka
第三部分数据存储篇
第5章数据序列化与文件存储格式
第6章分布式文件系统
第7章分布式结构化存储系统
第四部分分布式协调与资源管理篇
第8章分布式协调服务ZooKeeper
第9章资源管理与调度系统YARN

内容摘要
董西成著的这本《大数据技术体系详解(原理架构与实践)》是一部系统、深度讲解大数据技术栈的著作，从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析5个层次讲解了整个大数据技
术体系中所有核心技术的原理、架构与实践。不仅能让读者从宏观上全面认识整个大数据系统，而且能让读者从微观上深入理解各种大数据技术的细节。
本书将以数据在大数据系统中的生命周期为线索，一共16章，分为6个部分：第一部分(第l章)：慨述主要介绍企业级大数据技术框架、技术实现方案和架构，包括Google的大数据技术栈和以Hadoop和Spark为代表的开源技术栈。
第二部分(第2～4章)：数据收集讲解大数据收集相关技术，主要涉及关系型数据收集工具sqoop与canel，非关系型数据收集系统
Flume以及分布式消息队列Kafka。
第三部分(第5～7章)：数据存储讲解大数据存储相关技术，涉及数据存储格式、
分布式文件系统以及分布式数据库三部分，包括Thrift、Protobuf、Avro、HDFS和HBase等。
第四部分(第8～9章)：分布式协调与资源管理讲解资源管理和服务协调相关技术，涉及资源管理和调度系统YARN以及资源协调系统z00keeper。
第五部分(第10～13章)：汁算引擎讲解计算引擎相关技术，涉及批处理、交互式处理以及流式实时处理三类引擎，包括MapReduce、
Spark、Impala／Presto、Storm等常用技术。
第六部分(第14～16章)：数据分析讲解数据分析相关技术，涉及基于数据分析的语言HQL与SQL，大数据统一编程模型及机器学习库等。

— 没有更多了 —