大数据处理之道
¥
24.5
3.1折
¥
79
九五品
仅1件
作者何金池著
出版社电子工业出版社
ISBN9787121287237
出版时间2016-09
版次1
装帧平装
开本16开
纸张胶版纸
页数284页
字数99999千字
定价79元
上书时间2024-12-02
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:大数据处理之道
定价:79.00元
作者:何金池著
出版社:电子工业出版社
出版日期:2016-09-01
ISBN:9787121287237
字数:341000
页码:284
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
《大数据处理之道》分析比较了当下流行的大数据处理技术的优劣及适用场景,让读者可以根据自己的需求来选择合适的工具和方案,值得一读。
内容提要
本书覆盖了当前大数据处理领域的热门技术,包括Hadoop、Spark、Storm、Dremel、Drill等,详细分析了各种技术的应用场景和优缺点;同时阐述了大数据下的日志分析系统,重点讲解了ELK日志处理方案;最后分析了大数据处理技术的发展趋势。本书采用幽默的表述风格,使读者容易理解、轻松掌握;重点从各种技术的起源、设计思想、架构等方面阐述,以帮助读者从根源上悟出大数据处理之道。
目录
目录0“疯狂”的大数据10.1大数据时代10.2数据就是“金库”30.3让大数据“活”起来4篇Hadoop军营1 Hadoop一石激起千层浪71.1Hadoop诞生——不仅仅是玩具71.2Hadoop发展——各路英雄集结81.3Hadoop和它的小伙伴们101.4Hadoop应用场景121.5小结132 MapReduce奠定基石142.1MapReduce设计思想142.2MapReduce运行机制192.2.1MapReduce的组成192.2.2MapReduce作业运行流程202.2.3JobTracker解剖262.2.4TaskTracker解剖342.2.5失败场景分析422.3MapReduce实例分析432.3.1运行WordCount程序442.3.2WordCount源码分析452.4小结483 分布式文件系统493.1群雄并起的DFS493.2HDFS文件系统513.2.1HDFS 设计与架构523.2.2HDFS 操作与API563.2.3HDFS的优点及适用场景603.2.4HDFS的缺点及改进策略613.3小结624 Hadoop体系的“四剑客”634.1数据仓库工具Hive634.1.1Hive缘起何处634.1.2Hive和数据库的区别654.1.3Hive设计思想与架构664.1.4适用场景744.2大数据仓库HBase744.2.1HBase因何而生744.2.2HBase的设计思想和架构774.2.3HBase优化技巧844.2.4HBase和Hive的区别864.3Pig编程语言874.3.1Pig的缘由874.3.2Pig的基本架构884.3.3Pig与Hive的对比904.3.4Pig的执行模式904.3.5Pig Latin语言及其应用914.4协管员ZooKeeper964.4.1ZooKeeper是什么964.4.2ZooKeeper的作用974.4.3ZooKeeper的架构984.4.4ZooKeeper的数据模型1004.4.5ZooKeeper的常用接口及操作1024.4.6ZooKeeper的应用场景分析1054.5小结1085 Hadoop资源管理与调度1105.1Hadoop调度机制1105.1.1FIFO1115.1.2计算能力调度器1115.1.3公平调度器1135.2Hadoop YARN资源调度1145.2.1YARN产生的背景1145.2.2Hadoop YARN的架构1165.2.3YARN的运作流程1185.3Apache Mesos资源调度1205.3.1Apache Mesos的起因1205.3.2Apache Mesos的架构1215.3.3基于Mesos的Hadoop1235.4Mesos与YARN对比1275.5小结1286 Hadoop集群管理之道1296.1Hadoop 集群管理与维护1296.1.1Hadoop集群管理1296.1.2Hadoop集群维护1316.2Hadoop 集群调优1326.2.1Linux文件系统调优1326.2.2Hadoop通用参数调整1336.2.3HDFS相关配置1336.2.4MapReduce相关配置1346.2.5Map任务相关配置1366.2.6HBase搭建重要的HDFS参数1376.3Hadoop 集群监控1376.3.1Apache Ambari监控1376.3.2Ganglia监控Hadoop1386.4小结138第2篇Spark星火燎原7 Spark宝刀出鞘1417.1Spark的历史渊源1417.1.1Spark的诞生1417.1.2Spark的发展1427.2Spark和Hadoop MapReduce对比1437.3Spark的适用场景1457.4Spark的硬件配置1467.5Spark架构1477.5.1Spark生态架构1477.5.2Spark运行架构1497.6小结1518 Spark核心RDD1538.1RDD简介1538.1.1什么是RDD1538.1.2为什么需要RDD1548.1.3RDD本体的设计1548.1.4RDD与分布式共享内存1558.2RDD的存储级别1558.3RDD依赖与容错1578.3.1RDD依赖关系1578.3.2RDD容错机制1608.4RDD操作与接口1618.4.1RDD Transformation操作与接口1628.4.2RDD Action操作与接口1648.5RDD编程示例1658.6小结1669 Spark运行模式和流程1679.1Spark运行模式1679.1.1Spark的运行模式列表1679.1.2Local模式1689.1.3Standalone模式1699.1.4Spark on Mesos模式1719.1.5Spark on YARN 模式1739.1.6Spark on EGO 模式1759.2Spark作业流程1779.2.1YARN-Client模式的作业流程1789.2.2YARN-Cluster模式的作业流程1799.3小结18110 Shark和Spark SQL18310.1从Shark到Spark SQL18310.1.1Shark的撤退是进攻18310.1.2Spark SQL接力18510.1.3Spark SQL与普通SQL的区别18610.2Spark SQL应用架构18710.3Spark SQL之DataFrame18810.3.1什么是DataFrame18810.3.2DataFrame的创建18810.3.3DataFrame的使用19010.4Spark SQL运行过程分析19010.5小结19211 Spark Streaming流数据处理新贵19311.1Spark Streaming是什么19311.2Spark Streaming的架构19411.3Spark Streaming的操作19511.3.1Spark Streaming的Transformation操作19611.3.2Spark Streaming的Window操作19711.3.3Spark Streaming的Output操作19811.4Spark Streaming性能调优19811.5小结20012 Spark GraphX图计算系统20112.1图计算系统20112.1.1图存储模式20212.1.2图计算模式20312.2Spark GraphX的框架20612.3Spark GraphX的存储模式20712.4Spark GraphX的图运算符20812.5小结21113 Spark Cluster管理21213.1Spark Cluster部署21213.2Spark Cluster管理与监控21313.2.1内存优化机制21313.2.2Spark日志系统21313.3Spark 高可用性21513.4小结216第3篇其他大数据处理技术14 专为流数据而生的Storm21814.1Storm起因21814.2Storm的架构与组件22014.3Storm的设计思想 22214.4Storm与Spark的区别22414.5Storm的适用场景22514.6Storm的应用22614.7小结22715 Dremel和Drill22815.1Dremel和Drill的历史背景22815.2Dremel的原理与应用23015.3Drill的架构与流程23215.4Dremel和Drill的适用场景与应用23415.5小结234第4篇大数据下的日志分析系统16 日志分析解决方案23616.1百花齐放的日志处理技术23616.2日志处理方案ELK23816.2.1ELK的三大金刚23816.2.2ELK的架构24016.2.3ELK的组网形式24216.3Logstash日志收集解析24516.3.1Input Plugins及应用示例24616.3.2Filter Plugins及应用示例24816.3.3Output Plugins及应用示例24916.4ElasticSearch存储与搜索25016.4.1ElasticSearch的主要概念25116.4.2ElasticSearch Rest API25216.5Kibana展示25316.6小结25517 ELK集群部署与应用25617.1ELK集群部署与优化25617.1.1ELK HA集群部署25617.1.2ElasticSearch优化25717.2如何开发自己的插件25917.3ELK在大数据运维系统中的应用26117.4ELK实战应用26217.4.1ELK监控Spark集群26217.4.2ELK监控系统资源状态26317.4.3ELK辅助日志
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价