消息首页搜索举报

精通Hadoop 3

105.1 7.1折 149 全新

库存4件

四川成都

认证卖家担保交易快速发货售后保障

作者[印]尚沙勒·辛格等著张华臻译

出版社清华大学出版社

ISBN9787302596875

出版时间2022-01

装帧平装

开本16开

定价149元

货号1202598663

上书时间2024-06-30

聚合博文书店

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 7小时
好评率暂无

最新上架

医用化学实验第2版 ¥27.00

政治经济学的特征与逻辑方法 ¥25.40

科学与设 ¥27.60

西学东渐研究第9辑明清时期逻辑学与自然科学的东渐 ¥48.00

书房命案 ¥18.80

中国新教育行政制度研究 ¥23.30

能力、素养与行动 ¥26.10

嗨,你想成为程序员吗 ¥42.80

化工实践实验室安全手册 ¥31.40

商品详情

品相描述：全新

商品描述: 目录
第1部分  Hadoop 3简介
第1章  Hadoop 3简介3
1.1  Hadoop起源和时间轴3
1.1.1  Hadoop的起源4
1.1.2  时间轴5
1.2  Hadoop 3及其特性7
1.3  Hadoop逻辑视图8
1.4  Hadoop发行版本10
1.4.1  本地版本11
1.4.2  云版本11
1.5  回顾12
1.6  本章小结12
第2章  深入理解Hadoop分布式文件系统13
2.1  技术需求13
2.2  定义HDFS13
2.3  深入研究HDFS体系结构14
2.3.1  HDFS逻辑结构15
2.3.2  数据分组的概念18
2.3.3  HDFS通信体系结构19
2.4  NameNode内部机制21
2.5  数据本地性和机架感知22
2.6  DataNode内部机制24
2.7  Quorum Journal Manager（QJM）25
2.8  Hadoop 3.x中的高可用性26
2.9  数据管理27
2.9.1  元数据管理28
2.9.2  使用二级NameNode的检查点31
2.9.3  数据集成32
2.9.4  HDFS快照32
2.9.5  数据平衡机制33
2.9.6  均衡器的很好应用方案35
2.10  HDFS写入、读取操作36
2.10.1  写入工作流36
2.10.2  读取工作流38
2.10.3  短路读取40
2.11  管理Hadoop 3.x中的磁盘倾斜数据41
2.12  HDFS中的延迟持久化写入操作42
2.13  Hadoop 3.x中的纠删码43
2.13.1  纠删码的优点45
2.13.2  纠删码的缺点45
2.14  HDFS公共接口45
2.14.1  HDFS读取操作46
2.14.2  HDFS写入操作48
2.14.3  HDFSFileSystemWrite.java文件49
2.14.4  HDFS删除操作50
2.15  HDFS命令参考50
2.15.1  文件系统命令50
2.15.2  分布式复制52
2.15.3  管理命令53
2.16  回顾54
2.17  本章小结54
第3章  YARN资源管理器55
3.1  YARN体系结构55
3.1.1  资源管理器组件58
3.1.2  节点管理器核心60
3.2  YARN作业调度机制简介60
3.3  FIFO调度器61
3.4  计算能力调度器61
3.5  公平调度器63
3.5.1  调度队列63
3.5.2  配置公平调度器64
3.6  资源管理器的高可用性65
3.6.1  资源管理器高可用性的体系结构66
3.6.2  配置资源管理器高可用性67
3.7  节点标记69
3.8  Hadoop 3.x中的YARN时间轴服务器75
3.9  Hadoop 3.x中的机会型容器77
3.10  YARN中的Docker容器79
3.10.1  配置Docker容器80
3.10.2  运行Docker镜像80
3.10.3  运行容器80
3.11  YARN REST API81
3.11.1  资源管理API81
3.11.2  节点管理器REST API85
3.12  YARN命令参考86
3.12.1  用户命令87
3.12.2  应用程序命令87
3.12.3  日志命令88
3.12.4  管理员命令89
3.13  本章小结90
第4章  MapReduce内部机制91
4.1  技术需求91
4.2  深入了解Hadoop MapReduce框架91
4.3  YARN和MapReduce95
4.4  Hadoop框架中的MapReduce工作流97
4.5  常见的MapReduce模式100
4.5.1  求和模式100
4.5.2  过滤模式112
4.5.3  连接模式116
4.5.4  复合连接123
4.6  MapReduce用例126
4.6.1  MovieRatingMapper127
4.6.2  MovieRatingReducer128
4.6.3  MovieRatingDriver128
4.7  优化MapReduce130
4.7.1  硬件配置130
4.7.2  操作系统调试131
4.7.3  优化技术132
4.7.4  运行期配置133
4.7.5  文件系统优化133
4.8  本章小结134
第2部分  Hadoop生态圈
第5章  Hadoop中的SQL137
5.1  技术需求137
5.2  Presto137
5.2.1  Presto体系结构138
5.2.2  安装Presto并执行基本的查询操作139
5.2.3  函数142
5.2.4  Presto连接器144
5.3  Hive147
5.3.1  Apache Hive体系结构148
5.3.2  安装和运行Hive149
5.3.3  Hive查询150
5.3.4  选择文件格式154
5.3.5  HCatalog简介156
5.3.6  HiveServer2简介157
5.3.7  Hive UDF157
5.3.8  理解Hive中的ACID161
5.3.9  分区机制和分桶机制166
5.3.10  很好实践167
5.4  Impala168
5.4.1  Impala体系结构168
5.4.2  了解Impala接口和查询170
5.4.3  Impala实战171
5.4.4  加载CSV文件中的数据173
5.4.5  很好实践方案175
5.5  本章小结176
第6章  实时处理引擎177
6.1  技术需求177
6.2  Spark177
6.2.1  Apache Spark内部机制178
6.2.2  弹性分布式数据集180
6.2.3  安装并运行第一个Spark作业182
6.2.4  累加器和广播变量188
6.2.5  理解数据框和数据集189
6.2.6  Spark集群管理器192
6.2.7  很好实践193
6.3  Apache Flink195
6.3.1  Flink体系结构195
6.3.2  Apache Flink生态圈组件196
6.3.3  数据流和数据集API198
6.3.4  表API201
6.3.5  很好实践203
6.4  Storm/Heron204
6.4.1  Storm/Heron体系结构205
6.4.2  理解Storm Trident210
6.4.3  Storm集成211
6.4.4  很好实践212
6.5  本章小结212
第7章  Hadoop生态圈组件213
7.1  技术需求213
7.2  Pig213
7.2.1  Apache Pig体系结构214
7.2.2  安装并运行Pig216
7.2.3  Pig Latin和Grunt217
7.2.4  编写Pig中的UDF218
7.2.5  Pig和Hive221
7.2.6  很好实践222
7.3  HBase222
7.3.1  HBase体系结构及其概念223
7.3.2  CAP理论225
7.3.3  HBase操作机器示例227
7.3.4  安装230
7.3.5  很好实践232
7.4  Kafka233
7.4.1  Apache Kafka体系结构234
7.4.2  安装和运行Apache Kafka236
7.4.3  生产者和使用者的内部机制238
7.4.4  编写生产者和使用者应用程序241
7.4.5  Kafka的ETL连接244
7.4.6  很好实践248
7.5  Flume249
7.5.1  Apache Flume体系结构249
7.5.2  深入理解源、通道和接收器251
7.5.3  Flume265
7.5.4  用例—Twitter数据271
7.5.5  很好实践273
7.6  本章小结274
第3部分  Hadoop的实际应用
第8章  定义Hadoop中的应用程序277
8.1  技术需求277
8.2  文件格式277
8.2.1  了解文件格式278
8.2.2  文本279
8.2.3  序列文件279
8.2.4  Avro282
8.2.5  优化的行和列（ORC）284
8.2.6  Parquet285
8.3  数据压缩285
8.3.1  Hadoop中的数据压缩类型286
8.3.2  压缩格式289
8.4  序列化290
8.5  数据摄取290
8.5.1  批量摄取291
8.5.2  宏批处理摄取292
8.5.3  实时摄取293
8.6  数据处理294
8.6.1  批处理294
8.6.2  微批处理296
8.6.3  实时处理297
8.7  常见的批处理模式298
8.7.1  缓时变维度298
8.7.2  重复记录和小型文件300
8.7.3  实时查找301
8.8  针对编排的Airflow302
8.9  数据治理303
8.9.1  数据治理的主要内容303
8.9.2  元数据管理304
8.9.3  数据生命周期管理305
8.9.4  数据分类306
8.10  本章小结307
第9章  Hadoop中的实时流处理309
9.1  技术需求309
9.2  流式数据集309
9.3  流数据摄取310
9.3.1  Flume中基于事件的数据摄取310
9.3.2  Kafka311
9.4  常见的流数据处理模式313
9.5  流式设计314
9.5.1  延迟315
9.5.2  数据可用性、一致性和安全性315
9.5.3  无界数据源316
9.5.4  数据查找316
9.5.5  数据格式317
9.5.6  序列化数据317
9.5.7  并行处理机制317
9.5.8  无序事件318
9.5.9  消息传递语义318
9.6  微批处理用例319
9.7  实时处理案例328
9.7.1  主代码333
9.7.2  执行代码344
9.8  本章小结345
第10章  Hadoop中的机器学习347
10.1  技术需求347
10.2  机器学习步骤347
10.3  常见的机器学习挑战348
10.4  Spark机器学习349
10.4.1  转换器函数350
10.4.2  评估器351
10.4.3  Spark ML管线351
10.5  Hadoop和R352
10.6  Mahout353
10.7  Spark中的机器学习案例354
10.8  本章小结358
第11章  云端中的Hadoop359
11.1  技术需求359
11.2  云端Hadoop的逻辑视图359
11.3  网络361
11.3.1  区域和可用区361
11.3.2  VPC和子网362
11.3.3  安全组和防火墙规则363
11.3.4  AWS操作示例364
11.4  管理资源370
11.5  数据管线374
11.5.1  Amazon数据管线375
11.5.2  Airflow375
11.5.3  Airflow组件376
11.5.4  数据管线的DAG示例376
11.6  高可用性（HA）379
11.6.1  服务器故障379
11.6.2  云存储高可用性381
11.7  本章小结382
第12章  Hadoop集群分析383
12.1  基准测试和分析简介383
12.2  HDFS385
12.3  NameNode386
12.3.1  NNBench386
12.3.2  NNThroughputBenchmark387
12.3.3  合成加载生成器389
12.4  YARN392
12.5  Hive393
12.5.1  TPC-DS393
12.5.2  TPC-H394
12.6  混合工作负载395
12.6.1  Rumen395
12.6.2  Gridmix396
12.7  本章小结397
第4部分  Hadoop的安全机制
第13章  Hadoop中的角色及其执行内容401
13.1  Hadoop安全问题的各种因素401
13.2  系统安全402
13.3  Kerberos验证机制403
13.3.1  Kerberos的优点404
13.3.2  Kerberos验证流404
13.4  用户权限406
13.4.1  Ranger407
13.4.2  Sentry408
13.5  Hadoop 3.0中的安全特征列表409
13.6  本章小结411
第14章  网络和数据安全413
14.1  Hadoop网络安全413
14.1.1  隔离不同类型的网络413
14.1.2  网络防火墙415
14.1.3  Hadoop服务的网络边界安全工具415
14.2  加密技术417
14.2.1  传输数据加密417
14.2.2  静态数据加密418
14.3  数据屏蔽机制419
14.4  过滤机制420
14.4.1  行级别过滤机制420
14.4.2  列级别过滤机制421
14.5  本章小结421
第15章  监测Hadoop423
15.1  通用监测机制423
15.1.1  HDFS指标423
15.1.2  YARN指标425
15.1.3  ZooKeeper指标426
15.1.4  Apache Ambari426
15.2  安全监测机制427
15.2.1  安全信息和事件管理427
15.2.2  SIEM的工作方式428
15.2.3  入侵检测系统429
15.2.4  入侵预防系统430
15.3  本章小结430

内容摘要
《精通Hadoop3》详细阐述了与Hadoop 3相关的基础知识，主要包括Hadoop 3简介、深入理解Hadoop分布式文件系统、YARN资源管理器、MapReduce内部机制、Hadoop中的SQL、实时处理引擎、Hadoop生态圈组件、定义Hadoop中的应用程序、Hadoop中的实时流处理、Hadoop中的机器学习、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其执行内容、网络和数据安全、监测Hadoop等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学用书和参考手册。

主编推荐
"《精通Hadoop3》阐述了Hadoop生态圈中的高级概念，并通过安全机制、监测机制和数据管理机制构建高性能的Hadoop数据管线。
除此之外，本书还利用Apache Spark 和Flink改进企业级应用程序，并考查Hadoop的内部工作机制，包括一些真实案例的构建方案。同时，我们还将通过Hadoop 3数据平台探讨企业级应用程序的很好实践方案，其中涉及授权和身份验证机制。随后，我们将学习如何在Hadoop中对数据进行建模、深入了解基于Hadoop 3的分布式计算机制，并查看不同的数据批处理模式。
最后，本书讨论如何高效地继承Hadoop生态圈中的组件，以实现高速、可靠的大数据管线。
"

— 没有更多了 —