剑指大数据――Hadoop学习精要
全新正版 极速发货
¥
46.39
4.4折
¥
105
全新
库存8件
作者尚硅谷教育
出版社电子工业
ISBN9787121443923
出版时间2022-10
装帧其他
开本其他
定价105元
货号31588641
上书时间2024-06-04
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章 大数据概论1
1.1 大数据的特征1
1.2 大数据的发展前景2
1.2.1 大数据的应用场景2
1.2.2 大数据的未来发展3
1.3 大数据生态体系与Hadoop4
1.3.1 Hadoop的发展史4
1.3.2 大数据生态体系5
1.3.3 Hadoop架构7
1.4 本章总结10
第2章 环境准备11
2.1 安装VMware11
2.2 安装CentOS11
2.3 安装远程终端19
2.3.1 安装Xshell19
2.3.2 安装SecureCRT21
2.4 虚拟机配置23
2.4.1 网络配置23
2.4.2 网络IP地址配置24
2.4.3 主机名配置25
2.4.4 防火墙配置25
2.4.5 一般用户配置26
2.4.6 克隆虚拟机26
2.5 本章总结27
第3章 Hadoop快速上手28
3.1 集群角色28
3.1.1 Hadoop集群的主要角色28
3.1.2 YARN的主要组成部分28
3.2 本地模式30
3.2.1 安装30
3.2.2 运行官方示例程序32
3.3 完全分布式模式33
3.3.1 SSH免密登录33
3.3.2 shell脚本准备34
3.3.3 集群配置36
3.3.4 NameNode格式化问题42
3.3.5 配置历史服务器与日志聚集功能44
3.3.6 Hadoop集群启停脚本47
3.3.7 集群时间同步48
3.4 本章总结50
第4章 分布式文件系统HDFS51
4.1 HDFS概述51
4.1.1 HDFS背景及定义51
4.1.2 HDFS的基本架构52
4.2 HDFS的shell操作53
4.2.1 命令大全53
4.2.2 命令行命令实操54
4.3 HDFS的API操作58
4.3.1 客户端环境准备58
4.3.2 HDFS文件上传案例61
4.3.3 HDFS文件下载案例62
4.3.4 HDFS文件重命名案例63
4.3.5 HDFS文件删除案例63
4.3.6 HDFS文件详情查看案例63
4.3.7 HDFS文件和文件夹判断案例64
4.4 HDFS的读/写流程65
4.4.1 HDFS中的数据块大小65
4.4.2 写数据流程65
4.4.3 读数据流程68
4.5 HDFS的工作机制69
4.5.1 NameNode和SecondaryNameNode的工作机制69
4.5.2 EditLog和FsImage文件解析70
4.5.3 检查点时间设置76
4.5.4 DataNode的工作机制76
4.5.5 数据完整性77
4.6 本章总结78
第5章 分布式计算MapReduce79
5.1 MapReduce概述79
5.1.1 MapReduce定义79
5.1.2 MapReduce核心思想80
5.2 MapReduce编程入门81
5.2.1 官方示例程序WordCount源码81
5.2.2 编程规范82
5.2.3 WordCount案例实操82
5.3 Hadoop的序列化89
5.3.1 序列化概述89
5.3.2 Writable接口89
5.3.3 序列化案例实操90
5.4 MapReduce框架原理之InputFormat数据输入96
5.4.1 切片与MapTask并行度决定机制96
5.4.2 Job提交流程源码和FileInputFormat切片源码详解98
5.4.3 FileInputFormat切片机制总结101
5.4.4 TextInputFormat101
5.4.5 CombineTextInputFormat切片机制102
5.4.6 CombineTextInputFormat案例实操103
5.5 MapReduce框架原理之shuffle机制104
5.5.1 shuffle机制104
5.5.2 分区105
5.5.3 分区案例实操106
5.5.4 WritableComparable排序110
5.5.5 WritableComparable排序案例实操(全排序)111
5.5.6 WritableComparable排序案例实操(区内排序)116
5.5.7 Combiner合并119
5.5.8 Combiner合并案例实操120
5.6 MapReduce框架原理之OutputFormat数据输出121
5.6.1 OutputFormat接口的实现类121
5.6.2 自定义OutputFormat类的案例实操122
5.7 MapReduce工作流程126
5.8 Join127
5.8.1 Reduce Join127
5.8.2 Reduce Join案例实操127
5.8.3 Map Join133
5.8.4 Map Join案例实操134
5.9 数据清洗137
5.10 Hadoop中的数据压缩139
5.10.1 数据压缩概述139
5.10.2 压缩参数配置140
5.10.3 压缩案例实操141
5.11 本章总结145
第6章 资源调度器YARN146
6.1 YARN概述146
6.1.1 基本架构147
6.1.2 工作机制148
6.2 YARN的资源调度器和调度算法150
6.2.1 FIFO调度器150
6.2.2 容量调度器150
6.2.3 公平调度器152
6.3 YARN实操156
6.3.1 常用的命令行命令156
6.3.2 核心参数158
6.3.3 核心参数配置案例159
6.3.4 容量调度器配置案例163
6.3.5 公平调度器配置案例168
6.3.6 Tool接口案例171
6.4 本章总结174
第7章 高可用HA175
7.1 ZooKeeper详解175
7.1.1 ZooKeeper入门175
7.1.2 ZooKeeper安装178
7.1.3 ZooKeeper的内部原理180
7.1.4 ZooKeeper的命令操作181
7.2 HA概述188
7.2.1 什么是HA188
7.2.2 HDFS HA的工作机制188
7.3 Hadoop HA集群的搭建189
7.3.1 HDFS HA手动故障转移189
7.3.2 HDFS HA自动故障转移192
7.3.3 YARN HA195
7.3.4 Hadoop HA集群规划199
7.4 本章总结199
第8章 生产调优手册200
8.1 HDFS的核心参数200
8.1.1 NameNode的内存生产配置200
8.1.2 NameNode心跳并发配置202
8.1.3 启用回收站功能203
8.2 HDFS集群压测204
8.2.1 测试HDFS的写性能205
8.2.2 测试HDFS的读性能207
8.3 HDFS的多目录配置208
8.3.1 NameNode的多目录配置208
8.3.2 DataNode的多目录配置208
8.3.3 集群数据均衡之磁盘之间的数据均衡209
8.4 HDFS集群的扩容及缩容209
8.4.1 添加白名单209
8.4.2 服役新服务器212
8.4.3 服务器之间的数据均衡214
8.4.4 黑名单退役服务器214
8.5 HDFS的存储优化策略216
8.5.1 纠删码216
8.5.2 异构存储218
8.6 HDFS的故障排除223
8.6.1 NameNode故障处理223
8.6.2 集群安全模式&磁盘数据损坏224
8.6.3 慢磁盘监控226
8.6.4 小文件存档227
8.7 MapReduce的生产经验228
8.7.1 MapReduce程序运行较慢的原因228
8.7.2 MapReduce的常用调优参数229
8.7.3 MapReduce的数据倾斜231
8.8 Hadoop的综合调优232
8.8.1 Hadoop的小文件优化方法232
8.8.2 测试MapReduce的计算性能233
8.8.3 企业开发场景案例234
8.9 本章总结239
第9章 源码解析240
9.1 RPC通信原理240
9.2 NameNode启动源码解析243
9.2.1 查看源码的准备工作243
9.2.2 启动9870端口服务246
9.2.3 加载镜像文件和编辑日志文件247
9.2.4 初始化RPC服务器端248
9.2.5 检查资源249
9.2.6 检测心跳信息并进行超时判断252
9.2.7 退出安全模式255
9.3 DataNode启动源码解析257
9.3.1 查看源码的准备工作257
9.3.2 初始化DataXceiverServer259
9.3.3 初始化HTTP服务260
9.3.4 初始化RPC服务器端261
9.3.5 DataNode向NameNode注册262
9.3.6 DataNode向NameNode发送心跳信息266
9.4 HDFS写数据流程的源码解析268
9.4.1 查看源码的准备工作269
9.4.2 Client向NameNode发起写请求269
9.4.3 NameNode处理Client的写请求270
9.4.4 DataStreamer启动流程271
9.4.5 向DataStreamer的队列中写数据274
9.4.6 建立管道之机架感知276
9.4.7 建立管道之socket发送278
9.4.8 建立管道之socket接收280
9.4.9 客户端接收DataNode的写数据响应283
9.5 YARN源码解析284
9.5.1 查看源码的准备工作284
9.5.2 创建YARN客户端并提交任务286
9.5.3 启动MRAppMaster288
9.5.4 调度器任务执行291
9.6 Hadoop的源码编译294
9.6.1 前期准备工作295
9.6.2 安装工具包295
9.6.3 编译源码297
9.7 本章总结298
内容摘要
Hadoop是使用最广泛的大数据处理框架之一,在大数据领域有着极其重要的地位,掌握Hadoop可以让学习者对大数据的理解更进一步。本书是基于Hadoop3.1.3编写的,从大数据的特点和处理难点入手,逐步讲解Hadoop的起源和发展。从搭建Hadoop的学习环境开始,依次对Hadoop的三大功能模块进行重点讲解,并且结合大量案例,细致地讲解HDFS、MapReduce、YARN的内核原理和调优方法,还会扩展讲解Hadoop的高可用实现、在生产环境中的调优方法及源码解读。本书广泛适用于大数据的学习者与从业人员,是大数据学习的必备书籍。
— 没有更多了 —
以下为对购买帮助不大的评价