Hadoop集群程序设计与开发
全新正版 极速发货
¥
34.36
5.7折
¥
59.8
全新
库存4件
作者王宏志,李春静
出版社人民邮电出版社
ISBN9787115483041
出版时间2018-08
装帧平装
开本16开
定价59.8元
货号1201748498
上书时间2024-08-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
王宏志,哈尔滨工业大学计算机科学与技术学院副教授、博士生导师。研究方向包括大数据管理、数据质量、图数据管理。发表学术论文140余篇,出版学术专著两本,参与翻译《算法导论(第3版)》。在爱课程网、学堂在线、好大学在线上抢先发售开设“大数据算法”在线课程,出版《大数据算法》教材。
目录
章初识Hadoop1
1.1 为什么要学习Hadoop2
1.1.1信息化项目衍生过程2
1.1.2Hadoop产生过程5
1.1.3Hadoop成功案例介绍8
1.2 Hadoop与云计算的关系8
1.2.1什么是云计算8
1.2.2云计算演进历史10
1.2.3云计算相关技术介绍12
1.2.4Hadoop在云项目中扮演的角色12
1.3 Hadoop与大数据的关系13
1.3.1什么是大数据13
1.3.2大数据的存储结构15
1.3.3大数据的计算模式15
1.3.4Hadoop在大数据中扮演的角色16
1.4学习Hadoop需要具备的知识基础16
1.5学习Hadoop需要的实验环境17
1.6 Hadoop的用途17
1.7 小结17
第2章Hadoop基础知识18
2.1 Hadoop简介19
2.1.1Apache Hadoop项目核心模块19
2.1.2Apache Hadoop项目的其他模块20
2.2 Hadoop版本演化22
2.3 RPC工作原理23
2.3.1RPC简介24
2.3.2Hadoop中的RPC25
2.3.3RPCoIB和JVM-旁路缓冲管理方案:在高性能网络InfiniBand上数据交换的改进28
2.4 MapReduce工作原理30
2.4.1MapReduce计算模型32
2.4.2MapReduce经典案例33
2.4.3MapReduce应用场景34
2.5 Hadoop改进34
2.5.1LATE算法:良好的适应异构性环境35
2.5.2Mantri:MapReduce异常处理36
2.5.3SkewTune:MapReduce中数据偏斜处理37
2.5.4基于RDMA的MapReduce设计:提升大数据应用的性能和规模42
2.6 HDFS工作原理44
2.6.1HDFS介绍45
2.6.2HDFS体系结构47
2.6.3文件系统的命名空间50
2.6.4HDFS中Block副本放置策略51
2.6.5HDFS机架感知51
2.6.6HDFS安全模式53
2.6.7HDFS应用场景介绍53
2.6.8混合HDFS的设计:充分利用硬件能力获得最佳性能53
2.7 YARN工作原理55
2.7.1YARN on HDFS的工作原理55
2.7.2MapReduce on YARN的工作原理58
2.8 容错机制64
2.9 安全性66
2.10 小结67
第3章Hadoop开发环境配置与搭建68
3.1 集群部署69
3.1.1安装包版本的选择69
3.1.2Hadoop安装先决条件69
3.1.3Hadoop安装模式70
3.2 本地/独立模式搭建71
3.2.1JDK安装与配置71
3.2.2SSH无密码登录72
3.2.3Hadoop本地环境参数配置74
3.2.4Hadoop本地模式验证74
3.3 伪分布模式搭建74
3.3.1配置过程75
3.3.2格式化HDFS76
3.3.3Hadoop进程启停与验证76
3.4 全分布模式搭建77
3.4.1Hadoop网络配置77
3.4.2Hadoop集群SSH配置79
3.4.3时间同步80
3.4.4IP与机器名映射82
3.4.5Hadoop环境配置82
3.4.6Hadoop集群启停与验证84
3.5基于Hadoop平台的Eclipse开发环境的搭建84
3.5.1Hadoop Eclipse插件配置85
3.5.2编写个MapReduce程序88
3.5.3编译打包及运行程序90
3.6 小结93
第4章Hadoop分布式文件系统94
4.1 HDFS工作原理95
4.1.1HDFS读数据的过程95
4.1.2HDFS写数据的过程96
4.1.3HDFS删除与恢复数据的过程97
4.2 HDFS常用命令行操作概述98
4.2.1HDFS命令行98
4.2.2HDFS常用命令行操作102
4.3 通过Web浏览HDFS文件105
4.4 HDFS API106
4.4.1使用FileSystem API读取数据命令行112
4.4.2使用FileSystem API写入数据命令行115
4.4.3FileUtil文件处理116
4.5 小结117
第5章Hadoop的I/O操作118
5.1 压缩119
5.1.1Hadoop压缩类型119
5.1.2CompressionCodec接口121
5.1.3CompressionCodecFactory类123
5.1.4压缩池125
5.1.5Hadoop中使用压缩127
5.2 I/O序列化类型128
5.2.1Writable接口129
5.2.2Java基本类型的Writable封装器131
5.2.3IntWritable与VIntWritable类133
5.2.4Text类134
5.2.5BytesWritable类135
5.2.6NullWritable类136
5.2.7ObjectWritable类136
5.2.8自定义Writable接口138
5.3 基于文件的数据结构141
5.3.1SequenceFile141
5.3.2MapFile144
5.4 小结145
第6章MapReduce编程基础146
6.1 剖析MapReduce编程过程147
6.2由WordCount理解MapReduce编程过程147
6.2.1准备工作147
6.2.2Mapper工作过程148
6.2.3Reducer工作过程151
6.2.4Job工作过程153
6.3 MapReduce类型155
6.4 Mapper输入155
6.4.1默认输入格式156
6.4.2FileInput输入160
6.4.3多路径输入161
6.4.4自定义输入分片163
6.5 Shuffle166
6.5.1Shuffle运行原理166
6.5.2分区168
6.5.3排序170
6.5.4分组171
6.6 Combiner172
6.6.1由WordCount案例讲解Combiner172
6.6.2由SVG案例进一步讲解Combiner173
6.7 OutputFormat输出178
6.8编程模型的扩展——FlumeJava:云计算不错编程模型181
6.8.1FlumeJava结构181
6.8.2FlumeJava优化183
6.9 小结183
第7章MapReduce不错编程184
7.1 计数器185
7.1.1内置计数器185
7.1.2自定义计数器188
7.1.3计数器结果查看190
7.2 最值191
7.2.1单一最值191
7.2.2Top N195
7.3 全排序198
7.3.1全排序业务需求198
7.3.2实验数据准备199
7.3.3自定义分区实现全排序过程200
7.3.4通过抽样实现全排序过程203
7.4 二次排序206
7.4.1解决方案207
7.4.2例子210
7.5 连接211
7.5.1Reduce端连接213
7.5.2Map端连接217
7.6 小结220
第8章初识HBase221
8.1 HBase基础知识222
8.1.1HBase特征222
8.1.2HBase数据模型223
8.1.3HBase体系结构225
8.2 HBase开发环境配置与安装231
8.2.1HBase环境配置基本准备条件232
8.2.2HBase配置文件233
8.2.3HBase独立安装234
8.2.4HBase伪分布式安装234
8.2.5HBase完全分布式安装235
8.2.6HBase启动、停止、监控236
8.3 HBase基本Shell操作237
8.3.1HBase Shell启动237
8.3.2HBase Shell通用命令237
8.3.3HBase Shell表管理命令238
8.3.4HBase Shell表操作命令238
8.3.5HBase Shell应用举例239
8.4 基于HBase API程序设计239
8.4.1管理表结构240
8.4.2管理表信息242
8.4.3Scan244
8.4.4过滤器245
8.4.5协处理器247
8.4.6计数器247
8.4.7MapReduce与HBase互操作247
8.5 RowKey设计250
8.5.1HBase值的存储与读取的特点250
8.5.2HBase值存储特点引发的问题250
8.5.3RowKey设计遵循的原则251
8.6HBase的高性能设计:使用InfiniBand的RDMA253
8.6.1设计254
8.6.2优势254
8.7 小结255
第9章初识Hive256
9.1 Hive基础知识257
9.1.1Hive的存储结构257
9.1.2Hive与传统数据库的比较258
9.2 Hive环境安装260
9.2.1Hive内嵌模式安装261
9.2.2Hive独立模式安装262
9.2.3Hive远程模式安装263
9.2.4初识Hive Shell264
9.2.5Java通过JDBC对Hive操作266
9.3 HiveQL基本语法269
9.3.1Hive中的数据库270
9.3.2创建表的基本语法271
9.3.3表中数据的加载273
9.3.4HiveQL的数据类型274
9.3.5数据类型转换277
9.3.6文本文件数据编码278
9.3.7分区和桶279
9.3.8表维护282
9.4 HiveQL基本查询283
9.4.1SELECT…FROM语句284
9.4.2WHERE语句285
9.4.3嵌套SELECT语句286
9.4.4Hive函数287
9.4.5GROUP BY语句303
9.4.6JOIN语句305
9.4.7UNION ALL语句310
9.4.8ORDER BY和SORT BY语句310
9.4.9含有SORT BY的DISTRIBUTEBY语句311
9.4.10CLUSTER BY语句312
9.5 视图和索引313
9.5.1视图313
9.5.2索引314
9.6 Hive与HBase集成315
9.7 小结318
附录《Hadoop集群程序设计与开发》配套实验课程方案简介319
内容摘要
本书系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、Hadoop的I/O操作、MapReduce编程基础、MapReduce不错编程、初识HBase、初识Hive。通过本书的学习,读者可以较全面地了解Hadoop的原理、配置和系统开发的相关知识,并且可以从Hadoop的角度学习分布式系统和MapReduce算法设计的相关知识。本书可作为大数据技术相关专业本科生、研究生的教材,也可作为大数据技术的培训用书,还可作为大数据技术相关工作人员的参考用书。
主编推荐
— 没有更多了 —
以下为对购买帮助不大的评价