• 精通Hadoop
21年品牌 40万+商家 超1.5亿件商品

精通Hadoop

全新正版 极速发货

26.95 5.5折 49 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者(印)卡伦斯(Sandeep Karanth) 著;刘淼,唐觊隽,陈智威 译

出版社人民邮电出版社

ISBN9787115411051

出版时间2016-01

装帧平装

开本16开

定价49元

货号1201230275

上书时间2024-11-23

书香美美

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
Sandeep Karanth,Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。

目录
第1章Hadoop2.X1
1.1Hadoop的起源1
1.2Hadoop的演进2
1.3Hadoop2.X6
1.3.1YetAnotherResourceNegotiator(YARN)7
1.3.2存储层的增强8
1.3.3支持增强11
1.4Hadoop的发行版11
1.4.1选哪个Hadoop发行版12
1.4.2可用的发行版14
1.5小结16
第2章MapReduce进阶17
2.1MapReduce输入18
2.1.1InputFormat类18
2.1.2InputSplit类18
2.1.3RecordReader类19
2.1.4Hadoop的“小文件”问题20
2.1.5输入过滤24
2.2Map任务27
2.2.1dfs.blocksize属性28
2.2.2中间输出结果的排序与溢出28
2.2.3本地reducer和Combiner31
2.2.4获取中间输出结果——Map侧31
2.3Reduce任务32
2.3.1获取中间输出结果——Reduce侧32
2.3.2中间输出结果的合并与溢出33
2.4MapReduce的输出34
2.5MapReduce作业的计数器34
2.6数据连接的处理36
2.6.1Reduce侧的连接36
2.6.2Map侧的连接42
2.7小结45
第3章Pig进阶47
3.1Pig对比SQL48
3.2不同的执行模式48
3.3Pig的复合数据类型49
3.4编译Pig脚本50
3.4.1逻辑计划50
3.4.2物理计划51
3.4.3MapReduce计划52
3.5开发和调试助手52
3.5.1DESCRIBE命令52
3.5.2EXPLAIN命令53
3.5.3ILLUSTRATE命令53
3.6Pig操作符的高级特性54
3.6.1FOREACH操作符进阶54
3.6.2Pig的特殊连接58
3.7用户定义函数61
3.7.1运算函数61
3.7.2加载函数66
3.7.3存储函数68
3.8Pig的性能优化69
3.8.1优化规则69
3.8.2Pig脚本性能的测量71
3.8.3Pig的Combiner72
3.8.4Bag数据类型的内存72
3.8.5Pig的reducer数量72
3.8.6Pig的multiquery模式73
3.9最佳实践73
3.9.1明确地使用类型74
3.9.2更早更频繁地使用投影74
3.9.3更早更频繁地使用过滤74
3.9.4使用LIMIT操作符74
3.9.5使用DISTINCT操作符74
3.9.6减少操作74
3.9.7使用AlgebraicUDF75
3.9.8使用AccumulatorUDF75
3.9.9剔除数据中的空记录75
3.9.10使用特殊连接75
3.9.11压缩中间结果75
3.9.12合并小文件76
3.10小结76
第4章Hive进阶77
4.1Hive架构77
4.1.1Hive元存储78
4.1.2Hive编译器78
4.1.3Hive执行引擎78
4.1.4Hive的支持组件79
4.2数据类型79
4.3文件格式80
4.3.1压缩文件80
4.3.2ORC文件81
4.3.3Parquet文件81
4.4数据模型82
4.4.1动态分区84
4.4.2Hive表索引85
4.5Hive查询优化器87
4.6DML进阶88
4.6.1GROUPBY操作88
4.6.2ORDERBY与SORTBY88
4.6.3JOIN类型88
4.6.4高级聚合89
4.6.5其他高级语句90
4.7UDF、UDAF和UDTF90
4.8小结93
第5章序列化和HadoopI/O95
5.1Hadoop数据序列化95
5.1.1Writable与WritableComparable96
5.1.2Hadoop与Java序列化的区别98
5.2Avro序列化100
5.2.1Avro与MapReduce102
5.2.2Avro与Pig105
5.2.3Avro与Hive106
5.2.4比较Avro与ProtocolBuffers/Thrift107
5.3文件格式108
5.3.1Sequence文件格式108
5.3.2MapFile格式111
5.3.3其他数据结构113
5.4压缩113
5.4.1分片与压缩114
5.4.2压缩范围115
5.5小结115
第6章YARN——其他应用模式进入Hadoop的引路人116
6.1YARN的架构117
6.1.1资源管理器117
6.1.2ApplicationMaster118
6.1.3节点管理器119
6.1.4YARN客户端120
6.2开发YARN的应用程序120
6.2.1实现YARN客户端120
6.2.2实现AM实例125
6.3YARN的监控129
6.4YARN中的作业调度134
6.4.1容量调度器134
6.4.2公平调度器137
6.5YARN命令行139
6.5.1用户命令140
6.5.2管理员命令140
6.6小结141
第7章基于YARN的Storm——Hadoop中的低延时处理142
7.1批处理对比流式处理142
7.2ApacheStorm144
7.2.1ApacheStorm的集群架构144
7.2.2ApacheStorm的计算和数据模型145
7.2.3ApacheStorm用例146
7.2.4ApacheStorm的开发147
7.2.5ApacheStorm0.9.1153
7.3基于YARN的Storm154
7.3.1在YARN上安装ApacheStorm154
7.3.2安装过程154
7.4小结161
第8章云上的Hadoop162
8.1云计算的特点162
8.2云上的Hadoop163
8.3亚马逊ElasticMapReduce164
8.4小结175
第9章HDFS替代品176
9.1HDFS的优缺点176
9.2亚马逊AWSS3177
9.3在Hadoop中实现文件系统179
9.4在Hadoop中实现S3原生文件系统179
9.5小结189
第10章HDFS联合190
10.1旧版HDFS架构的限制190
10.2HDFS联合的架构192
10.2.1HDFS联合的好处193
10.2.2部署联合NameNode193
10.3HDFS高可用性195
10.3.1从NameNode、检查节点和备份节点195
10.3.2高可用性——共享edits196
10.3.3HDFS实用工具197
10.3.4三层与四层网络拓扑197
10.4HDFS块放置策略198
10.5小结200
第11章Hadoop安全201
11.1安全的核心201
11.2Hadoop中的认证202
11.2.1Kerberos认证202
11.2.2Kerberos的架构和工作流203
11.2.3Kerberos认证和Hadoop204
11.2.4HTTP接口的认证204
11.3Hadoop中的授权205
11.3.1HDFS的授权205
11.3.2限制HDFS的使用量208
11.3.3Hadoop中的服务级授权209
11.4Hadoop中的数据保密性211
11.5Hadoop中的日志审计216
11.6小结217
第12章使用Hadoop进行数据分析218
12.1数据分析工作流218
12.2机器学习220
12.3ApacheMahout222
12.4使用Hadoop和Mahout进行文档分析223
12.4.1词频223
12.4.2文频224
12.4.3词频—逆向文频224
12.4.4Pig中的Tf—idf225
12.4.5余弦相似度距离度量228
12.4.6使用k—means的聚类228
12.4.7使用ApacheMahout进行k—means聚类229
12.5RHadoop233
12.6小结233
附录微软Windows中的Hadoop235

内容摘要
这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。主要内容包括:Hadoop MapReduce、Pig 和Hive 优化策略,YARN 审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP