【包邮】 精通Hadoop 【正版九新】
九品消毒塑封
¥
15.8
3.2折
¥
49
九五品
库存3件
作者卡伦斯
出版社人民邮电出版社
ISBN9787115411051
出版时间2016-01
装帧其他
开本16开
定价49元
货号9787115411051
上书时间2024-11-30
商品详情
- 品相描述:九五品
- 商品描述
-
作者简介
Sandeep Karanth,Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。
目录
第1章 Hadoop 2.X
1.1 Hadoop 的起源
1.2 Hadoop 的演进
1.3 Hadoop 2.X
1.3.1 Yet Another Resource Negotiator(YARN)
1.3.2 存储层的增强
1.3.3 支持增强
1.4 Hadoop 的发行版
1.4.1 选哪个Hadoop 发行版
1.4.2 可用的发行版
1.5 小结
第2章 MapReduce 进阶
2.1 MapReduce 输入
2.1.1 InputFormat 类
2.1.2 InputSplit 类
2.1.3 RecordReader 类
2.1.4 Hadoop 的“小文件”问题
2.1.5 输入过滤
2.2 Map 任务
2.2.1 dfs.blocksize 属性
2.2.2 中间输出结果的排序与溢出
2.2.3 本地reducer 和Combiner
2.2.4 获取中间输出结果——Map 侧
2.3 Reduce 任务
2.3.1 获取中间输出结果——Reduce 侧
2.3.2 中间输出结果的合并与溢出
2.4 MapReduce 的输出
2.5 MapReduce 作业的计数器
2.6 数据连接的处理
2.6.1 Reduce 侧的连接
2.6.2 Map 侧的连接
2.7 小结
第3章 Pig 进阶
3.1 Pig 对比SQL
3.2 不同的执行模式
3.3 Pig 的复合数据类型
3.4 编译Pig 脚本
3.4.1 逻辑计划
3.4.2 物理计划
3.4.3 MapReduce 计划
3.5 开发和调试助手
3.5.1 DESCRIBE 命令
3.5.2 EXPLAIN 命令
3.5.3 ILLUSTRATE 命令
3.6 Pig 操作符的高级特性
3.6.1 FOREACH 操作符进阶
3.6.2 Pig 的特殊连接
3.7 用户定义函数
3.7.1 运算函数
3.7.2 加载函数
3.7.3 存储函数
3.8 Pig 的性能优化
3.8.1 优化规则
3.8.2 Pig 脚本性能的测量
3.8.3 Pig 的Combiner
3.8.4 Bag 数据类型的内存
3.8.5 Pig 的reducer 数量
3.8.6 Pig 的multiquery 模式
3.9 最佳实践
3.9.1 明确地使用类型
3.9.2 更早更频繁地使用投影
3.9.3 更早更频繁地使用过滤
3.9.4 使用LIMIT 操作符
3.9.5 使用DISTINCT 操作符
3.9.6 减少操作
3.9.7 使用Algebraic UDF
3.9.8 使用Accumulator UDF
3.9.9 剔除数据中的空记录
3.9.10 使用特殊连接
3.9.11 压缩中间结果
3.9.12 合并小文件
3.10 小结
第4章 Hive 进阶
4.1 Hive 架构
4.1.1 Hive 元存储
4.1.2 Hive 编译器
4.1.3 Hive 执行引擎
4.1.4 Hive 的支持组件
4.2 数据类型
4.3 文件格式
4.3.1 压缩文件
4.3.2 ORC 文件
4.3.3 Parquet 文件
4.4 数据模型
4.4.1 动态分区
4.4.2 Hive 表索引
4.5 Hive 查询优化器
4.6 DML 进阶
4.6.1 GROUP BY 操作
4.6.2 ORDER BY 与SORT BY
4.6.3 JOIN 类型
4.6.4 高级聚合
4.6.5 其他高级语句
4.7 UDF、UDAF 和UDTF
4.8 小结
第5章 序列化和Hadoop I/O
5.1 Hadoop 数据序列化
5.1.1 Writable 与WritableComparable
5.1.2 Hadoop 与Java 序列化的区别
5.2 Avro 序列化
5.2.1 Avro 与MapReduce
5.2.2 Avro 与Pig
5.2.3 Avro 与Hive
5.2.4 比较Avro 与Protocol Buffers/Thrift
5.3 文件格式
5.3.1 Sequence 文件格式
5.3.2 MapFile 格式
5.3.3 其他数据结构
5.4 压缩
5.4.1 分片与压缩
5.4.2 压缩范围
5.5 小结
第6章 YARN——其他应用模式进入Hadoop 的引路人
6.1 YARN 的架构
6.1.1 资源管理器
6.1.2 Application Master
6.1.3 节点管理器
6.1.4 YARN 客户端
6.2 开发YARN 的应用程序
6.2.1 实现YARN 客户端
6.2.2 实现AM 实例
6.3 YARN 的监控
6.4 YARN 中的作业调度
6.4.1 容量调度器
6.4.2 公平调度器
6.5 YARN 命令行
6.5.1 用户命令
6.5.2 管理员命令
6.6 小结
第7章 基于YARN 的Storm——Hadoop中的低延时处理
7.1 批处理对比流式处理
7.2 Apache Storm
7.2.1 Apache Storm 的集群架构
7.2.2 Apache Storm 的计算和数据模型
7.2.3 Apache Storm 用例
7.2.4 Apache Storm 的开发
7.2.5 Apache Storm 0.9.1
7.3 基于YARN 的Storm
7.3.1 在YARN 上安装Apache Storm
7.3.2 安装过程
7.4 小结
第8章 云上的Hadoop
8.1 云计算的特点
8.2 云上的Hadoop
8.3 亚马逊Elastic MapReduce
8.4 小结
第9章 HDFS 替代品
9.1 HDFS 的优缺点
9.2 亚马逊AWS S3
9.3 在Hadoop 中实现文件系统
9.4 在Hadoop 中实现S3 原生文件系统
9.5 小结
第10章 HDFS 联合
10.1 旧版HDFS 架构的限制
10.2 HDFS 联合的架构
10.2.1 HDFS 联合的好处
10.2.2 部署联合NameNode
10.3 HDFS 高可用性
10.3.1 从NameNode、检查节点和备份节点
10.3.2 高可用性——共享edits
10.3.3 HDFS 实用工具
10.3.4 三层与四层网络拓扑
10.4 HDFS 块放置策略
10.5 小结
第11章 Hadoop 安全
11.1 安全的核心
11.2 Hadoop 中的认证
11.2.1 Kerberos 认证
11.2.2 Kerberos 的架构和工作流
11.2.3 Kerberos 认证和Hadoop
11.2.4 HTTP 接口的认证
11.3 Hadoop 中的授权
11.3.1 HDFS 的授权
11.3.2 限制HDFS 的使用量
11.3.3 Hadoop 中的服务级授权
11.4 Hadoop 中的数据保密性
11.5 Hadoop 中的日志审计
11.6 小结
第12章 使用Hadoop 进行数据分析
12.1 数据分析工作流
12.2 机器学习
12.3 Apache Mahout
12.4 使用Hadoop 和Mahout 进行文档分析
12.4.1 词频
12.4.2 文频
12.4.3 词频-逆向文频
12.4.4 Pig 中的Tf-idf
12.4.5 余弦相似度距离度量
12.4.6 使用k-means 的聚类
12.4.7 使用Apache Mahout 进行k-means 聚类
12.5 RHadoop
12.6 小结
附录 微软Windows 中的Hadoop
内容摘要
这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。卡伦斯编著的《精通Hadoop》主要内容包括:HadoopMapReduce、Pig和Hive优化策略,YARN审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。
— 没有更多了 —
以下为对购买帮助不大的评价