消息首页搜索举报

【假一罚四】Hive性能调优实战林志煌

集团直发，全新正版书籍，假一罚四，放心选购。24小时内发货。

46.7 5.2折 89 全新

库存8件

广东东莞

认证卖家担保交易快速发货售后保障

作者林志煌

出版社机械工业出版社

ISBN9787111644323

出版时间2020-01

装帧平装

开本16开

定价89元

货号28507457

上书时间2024-11-22

朗朗图书书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

【特价库存书】梁启超批注本桃花扇 ¥5.90

【特价库存书】近代“忆语”汇编 ¥21.40

【特价库存书】五種遺規 ¥28.70

【特价库存书】修齐治平中国观 ¥9.00

【特价库存书】诗经选译 ¥7.90

【特价库存书】焦竑传 ¥15.60

【特价库存书】广陵潮 ¥13.40

【特价库存书】三十六计 ¥8.90

【特价库存书】鉴古知今 ¥8.30

商品详情

品相描述：全新

商品描述

前言

Hive作为Hadoop生态的重要组成部分，以其稳定和简单易用成为了当前企业在搭建大数据平台及构建企业级数据仓库时使用较为普遍的大数据组件之一。

目前，图书市场上关于Hive的书籍比较少，而专题介绍Hive性能调优的图书就更少了，几乎是个空白。有些书籍中涉及Hive性能调优，但也只是浅尝辄止。笔者认为，Hive是构建在Hadoop生态之上的，其性能调优其实与自身及其关联的大数据组件都有很密切的联系。鉴于市面上还没有从Hadoop的整体和全局介绍Hive性能调优的书籍，笔者编写了这《Hive性能调优实战》。这本书除了总结和完善自己的知识体系外，还希望能将自己多年的大数据开发经验系统地总结出来，供读者借鉴，从而让他们在学习和工作中少走弯路。

考虑到很多调优方法的着眼点有一定的相似性，这些方法一般可以适用于多个Hive版本，所以本书在讲解时穿插了Hive 1.x、Hive 2.x和Hive 3.x等多个版本的内容。

《Hive性能调优实战》特色

内容非常系统、实用

本书从语法、表模型设计、执行计划和计算引擎等多个角度系统地介绍了Hive性能调优的相关知识。为了避免纸上谈兵，书中在讲解知识点时列举了大量的实例帮助读者理解。

从原理谈优化

本书所介绍的实例都是从原理谈优化，让读者知其然也知其所以然。例如，在介绍HiveSQL调优时，我们会转换成计算引擎执行的等价代码，让读者知道HiveSQL的实际运行流程，从而直观地理解其可能引发的性能问题。

适用于多个Hive版本

本书总结了Hive性能调优的方法论，并总结了Hive性能调优需要关注的技术点。这些方法论和技术点无论是现在还是将来，只要是将Hive构建于Hadoop大数据平台之上，就都可以借鉴和使用。

《Hive性能调优实战》内容

第1章举例感受Hive性能调优的多样性

本章用代码演示了各种优化技巧，从多个完全不同的角度介绍了Hive性能调优的多样性，例如改写SQL、调整数据存储的文件块、改变数据存储格式、设计Hive表等。

第2章 Hive问题排查与调优思路

本章介绍了Hive性能调优的整个过程，并给出了作者对于Hive调优过程中的一些思考，如编码和调优的原则、Hive SQL的相关开发规范等。通过阅读本章内容，读者可以对Hive性能调优的过程和工具有一个整体认识。

第3章环境搭建

本章介绍了多种快速部署大数据开发环境的方式。考虑到不同读者手头的计算机资源有限，加之很多开发者并不喜欢“折腾”基础环境的搭建，书中介绍了一些比较快捷搭建环境的方式，涉及Docker和Cloudera Manager等技术。通过阅读本章内容，读者可以快速构建自己的大数据开发环境。

第4章 Hive及其相关大数据组件

本章比较系统地介绍了Hive及其相关大数据组件的基础知识。因为Hive构建于Hadoop大数据平台之上，其数据存储依赖HDFS，而HiveSQL的执行引擎依赖MapReduce、Spark和Tez等分布式计算引擎，其作业资源调度依赖YARN和Mesos等大数据资源调度管理组件，所以脱离Hadoop生态讲Hive性能调优无异于隔靴搔痒，解决不了根本问题。

第5章深入MapReduce计算引擎

本章详细介绍了MapReduce计算引擎的相关内容。之所以选择MapReduce，首先是因为它足够简单，没有过多对高层接口做封装，而是将所有业务计算都拆分成Map和Reduce进行处理，易于读者理解；其次是因为大多数分布式计算框架处理数据的基本原理和MapReduce大同小异，学习MapReduce对于日后学习Spark和Tez有举一反三的效果。

第6章 Hive SQL执行计划

本章带领读者系统地学习了Hive SQL的相关知识。Hive SQL执行计划描绘了SQL实际执行的整体轮廓。通过执行计划，可以了解SQL程序在转换成相应的计算引擎时的执行逻辑。掌握了执行逻辑，就能更好地了解程序出现的瓶颈，从而便于用户更有针对性地进行优化。

第7章 Hive数据处理模式

本章介绍了Hive的数据处理模式。Hive SQL的语法多种多样，但是从数据处理的角度而言，这些语法本质上可以被分成三种模式，即过滤模式、聚合模式和连接模式。通过这些计算模式，读者可以了解它们的优缺点，从而提升SQL优化水平。

第8章 YARN日志

YARN日志是每个Hive调优人员必然会用到的工具。本章着重介绍了YARN日志，并对其进行解读。如果说执行计划提供了一个定性优化依据，那么YARN日志提供的就是一个定量优化依据。

第9章数据存储

本章着重介绍了Hive数据存储的相关知识。数据存储是Hive操作数据的基础，选择一个合适的底层数据存储文件格式，即使在不改变当前Hive SQL的情况下，其性能也可以得到大幅提升。

第10章发现并优化Hive中的性能问题

本章运用前面章节所介绍的性能问题定位工具，来定位Hive中常见的性能问题。对于Hive的使用者而言，借助Hadoop生态组件中所提供的工具就足以应对日常生产环境中所产生的问题。

第11章 Hive知识体系总结

本章简要梳理了Hive的整个知识体系，帮助读者比较全面地了解一项技术所涉及的方方面面，也有助于读者在学习该技术时形成自己的调优体系。

配书资料获取方式

《Hive性能调优实战》涉及的所有源代码需要读者自行下载。请在华章公司的网站www.hzbook.com上搜索到《Hive性能调优实战》，然后单击“资料下载”按钮，即可在《Hive性能调优实战》页面上找到下载链接。

《Hive性能调优实战》读者对象

? Hive初学者与进阶读者；

? 大数据开发工程师；

? 大数据开发项目经理；

? 专业培训机构的学员；

? 高校相关专业的学生。

……

导语摘要

《Hive性能调优实战》旨在介绍如何进行Hive性能调优，以及调优时所涉及的工具。书中重点介绍了Hive性能调优所涉及的Hadoop组件和Hive工具。考虑到很多调优方法的着眼点有一定的相似性，这些调优方法可以适用于多个Hive版本，所以《Hive性能调优实战》在介绍Hive的相关内容时会穿插Hive 1.x、Hive 2.x及Hive 3.x等多个版本的内容。

《Hive性能调优实战》共11章，涵盖的内容如下：

举例感受Hive性能调优的多样性
Hive问题排查与调优思路
环境搭建
Hive及其相关大数据组件
深入MapReduce计算引擎
Hive SQL执行计划
Hive数据处理模式
YARN日志
数据存储
发现并优化Hive中的性能问题
Hive知识体系总结

《Hive性能调优实战》内容实用，非常适合对大数据技术感兴趣的读者阅读，尤其是Hive进阶读者。另外，《Hive性能调优实战》还适合IT培训机构的大数据培训学员和高校相关专业的学生阅读。

作者简介

林志煌 曾在中国互联网头部公司长期从事大数据相关项目的研发。擅长并能够熟练使用Hive、MapReduce和Spark等大数据相关技术。经手过日数据流量TB级别和总量PB级别的Hadoop大数据平台建设。从事过数据采集、数据清洗、数据仓库模型构建及数据产品研发等工作，涵盖了数据生命周期的主要阶段。

第1章举例感受Hive性能调优的多样性 1

1.1 感受改写SQL对性能的影响 1

1.1.1 数据准备 1

1.1.2 union案例 4

1.1.3 改写SQL实现union的优化 5

1.1.4 失败的union调优 8

1.2 感受调整数据块大小对性能的影响 10

1.2.1 数据准备 11

1.2.2 案例比较 11

1.3 感受不同数据格式对性能的提升 15

1.3.1 数据准备 15

1.3.2 案例比较 16

1.4 感受不同的表设计对性能的影响 18

1.4.1 数据准备 19

1.4.2 案例比较 21

1.5 调优其实不难 24

第2章 Hive问题排查与调优思路 25

2.1 小白推演Hive的优化方法 25

2.1.1 类比关系型数据库的调优 25

2.1.2 学习大数据分布式计算的基本原理 28

2.1.3 学习使用YARN提供的日志 31

2.1.4 干预SQL的运行方式 33

2.2 老工对Hive的调优理解 36

2.2.1 从一个过度优化案例说起 36

2.2.2 编码和调优的原则 43

2.2.3 Hive程序相关规范 49

2.3 总结调优的一般性过程 51

第3章环境搭建 53

3.1 Docker基础 53

3.1.1 Docker介绍 54

3.1.2 安装Docker 56

3.1.3 常见的Docker使用与管理命令 58

3.1.4 使用Dockerfile构建服务镜像 60

3.1.5 Dockerfile语法 63

3.2 Cloudera Docker搭建伪分布式环境 66

3.3 Docker搭建分布式集群 68

3.3.1 构建JDK镜像 69

3.3.2 构建Hadoop镜像 70

3.3.3 构建Hive镜像 72

3.3.4 启动集群 73

3.4 CDM搭建分布式集群 75

3.4.1 Cloudera Manager组件 75

3.4.2 Docker构建软件安装内部源 76

3.4.3 CDM安装分布式集群 79

3.5 使用GitHub开源项目构建集群 87

第4章 Hive及其相关大数据组件 89

4.1 Hive架构 89

4.1.1 Hive 1.x版本基本结构 89

4.1.2 Hive元数据 91

4.2 YARN组件 97

4.2.1 YARN的优点 97

4.2.2 YARN基本组成 97

4.2.3 YARN工作流程 99

4.2.4 YARN资源调度器 100

4.3 HDFS架构 102

4.3.1 常见HDFS优化 102

4.3.2 HDFS基本架构和读写流程 103

4.3.3 HDFS高可用架构 105

4.3.4 NameNode联盟 107

4.4 计算引擎 109

4.4.1 MapReduce计算引擎 109

4.4.2 Tez计算引擎 111

4.4.3 LLAP长时在线与处理程序 113

4.4.4 Spark计算引擎 115

第5章深入MapReduce计算引擎 117

5.1 MapReduce整体处理过程 117

5.2 MapReduce作业输入 118

5.2.1 输入格式类InputFormat 118

5.2.2 InputFormat在Hive中的使用 120

5.3 MapReduce的Mapper 121

5.3.1 Mapper类 121

5.3.2 Hive中与Mapper相关的配置 123

5.4 MapReduce的Reducer 125

5.4.1 Reducer类 126

5.4.2 Hive中与Reducer相关的配置 127

5.5 MapReduce的Shuffle 128

5.6 MapReduce的Map端聚合 129

5.6.1 Combiner类 129

5.6.2 Map端的聚合与Hive配置 130

5.7 MapReduce作业输出 131

5.7.1 OutputFormat作业输出 132

5.7.2 Hive配置与作业输出 133

5.8 MapReduce作业与Hive配置 134

5.9 MapReduce与Tez对比 135

5.9.1 通过案例代码对比MapReduce和Tez 135

5.9.2 Hive中Tez和LLAP相关的配置 141

第6章 HiveSQL执行计划 143

6.1 查看SQL的执行计划 143

6.1.1 查看执行计划的基本信息 144

6.1.2 查看执行计划的扩展信息 148

6.1.3 查看SQL数据输入依赖的信息 148

6.1.4 查看SQL操作涉及的相关权限信息 152

6.1.5 查看SQL的向量化描述信息 152

6.2 简单SQL的执行计划解读 158

6.3 带普通函数/操作符SQL的执行计划解读 161

6.3.1 执行计划解读 161

6.3.2 普通函数和操作符 162

6.4 带聚合函数的SQL执行计划解读 164

6.4.1 在Reduce阶段聚合的SQL 164

6.4.2 在Map和Reduce阶段聚合的SQL 167

6.4.3 高级分组聚合 169

6.5 带窗口/分析函数的SQL执行计划解读 172

6.6 表连接的SQL执行计划解读 175

6.6.1 Hive表连接的类型 175

6.6.2 内连接和外连接 176

6.6.3 左半连接 178

第7章 Hive数据处理模式 181

7.1 过滤模式 181

7.1.1 where子句过滤模式 182

7.1.2 having子句过滤 183

7.1.3 distinct子句过滤 184

7.1.4 表过滤 186

7.1.5 分区过滤 188

7.1.6 分桶过滤 189

7.1.7 索引过滤 191

7.1.8 列过滤 191

7.2 聚合模式 192

7.2.1 distinct模式 193

7.2.2 count(列)、count(*)、count(1)行计数聚合模式 194

7.2.3 可计算中间结果的聚合模式 197

7.2.4 不可计算中间结果的聚合模式 199

7.3 连接模式 200

7.3.1 普通Map连接 201

7.3.2 桶的Map连接和排序合并桶的Map连接 207

7.3.3 倾斜连接 209

7.3.4 表连接与基于成本的优化器 210

第8章 YARN日志 212

8.1 查看YARN日志的方式 212

8.1.1 ResourceManager Web UI界面 212

8.1.2 JobHistory Web UI界面 215

8.2 快速查看集群概况 216

8.2.1 Cluster Metrics集群度量指标 217

8.2.2 Cluster Node Metrics集群节点的度量信息 218

8.2.3 Cluster Overview集群概况 220

8.3 查看集群节点概况 221

8.3.1 节点列表概况 221

8.3.2 节点详细信息 223

8.3.3 节点作业信息 224

8.4 查看集群的队列调度情况 226

8.5 查看集群作业运行信息 230

8.5.1 集群作业运行状态 230

8.5.2 查看作业运行的基本信息 231

8.5.3 查看作业计数器 232

第9章数据存储 236

9.1 文件存储格式之Apache ORC 236

9.1.1 ORC的结构 237

9.1.2 ORC的数据类型 238

9.1.3 ACID事务的支持 240

9.2 与ORC相关的Hive配置 241

9.2.1 表配置属性 241

9.2.2 Hive表的

— 没有更多了 —