消息首页搜索举报

【正版新书】Hive实战

正版图书，可开发票。

39.6 5.7折 69 全新

库存30件

河北保定

认证卖家担保交易快速发货售后保障

作者斯科特·肖,安德烈亚斯·弗朗索瓦·弗穆

出版社人民邮电出版社

ISBN9787115493910

出版时间2018-11

装帧平装

开本16开

定价69元

货号E9787115493910

上书时间2024-07-16

三言正版图书

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

【正版新书】施工企业会计第三版 ¥17.60

【正版新书】中学生不可不知的成语故事 ¥13.50

【正版新书】智慧阅读财务报表 ¥19.70

【正版新书】2019四大直辖市投资蓝皮书 ¥35.60

【正版新书】“狂风”和“雄鹰” ¥29.20

【正版新书】物业管理向现代服务业转型升级 ¥41.70

【正版新书】施工企业会计 ¥20.10

【正版新书】试飞顶级战机 ¥29.20

商品详情

品相描述：全新

商品描述: 作者简介
斯科特·肖（Scott Shaw）
Hortonworks公司解决方案工程师，曾为微软公司的商业智能项目担任顾问，拥有近20年的数据管理经验。作为演讲者和培训师，他致力于普及分布式计算、大数据概念、商业智能、Hive和Hadoop。

安德烈亚斯·弗朗索瓦·弗穆尔恩（Andreas Fran?ois Vermeulen）
集数据科学家、数据仓库架构师、博士研究员、企业顾问等角色于一身，曾获“英国数据科学技术先锋”称号，广泛涉足数据工程、商业智能、云架构、深度学习等多个领域。

安库尔·古普塔（Ankur Gupta）
Hortonworks公司解决方案工程师，曾在Oracle公司担任顾问，有多年从事数据架构师和Oracle数据库管理员的经验，著有Oracle GoldenGate 11g Complete Cookbook。

戴维·杰鲁姆加德（David Kjerrumgaard）
Streamlio公司解决方案架构主管，曾是Hortonworks公司的系统架构师和数据流实践主管，拥有Certified Developer for Apache Hadoop认证，精通Hive、Kafka、Spark、Storm等技术。

目录
章为Hive打好基础：Hadoop1

1.1一只小象出生了2

1.2Hadoop的结构3

1.3数据冗余6

1.3.1传统的高可用性6

1.3.2Hadoop的高可用性9

1.4MapReduce处理12

1.4.1超越MapReduce16

1.4.2YARN和现代数据架构17

1.4.3Hadoop 和开源社区19

1.4.4我们身在何处22

第2 章 Hive 简介24

2.1Hadoop 发行版25

2.2集群架构27

2.3Hive 的安装30

2.4探寻你的方式32

2.5Hive CLI35

第3章 Hive架构37

3.1Hive组件37

3.2HCatalog38

3.3HiveServer240

3.4客户端工具42

3.5执行引擎：Tez46

第4章 Hive表DDL48

4.1schema-on-read48

4.2Hive数据模型49

4.2.1模式/数据库49

4.2.2为什么使用多个模式/数据库49

4.2.3创建数据库49

4.2.4更改数据库50

4.2.5删除数据库50

4.2.6列出数据库51

4.3Hive中的数据类型51

4.3.1基本数据类型51

4.3.2选择数据类型51

4.3.3复杂数据类型52

4.4表53

4.4.1创建表53

4.4.2列出表54

4.4.3内部表/外部表54

4.4.4内部表/受控表55

4.4.5内部表/外部表示例55

4.4.6表的属性59

4.4.7生成已有表的CREATE TABLE命令60

4.4.8分区和分桶61

4.4.9分区注意事项63

4.4.10对日期列进行高效分区63

4.4.11分桶的注意事项65

4.4.12更改表66

4.4.13ORC文件格式67

4.4.14更改表分区68

4.4.15修改列72

4.4.16删除表/分区72

4.4.17保护表/分区73

4.4.18其他CREATE TABLE命令选项73

第5章数据操作语言75

5.1将数据装载到表中75

5.1.1使用存储在HDFS中的文件装载数据75

5.1.2使用查询装载数据77

5.1.3将查询到的数据写入文件系统80

5.1.4直接向表插入值81

5.1.5直接更新表中数据83

5.1.6在表中直接删除数据84

5.1.7创建结构相同的表85

5.2连接86

5.2.1使用等值连接来整合表86

5.2.2使用外连接87

5.2.3使用左半连接89

5.2.4用单次MapReduce实现连接90

5.2.5最后使用优选的表91

5.2.6事务处理92

5.2.7ACID是什么，以及为什么要用到它92

5.2.8Hive配置92

第6章将数据装载到Hive94

6.1装载数据之前的设计注意事项94

6.2将数据装载到HDFS95

6.2.1Ambari 文件视图95

6.2.2Hadoop命令行97

6.2.3HDFS的NFS Gateway97

6.2.4Sqoop98

6.2.5Apache NiFi101

6.3用Hive 访问数据105

6.3.1外部表105

6.3.2LOAD DATA语句106

6.4在Hive中装载增量变更数据107

6.5Hive流处理107

6.6小结108

第7章查询半结构化数据109

7.1点击流数据111

7.1.1摄取数据113

7.1.2创建模式116

7.1.3装载数据116

7.1.4查询数据116

7.2摄取JSON数据119

7.2.1使用UDF查询JSON121

7.2.2使用SerDe访问JSON122

第8章Hive分析125

8.1构建分析模型125

8.1.1使用太阳模型获取需求125

8.1.2将太阳模型转换为星型模式129

8.1.3构建数据仓库137

8.2评估分析模型 .140

8.2.1评估太阳模型140

8.2.2评估聚合结果142

8.2.3评估数据集市143

8.3掌握数据仓库管理144

8.3.1必备条件144

8.3.2检索数据库144

8.3.3评估数据库147

8.3.4过程数据库160

8.3.5转换数据库185

8.3.6你掌握了什么192

8.3.7组织数据库192

8.3.8报表数据库196

8.3.9示例报表197

8.4不错分析199

8.5接下来学什么199

第9章Hive性能调优200

9.1Hive性能检查表200

9.2执行引擎201

9.2.1MapReduce201

9.2.2Tez201

9.3存储格式203

9.3.1ORC格式203

9.3.2Parquet格式205

9.4矢量化查询执行206

9.5查询执行计划206

9.5.1基于代价的优化208

9.5.2执行计划210

9.5.3性能检查表小结212

0章 Hive的安全性213

10.1数据安全性的几个方面213

10.1.1身份认证214

10.1.2授权214

10.1.3管理214

10.1.4审计214

10.1.5数据保护214

10.2Hadoop的安全性215

10.3Hive的安全性215

10.3.1默认授权模式215

10.3.2基于存储的授权模式216

10.3.3基于SQL标准的授权模式217

10.3.4管理通过SQL进行的访问218

10.4使用Ranger进行Hive授权219

10.4.1访问Ranger用户界面220

10.4.2创建Ranger策略220

10.4.3使用Ranger审计222

1章 Hive的未来224

11.1LLAP224

11.2Hive-on-Spark225

11.3Hive：ACID和MERGE225

11.4可调隔离等级225

11.5ROLAP/基于立方体的分析226

11.6HiveServer2的发展226

11.7面向不同工作负载的多个HiveServer2实例226

附录A建立大数据团队227

附录BHive函数231

内容摘要
Hive“出身名门”，是很初由Facebook公司开发的数据仓库工具。它简单且容易上手，是深入学习Hadoop技术的一个很好的切入点。本书由数据库专家和大数据专家共同撰写，具体内容包括：Hive的安装和配置，其核心组件和架构，Hive数据操作语言，如何加载、查询和分析数据，Hive的性能调优以及安全性，等等。本书旨在为读者打牢基础，从而踏上专业的大数据处理之旅。

主编推荐
面对与日俱增的海量数据，能否从中提取商业价值直接关乎公司的市场竞争力。Hive是大数据生态圈必不可少的数据仓库，它为存储在Hadoop文件系统中的数据提供便捷的类SQL查询、统计和分析，从而为公司进入大数据生态圈并迈向商业智能铺平道路。

本书着眼于Hive在真实环境中的应用，内容囊括Hive的方方面面，是针对大数据分析人员的实践参考指南。

- 理解Hive的架构和数据类型
- 高效执行DML操作
- 查询半结构化数据
- 巧妙提升Hive的性能
- 了解Hive的安全性及发展趋势

— 没有更多了 —