剑指大数据 HIVE学习精要
全新正版 极速发货
¥
71.15
6.5折
¥
109
全新
库存8件
作者尚硅谷教育 编
出版社电子工业出版社
ISBN9787121477270
出版时间2024-05
装帧平装
开本16开
定价109元
货号1203261208
上书时间2024-11-14
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
朱一帆,医生,博士,德国海德堡大学博士、香港大学玛丽医院外科博士后,英国牛津大学丘吉尔医院客座医生,"逻辑型临床思维”理论原创者,高级人工智能工程师,中国人工智能学会会员,从事临床医学及生物医学工程交叉学科的研发。
目录
第1章 Hive入门1
1.1 什么是Hadoop1
1.2 什么是Hive4
1.3 Hive的架构4
1.4 学前导读7
1.4.1 学习的基本要求7
1.4.2 环境准备7
1.5 本章总结8
第2章 Hive的安装部署9
2.1 Hive的安装9
2.1.1 Hive初体验9
2.1.2 MySQL的安装和元数据配置12
2.1.3 Hive的服务部署16
2.2 Hive的使用技巧24
2.2.1 常用交互命令24
2.2.2 参数配置方式25
2.2.3 常见属性配置25
2.3 本章总结27
第3章 数据定义语言28
3.1 数据库的定义28
3.2 表的定义30
3.2.1 创建表30
3.2.2 表的其他定义语言34
3.3 本章总结35
第4章 数据操作语言36
4.1 数据加载36
4.2 数据插入37
4.2.1 将查询结果插入表中37
4.2.2 将给定values插入表中37
4.2.3 将查询结果写入目标路径38
4.3 数据的导出和导入38
4.4 本章总结38
第5章 查询39
5.1 数据准备39
5.2 基本查询40
5.2.1 select子句――全表和特定列查询40
5.2.2 列别名42
5.2.3 limit子句42
5.2.4 order by子句43
5.2.5 where子句46
5.2.6 关系运算符47
5.2.7 逻辑运算符49
5.2.8 算术运算符51
5.3 分组聚合52
5.3.1 聚合函数52
5.3.2 group by子句56
5.3.3 having子句59
5.4 join连接62
5.4.1 join连接语法的简介与表别名62
5.4.2 数据准备65
5.4.3 连接分类66
5.4.4 多表连接71
5.4.5 笛卡儿积连接73
5.4.6 join连接与MapReduce程序74
5.4.7 联合(union&union all)75
5.5 本章总结77
第6章 综合案例练习之基础查询78
6.1 环境准备78
6.2 简单查询练习80
6.3 汇总与分组练习84
6.3.1 汇总练习84
6.3.2 分组练习85
6.3.3 对分组结果的条件查询87
6.3.4 查询结果排序和分组指定条件90
6.4 复杂查询练习94
6.5 多表查询练习97
6.5.1 表连接97
6.5.2 多表连接102
6.6 本章总结117
第7章 初级函数118
7.1 函数简介118
7.2 单行函数119
7.2.1 数值函数119
7.2.2 字符串函数121
7.2.3 日期函数126
7.2.4 流程控制函数129
7.2.5 集合函数131
7.2.6 案例演示133
7.3 高级聚合函数140
7.4 本章总结142
第8章 综合案例练习之初级函数143
8.1 环境准备143
8.1.1 用户信息表143
8.1.2 商品信息表144
8.1.3 商品品类信息表145
8.1.4 订单信息表145
8.1.5 订单明细表147
8.1.6 用户登录明细表150
8.1.7 商品价格变更明细表151
8.1.8 配送信息表152
8.1.9 好友关系表153
8.1.10 收藏信息表155
8.2 初级函数练习156
8.2.1 筛选2021年总销量低于100件的商品156
8.2.2 查询每日新增用户数158
8.2.3 用户注册、登录、下单综合统计160
8.2.4 向用户推荐好友收藏的商品163
8.2.5 男性和女性用户每日订单总金额统计166
8.2.6 购买过商品1和商品2但没有购买过商品3的用户统计168
8.2.7 每日商品1和商品2的销量差值统计169
8.2.8 根据商品销售情况进行商品分类170
8.2.9 查询有新增用户的日期的新增用户数和新增用户1日留存率172
8.2.10 登录次数及交易次数统计174
8.2.11 统计每个商品各年度销售总金额177
8.2.12 某周内每个商品的每日销售情况178
8.2.13 形成同期商品售卖分析表180
8.2.14 国庆节期间每个商品的总收藏量和总购买量统计181
8.2.15 国庆节期间各品类商品的7日动销率和滞销率183
8.3 本章总结186
第9章 高级函数187
9.1 表生成函数187
9.1.1 常用UDTF187
9.1.2 案例演示190
9.2 窗口函数192
9.2.1 语法讲解192
9.2.2 常用窗口函数197
9.2.3 案例演示200
9.3 用户自定义函数208
9.3.1 概述208
9.3.2 自定义UDF函数案例209
9.4 本章总结211
第10章 综合案例练习之高级函数212
10.1 高级函数练习题212
10.1.1 查询各品类销售商品的种类数及销量最高的商品212
10.1.2 查询首次下单后第二日连续下单的用户比率215
10.1.3 每件商品销售首年的年份、销售数量和销售总金额218
10.1.4 查询所有用户连续登录2日及以上的日期区间220
10.1.5 订单金额趋势分析223
10.1.6 查询每名用户登录日期的最大空档期225
10.1.7 查询同一时间多地登录的用户227
10.1.8 销售总金额完成任务指标的商品230
10.1.9 各品类中商品价格的中位数232
10.1.10 求商品连续售卖的时间区间234
10.1.11 根据活跃间隔对用户进行分级的结果统计237
10.2 面试真题239
10.2.1 同时在线人数问题239
10.2.2 会话划分问题242
10.2.3 间断连续登录用户问题247
10.2.4 日期交叉问题251
10.3 本章总结255
第11章 分区表和分桶表256
11.1 分区表256
11.1.1 分区表基本语法256
11.1.2 二级分区表258
11.1.3 动态分区259
11.2 分桶表260
11.2.1 分桶表基本语法260
11.2.2 分桶排序表261
11.3 本章总结262
第12章 文件格式和压缩263
12.1 文件格式263
12.1.1 Text Flile263
12.1.2 ORC263
12.1.3 Parquet265
12.2 压缩266
12.2.1 压缩算法概述266
12.2.2 Hive表数据进行压缩267
12.2.3 计算过程中使用压缩267
12.3 本章总结268
第13章 MapReduce引擎下的企业级性能调优269
13.1 测试数据准备269
13.1.1 订单表(2000万条数据)269
13.1.2 支付表(600万条数据)270
13.1.3 商品信息表(100万条数据)271
13.1.4 省(区、市)信息表(34条数据)271
13.2 计算资源配置调优272
13.2.1 YARN资源配置调优272
13.2.2 MapReduce资源配置调优273
13.3 使用Explain命令查看执行计划274
13.3.1 基本语法274
13.3.2 案例实操274
13.3.3 执行计划分析278
13.4 分组聚合281
13.4.1 优化说明281
13.4.2 优化案例282
13.5 Join优化284
13.5.1 Join算法概述284
13.5.2 Map Join287
13.5.3 Bucket Map Join294
13.5.4 Sort Merge Bucket Map Join297
13.6 数据倾斜300
13.6.1 数据倾斜概述300
13.6.2 分组聚合导致的数据倾斜300
13.6.3 join连接导致的数据倾斜303
13.7 任务并行度308
13.7.1 优化说明308
13.7.2 优化案例309
13.8 小文件合并310
13.8.1 优化说明310
13.8.2 优化案例311
13.9 其他性能优化手段312
13.9.1 CBO优化312
13.9.2 谓词下推313
13.9.3 矢量化查询314
13.9.4 Fetch抓取315
13.9.5 本地模式315
13.9.6 并行执行315
13.9.7 严格模式316
13.10 本章总结316
第14章 Hive On Tez的企业级性能调优317
14.1 初识Hive On Tez317
14.1.1 Tez 概述317
14.1.2 Hive On Tez部署318
14.2 计算资源配置322
14.3 执行计划与统计信息323
14.3.1 执行计划323
14.3.2 统计信息326
14.4 任务并行度327
14.4.1 优化说明327
14.4.2 Reducer并行度优化案例329
14.5 分组聚合330
14.6 Join330
14.6.1 Join算法330
14.6.2 Hive On Tez中Join算法的实现334
14.6.3 Hive On Tez中Join算法的选择策略337
14.6.4 优化案例338
14.7 小文件合并341
14.7.1 优化说明341
14.7.2 优化案例342
14.8 数据倾斜343
14.9 本章总结344
第15章 Hive On Spark的企业级性能调优345
15.1 Hive On Spark概述345
15.1.1 什么是Spark345
15.1.2 Spark的基本架构346
15.1.3 Hive On Spark的安装部署347
15.2 Spark资源配置349
15.2.1 Excutor配置说明349
15.2.2 Driver配置说明351
15.2.3 Spark配置实操351
15.3 使用Explain命令查看执行计划352
15.4 分组聚合优化355
15.5 Join优化356
15.6 数据倾斜优化356
15.7 计算引擎总结356
15.8 本章总结358
内容摘要
Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。本书广泛适用于大数据的学习者和从业人员、Hive初学者,以及高等院校大数据相关专业的学生,同时可作为大数据学习的必备书籍。
主编推荐
临床诊疗、可解释、可通用、临床决策支持、人工智能
— 没有更多了 —
以下为对购买帮助不大的评价