大数据离线分析
¥
14.84
4.2折
¥
35
九五品
仅1件
作者傅德谦 主编
出版社清华大学出版社
ISBN9787302483298
出版时间2017-08
版次1
装帧平装
开本16开
纸张胶版纸
页数169页
字数99999千字
定价35元
上书时间2024-07-11
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:大数据离线分析
定价:35.00元
作者:傅德谦 主编
出版社:清华大学出版社
出版日期:2017-08-01
ISBN:9787302483298
字数:273000
页码:169
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐
内容提要
本书基于开源Hadoop大数据生态圈的主流离线分析工具Hive和Pig,通过技术讲解和案例实战相结合的方式,介绍了海量数据离线分析的技术方法。本书内容主要包括Hive数据库表、基于HiveQL的常规操作、视图、索引和Pig等数据处理分析和基础工具知识,Hive函数、Pig Latin编程、ETL工具Sqoop和工作流引擎Oozie等相关不错技术,以及实际项目案例。本书既可供学习大数据离线分析技术的本科和高职高专学生作为教材,也可供从事数据分析相关工作的技术人员作为参考资料。
目录
绪论001章走进Hive0031.1Hive简介0031.1.1Hive发展史0031.1.2体系结构0041.2Hive的安装部署0051.2.1安装配置Hive0051.2.2启动Hive0081.3Hive命令0091.3.1Hive命令行选项0091.3.2CLI命令行界面0101.3.3Hive中CLI命令的快速编辑0111.3.4Hive中的脚本0111.3.5dfs命令的执行0131.4数据类型和文件格式0141.4.1基本数据类型0141.4.2集合数据类型0151.4.3文本文件数据编码016本章小结018习题018第2章HiveQL数据定义0202.1数据库的创建与查询0202.2数据库的修改与删除0212.3创建表0222.3.1管理表0232.3.2外部表0232.3.3查看表结构0242.4修改表0252.5删除表0262.6分区表0272.6.1外部分区表0282.6.2自定义表的存储格式0302.6.3增加、修改和删除分区表0312.7桶表031本章小结032习题033第3章HiveQL数据操作0343.1数据加载与导出0343.1.1数据加载0343.1.2数据导出0363.2数据查询0373.2.1SELECT ... FROM语句0373.2.2WHERE语句0403.2.3GROUP BY语句与HAVING语句0423.2.4JOIN语句0433.2.5ORDER BY语句和SORT BY语句0463.2.6CLUSTER BY语句0473.2.7UNION ALL语句0483.3抽样查询0483.3.1数据块抽样0493.3.2分桶表的输入裁剪049本章小结051习题051第4章HiveQL视图和索引0524.1视图0524.1.1创建视图0524.1.2显示视图0534.1.3删除视图0544.2索引0544.2.1创建索引0554.2.2重建索引0554.2.3显示索引0564.2.4删除索引056本章小结057习题057第5章Hive的函数0585.1函数简介0585.1.1发现和描述函数0585.1.2调用函数0595.1.3标准函数0595.1.4聚合函数0615.1.5表生成函数0675.2用户自定义函数UDF0685.3用户自定义聚合函数UDAF0725.4用户自定义表生成函数UDTF0745.5UDF的标注0755.5.1定数性标注(deterministic)0765.5.2状态性标注(stateful)0765.5.3...性标注(distinctLike)076本章小结076习题077第6章认识Pig0786.1初识Pig0786.1.1Pig是什么0786.1.2Pig的应用场景0786.1.3Pig的设计思想0796.1.4Pig的发展简史0806.2安装、运行Pig0806.2.1安装Pig0806.2.2运行Pig081本章小结082习题082第7章Pig基础0847.1命令行工具Grunt0847.1.1输入Pig Latin脚本0847.1.2使用HDFS命令0857.1.3控制Pig0877.2Pig数据类型0887.2.1基本类型0887.2.2复杂类型0897.2.3NULL值0897.2.4类型转换090本章小结092习题092第8章Pig Latin编程0938.1Pig Latin介绍0938.1.1基础知识0938.1.2输入和输出0948.2关系操作0958.2.1foreach语句0968.2.2filter语句0968.2.3group语句0978.2.4order语句0978.2.5distinct语句0988.2.6join语句0988.2.7limit语句0988.2.8sample语句0998.2.9parallel语句0998.3用户自定义函数UDF1018.3.1注册UDF1028.3.2define命令和UDF1038.3.3调用Java函数1048.4开发工具1048.4.1describe1048.4.2explain1058.4.3illustrate1078.4.4Pig统计信息1098.4.5M/R作业状态信息1118.4.6调试技巧112本章小结113习题113第9章数据ETL工具Sqoop1159.1安装Sqoop1159.2数据导入1179.2.1导入实例1189.2.2导入数据的使用1199.2.3数据导入代码生成1209.3数据导出1219.3.1导出实例1219.3.2导出和SequenceFile123本章小结123习题1240章Hadoop工作流引擎Oozie12510.1Oozie是什么12510.2Oozie的安装12510.3Oozie的编写与运行13110.3.1Workflow组件13110.3.2Coordinator组件13310.3.3Bundle组件13410.3.4作业的部署与执行13410.3.5向作业传递参数13610.4Oozie控制台13610.4.1控制台界面13610.4.2获取作业信息13710.5Oozie的高级特910.5.1自定义Oozie Workflow13910.5.2使用Oozie JavaAPI141本章小结143习题1431章离线计算实例14511.1微博历史数据分析14511.1.1数据结构14511.1.2需求分析14611.1.3需求实现14611.2电商销售数据分析16011.2.1数据结构16011.2.2需求分析16111.2.3需求实现161本章小结169参考文献
作者介绍
序言
— 没有更多了 —
以下为对购买帮助不大的评价