大数据库/高级大数据人才培养丛书
正版图书带塑封 当天发货 9969488222998495234
¥
5.2
1.1折
¥
49
九五品
仅1件
作者刘鹏
出版社电子工业出版社
出版时间2017-06
版次1
装帧其他
货号9969488222998495234
上书时间2024-12-27
商品详情
- 品相描述:九五品
图书标准信息
-
作者
刘鹏
-
出版社
电子工业出版社
-
出版时间
2017-06
-
版次
1
-
ISBN
9787121316197
-
定价
49.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
页数
278页
-
字数
427千字
- 【内容简介】
-
本书详细介绍大数据环境下的常用的数据库和相关工具,包括HBase、Hive、Impala、Spark、Spark SQL、键值数据库和流式数据库等,给出了详细的工作机理和应用方法,并给出完整的实践案例和代码。
- 【作者简介】
-
刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。
主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛最高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站
- 【目录】
-
目 录
第1章 大数据库概述1
1.1 传统关系型数据库面临的问题1
1.2 大数据库技术2
1.2.1 列式数据库2
1.2.2 内存数据库2
1.2.3 键值数据库3
1.2.4 流式数据库3
1.3 大数据SQL3
1.4 当前主流大数据SQL简介4
1.4.1 Hive4
1.4.2 Impala5
1.4.3 Shark6
1.4.4 Spark SQL7
1.5 本章总结8
习题9
参考文献9
第2章 分布式数据库HBase10
2.1 HBase基础10
2.1.1 体系架构10
2.1.2 数据模型15
2.2 HBase操作简介17
2.2.1 HBase接口简介17
2.2.2 HBase Shell实战17
2.2.3 HBase API20
2.3 HBase实战21
2.3.1 实战HBase之综例21
2.3.2 实战HBase之使用MapReduce构建索引22
习题26
参考文献27
第3章 数据仓库工具Hive28
3.1 Hive简介28
3.1.1 工作原理28
3.1.2 体系架构29
3.1.3 计算模型30
3.1.4 Hive部署模式31
3.2 Hive的使用32
3.2.1 Hive的数据类型32
3.2.2 Hive接口汇总32
3.3 实战Hive Shell33
3.3.1 DDL操作33
3.3.2 DML操作34
3.3.3 SQL操作34
3.4 实战Hive之复杂语句35
3.5 实战Hive之综合示例37
3.6 实战Hive API接口38
3.6.1 UDF编程示例38
3.6.2 UDAF编程示例39
习题40
参考文献41
第4章 大数据查询系统Impala42
4.1 Impala简介42
4.1.1 Impala的起源42
4.1.2 Impala的特点42
4.1.3 Impala 前辈及竞争对手43
4.2 Impala工作原理43
4.2.1 Impala 设计目标44
4.2.2 Impala 服务器组件44
4.2.3 Impala 编程特点45
4.2.4 Impala在Hadoop生态圈中的生存之道45
4.3 Impala环境搭建46
4.3.1 Impala 安装前的考虑47
4.3.2 Impala 安装途径与安装示范50
4.4 Impala操作实例61
4.4.1 Impala 基本操作62
4.4.2 Impala 数据库操作62
习题66
参考文献66
第5章 内存数据库Spark67
5.1 Spark简介67
5.1.1 Spark的引入67
5.1.2 Spark生态系统BDAS69
5.1.3 Spark系统架构75
5.1.4 Spark工作流程77
5.1.5 Spark应用案例78
5.2 Spark计算模型80
5.2.1 Spark程序模型81
5.2.2 弹性分布式数据集(RDD)81
5.2.3 Spark算子84
5.3 Spark工作机制85
5.3.1 Spark运行机制85
5.3.2 Spark调度机制87
5.3.3 Spark I/O机制93
5.3.4 Spark通信机制94
5.3.5 Spark容错机制97
5.3.6 Spark Shuffle机制101
5.4 Scala快速入门102
5.4.1 Scala解释器103
5.4.2 变量103
5.4.3 函数104
5.4.4 编写Scala脚本105
5.4.5 while 配合if实现循环105
5.4.6 foreach和 for 来实现迭代105
5.4.7 类型参数化数组106
5.4.8 Lists107
5.4.9 使用元组(Tuples)108
5.4.10 Sets和Maps108
5.4.11 函数编程风格109
5.4.12 读取文件110
5.5 Spark环境部署110
5.5.1 安装与配置Spark110
5.5.2 Intellij IDEA构建Spark开发环境118
5.5.3 SBT构建Spark程序121
5.5.4 编译Spark程序122
5.5.5 远程调试Spark程序123
5.5.6 生成Spark部署包124
5.6 Spark 编程案例124
5.6.1 WordCount125
5.6.2 Top K127
5.6.3 倒排索引128
习题130
参考文献131
第6章 Spark SQL132
6.1 Spark SQL简介132
6.1.1 Spark SQL发展历程132
6.1.2 Spark SQL 架构133
6.2 Spark SQL编程基础137
6.2.1 数据类型及表达式137
6.2.2 Spark SQL查询引擎Catalyst138
6.2.3 SQL DSL API142
6.2.4 Spark SQL ThriftServer和CLI144
6.2.5 Spark SQL常用操作146
6.3 Spark SQL实战151
6.3.1 Spark SQL开发环境搭建151
6.3.2 Spark SQL使用入门166
习题173
参考文献173
第7章 键值数据库174
7.1 概述174
7.1.1 键值存储174
7.1.2 键值数据库176
7.2 Redis178
7.2.1 简介178
7.2.2 Redis数据服务及集群技术180
7.2.3 Redis安装186
7.2.4 Redis数据操作187
7.2.5 案例:网站访问历史记录查询193
7.3 Memcached198
7.3.1 简介198
7.3.2 Memcached缓存技术198
7.3.3 Memcached安装200
7.3.4 Memcached数据操作203
7.3.5 Memcached分布式技术206
7.3.6 案例:论坛帖子信息缓存207
7.4 典型应用及局限208
7.4.1 典型应用209
7.4.2 键值数据库局限211
习题211
参考文献212
第8章 流式数据库213
8.1 流式计算模型213
8.1.1 流式计算概念213
8.1.2 流式计算数据特点215
8.1.3 流式计算典型应用216
8.1.4 典型流式计算平台216
8.2 流式计算关键技术218
8.2.1 计算拓扑218
8.2.2 消息传递220
8.2.3 高可用性222
8.2.4 语义保障224
8.2.5 其他关键技术225
8.3 Storm平台225
8.3.1 Storm简介225
8.3.2 Storm原理227
8.3.3 Storm部署237
8.3.4 案例:Maven环境下的Storm编程242
8.4 Spark Streaming平台246
8.4.1 Spark Streaming简介247
8.4.2 Spark Streaming原理248
8.4.3 案例:集群环境下的Spark Streaming编程249
习题261
参考文献262
第9章 数据应用托管平台Docker263
9.1 Docker技术简介263
9.1.1 Docker是什么263
9.1.2 Docker的架构和流程265
9.2 Docker的优势和局限266
9.2.1 Docker的优势266
9.2.2 Docker的局限性268
9.3 基于Docker的大数据系统设计270
9.3.1 分布式Docker网络环境的搭建270
9.3.2 Docker集群管理系统:Kubernetes271
习题277
参考文献278
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价