大数据库
全新正版 极速发货
¥
24.77
5.1折
¥
49
全新
库存3件
作者刘鹏 著
出版社电子工业出版社
ISBN9787121316197
出版时间2017-06
装帧平装
开本其他
定价49元
货号1201528099
上书时间2024-11-15
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
刘鹏,教授,清华大学博士毕业,现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据专家委员会委员。曾率队夺得2002PennySort靠前计算机排序比赛优选(这是我国获得的靠前个大数据比赛世界优选),两次夺得全国高校科技比赛优选奖,并三次夺得清华大学科技比赛优选奖。主持完成科研项目25项,发表论文80余篇,出版专业书籍20种。获部级科技进步二等奖4项,三等奖4项。2002年开创性提出“计算池”模式,被2007年开始流行的“云计算”所证实。2003年开创性提出“反垃圾邮件网格”,被2008年开始流行的“云安全”所证实。获“全军十大学习成才标兵”(排名靠前)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。
张燕,硕士,教授。金陵科技学院副校长,教育部高等学校计算机科学与技术专业教学指导分委员会江苏省专家,江苏省“333高层次人才培养工程”第二批中青年科学技术带头人。长期从事软件工程专业的教学和研究工作,先后主持市厅级以上科研项目14项,发表研究论文20多篇,合著专著1部,主编教材4部。荣获江苏省教学成果二等奖、省高教研究成果二等奖各1项。
目录
目 录
章 大数据库概述1
1.1 传统关系型数据库面临的问题1
1.2 大数据库技术2
1.2.1 列式数据库2
1.2.2 内存数据库2
1.2.3 键值数据库3
1.2.4 流式数据库3
1.3 大数据SQL3
1.4 当前主流大数据SQL简介4
1.4.1 Hive4
1.4.2 Impala5
1.4.3 Shark6
1.4.4 Spark SQL7
1.5 本章总结8
习题9
参考文献9
第2章 分布式数据库HBase10
2.1 HBase基础10
2.1.1 体系架构10
2.1.2 数据模型15
2.2 HBase操作简介17
2.2.1 HBase接口简介17
2.2.2 HBase Shell实战17
2.2.3 HBase API20
2.3 HBase实战21
2.3.1 实战HBase之综例21
2.3.2 实战HBase之使用MapReduce构建索引22
习题26
参考文献27
第3章 数据仓库工具Hive28
3.1 Hive简介28
3.1.1 工作原理28
3.1.2 体系架构29
3.1.3 计算模型30
3.1.4 Hive部署模式31
3.2 Hive的使用32
3.2.1 Hive的数据类型32
3.2.2 Hive接口汇总32
3.3 实战Hive Shell33
3.3.1 DDL操作33
3.3.2 DML操作34
3.3.3 SQL操作34
3.4 实战Hive之复杂语句35
3.5 实战Hive之综合示例37
3.6 实战Hive API接口38
3.6.1 UDF编程示例38
3.6.2 UDAF编程示例39
习题40
参考文献41
第4章 大数据查询系统Impala42
4.1 Impala简介42
4.1.1 Impala的起源42
4.1.2 Impala的特点42
4.1.3 Impala 前辈及竞争对手43
4.2 Impala工作原理43
4.2.1 Impala 设计目标44
4.2.2 Impala 服务器组件44
4.2.3 Impala 编程特点45
4.2.4 Impala在Hadoop生态圈中的生存之道45
4.3 Impala环境搭建46
4.3.1 Impala 安装前的考虑47
4.3.2 Impala 安装途径与安装示范50
4.4 Impala操作实例61
4.4.1 Impala 基本操作62
4.4.2 Impala 数据库操作62
习题66
参考文献66
第5章 内存数据库Spark67
5.1 Spark简介67
5.1.1 Spark的引入67
5.1.2 Spark生态系统BDAS69
5.1.3 Spark系统架构75
5.1.4 Spark工作流程77
5.1.5 Spark应用案例78
5.2 Spark计算模型80
5.2.1 Spark程序模型81
5.2.2 弹性分布式数据集(RDD)81
5.2.3 Spark算子84
5.3 Spark工作机制85
5.3.1 Spark运行机制85
5.3.2 Spark调度机制87
5.3.3 Spark I/O机制93
5.3.4 Spark通信机制94
5.3.5 Spark容错机制97
5.3.6 Spark Shuffle机制101
5.4 Scala快速入门102
5.4.1 Scala解释器103
5.4.2 变量103
5.4.3 函数104
5.4.4 编写Scala脚本105
5.4.5 while 配合if实现循环105
5.4.6 foreach和 for 来实现迭代105
5.4.7 类型参数化数组106
5.4.8 Lists107
5.4.9 使用元组(Tuples)108
5.4.10 Sets和Maps108
5.4.11 函数编程风格109
5.4.12 读取文件110
5.5 Spark环境部署110
5.5.1 安装与配置Spark110
5.5.2 Intellij IDEA构建Spark开发环境118
5.5.3 SBT构建Spark程序121
5.5.4 编译Spark程序122
5.5.5 远程调试Spark程序123
5.5.6 生成Spark部署包124
5.6 Spark 编程案例124
5.6.1 WordCount125
5.6.2 Top K127
5.6.3 倒排索引128
习题130
参考文献131
第6章 Spark SQL132
6.1 Spark SQL简介132
6.1.1 Spark SQL发展历程132
6.1.2 Spark SQL 架构133
6.2 Spark SQL编程基础137
6.2.1 数据类型及表达式137
6.2.2 Spark SQL查询引擎Catalyst138
6.2.3 SQL DSL API142
6.2.4 Spark SQL ThriftServer和CLI144
6.2.5 Spark SQL常用操作146
6.3 Spark SQL实战151
6.3.1 Spark SQL开发环境搭建151
6.3.2 Spark SQL使用入门166
习题173
参考文献173
第7章 键值数据库174
7.1 概述174
7.1.1 键值存储174
7.1.2 键值数据库176
7.2 Redis178
7.2.1 简介178
7.2.2 Redis数据服务及集群技术180
7.2.3 Redis安装186
7.2.4 Redis数据操作187
7.2.5 案例:网站访问历史记录查询193
7.3 Memcached198
7.3.1 简介198
7.3.2 Memcached缓存技术198
7.3.3 Memcached安装200
7.3.4 Memcached数据操作203
7.3.5 Memcached分布式技术206
7.3.6 案例:论坛帖子信息缓存207
7.4 典型应用及局限208
7.4.1 典型应用209
7.4.2 键值数据库局限211
习题211
参考文献212
第8章 流式数据库213
8.1 流式计算模型213
8.1.1 流式计算概念213
8.1.2 流式计算数据特点215
8.1.3 流式计算典型应用216
8.1.4 典型流式计算平台216
8.2 流式计算关键技术218
8.2.1 计算拓扑218
8.2.2 消息传递220
8.2.3 高可用性222
8.2.4 语义保障224
8.2.5 其他关键技术225
8.3 Storm平台225
8.3.1 Storm简介225
8.3.2 Storm原理227
8.3.3 Storm部署237
8.3.4 案例:Maven环境下的Storm编程242
8.4 Spark Streaming平台246
8.4.1 Spark Streaming简介247
8.4.2 Spark Streaming原理248
8.4.3 案例:集群环境下的Spark Streaming编程249
习题261
参考文献262
第9章 数据应用托管平台Docker263
9.1 Docker技术简介263
9.1.1 Docker是什么263
9.1.2 Docker的架构和流程265
9.2 Docker的优势和局限266
9.2.1 Docker的优势266
9.2.2 Docker的局限性268
9.3 基于Docker的大数据系统设计270
9.3.1 分布式Docker网络环境的搭建270
9.3.2 Docker集群管理系统:Kubernetes271
习题277
参考文献278
内容摘要
本书详细介绍大数据环境下的常用的数据库和相关工具,包括HBase、Hive、Impala、Spark、Spark SQL、键值数据库和流式数据库等,给出了详细的工作机理和应用方法,并给出完整的实践案例和代码。
— 没有更多了 —
以下为对购买帮助不大的评价