基于Hadoop的大数据分析和处理
全新正版 急速发货
¥
23.67
5.3折
¥
45
全新
库存3件
作者魏祖宽 著
出版社电子工业出版社
ISBN9787121317392
出版时间2017-06
装帧平装
开本其他
定价45元
货号1201528491
上书时间2024-11-02
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
魏祖宽,男,电子科技大学教授,博士,韩国科技协会、中国计算机学会、日本电子电器协会会员。承担计算机以及软件学院的本科和研究生的数据库课程教学和实验教学,及云计算和大数据方面的新课。主持数据库应用、GIS应用等方面的应用课题10多项(国家自然基金委,省/市级科技局等科研项目,以及企业横向项目),现专注于云存储方面的应用科研项目。
目录
目 录
章 Hadoop的介绍和集群构建2
1.1 Hadoop介绍2
1.1.1 云计算和Hadoop2
1.1.2 Hadoop的历史4
1.2 Hadoop构建案例6
1.2.1 欧美构建案例6
1.2.2 韩国构建案例7
1.3 构建Hadoop集群8
1.3.1 分布式文件系统8
1.3.2 构建Hadoop集群的准备事项12
1.3.3 构建伪分布式17
1.3.4 分布式集群(Cluster)构建29
1.4 Hadoop界面36
1.4.1 Hadoop分布式文件系统指令界面36
1.5 总结40
第2章 Hadoop分布式处理文件系统41
2.1 Hadoop分布式文件系统的设计42
2.2 概观Hadoop分布式文件系统的整体构造43
2.3 Namenode的角色44
2.3.1 元数据管理44
2.3.2 元数据的安全保管――Edits和Fslmage文件及Secondary Namenode49
2.3.3 Datanode管理52
2.4 Datanode的角色59
2.4.1 block管理59
2.4.2 数据的复制和过程61
2.4.3 Datanode添加63
2.5 总结65
第3章 大数据和MapReduce67
3.1 大数据的概要68
3.1.1 大数据的概念69
3.1.2 大数据的价值创造69
3.2 MapReduce71
3.2.1 MapReduce 示例:词频统计(Word Count)71
3.2.2 MapReduce开源代码:词频统计(Word Count)――Java基础75
3.2.3 MapReduce 开源代码:词频统计(Word Count)――Ruby语言基础76
3.3 MapReduce的结构78
3.3.1 通过案例了解MapReduce结构79
3.3.2 从结构性角度进行的MapReduce最优化方案81
3.4 MapReduce的容错性(Fault Tolerance)85
3.5 MapReduce的编程86
3.5.1 搜索86
3.5.2 排序87
3.5.3 倒排索引87
3.5.4 查找热门词88
3.5.5 合算数字89
3.6 构建Hadoop:通过MapReduce的案例介绍90
3.6.1 单词频率统计MapReduce的编程91
3.6.2 MapReduce―用户界面95
3.7 总结99
第4章 Hadoop版本特征及进化101
4.1 Hadoop 0.1x版本的API103
4.2 Hadoop附加功能(append)107
4.3 Hadoop安全相关功能109
4.4 Hadoop 2.0.0 alpha111
4.4.1 安装Hadoop 2.0.0112
4.4.2 Hadoop分布式文件系统的更改120
4.4.3 跨时代MapReduce框架:YARN128
4.5 总结135
第5章 云计算和Hadoop137
5.1 大规模Hadoop集群的构建和案例138
5.2 云基础设施服务的登场139
5.2.1 Amazon云服务141
5.3 在Amazon EC2中构建Hadoop集群156
5.3.1 Apache Whirr156
5.3.2 构建Hadoop 集群157
5.4 总结160
第6章 Amazon Elastic MapReduce的倍增利用161
6.1 Amazon EMR的活用162
6.1.1 Amazon EMR的概念162
6.1.2 Amazon EMR的构造162
6.1.3 Amazon EMR的特征163
6.1.4 Amazon EMR的 Job Flow和Step164
6.1.5 使用Amazon EMR前需要了解的事项165
6.1.6 Amazon EMR的实战运用170
6.2 总结178
第7章 Hadoop应用下的大数据分析179
7.1 Hadoop应用下的机器学习(Mahout)180
7.1.1 设置及编译181
7.1.2 K-means 聚类算法183
7.1.3 基于矢量相似度的协同过滤188
7.1.4 小结194
7.2 基于Hadoop的统计分析Rhive(R and Hive)195
7.2.1 R的设置及灵活运用195
7.2.2 Hive的设置及灵活运用198
7.2.3 RHive的设置及灵活运用201
7.2.4 小结207
7.3 利用Hadoop的图形数据处理Giraph207
7.4 总结216
第8章 数据中的DBMS,NoSQL217
8.1 NoSQL出现背景:大数据和Web 2.0218
8.1.1 基于Web 2.0的大数据的登场218
8.1.2 基于大数据的NoSQL的登场221
8.1.3 适合大数据和Web 2.0的数据库NoSQL222
8.2 NoSQL的定义和类别特征226
8.3 NoSQL数据模型概要和分类229
8.4 NoSQL数据模型化231
8.4.1 NoSQL数据模型化基本概念232
8.4.2 一般的NoSQL建模方法234
8.5 主要NoSQL的比较和选择239
8.6 总结241
第9章 Hbase:Hadoop中的NoSQL243
9.1 Hadoop生态界中的HBase244
9.2 HBase介绍248
9.3 HBase数据模型250
9.3.1 map250
9.3.2 持续性(persistent)250
9.3.3 分布性(distributed)250
9.3.4 排序性(sorted)250
9.3.5 多维性(multidimensional)251
9.3.6 稀疏性(sparse)254
9.4 HBase的数据库模式255
9.5 HBase构造259
9.6 HBase的构建及运行261
9.7 HBase的扩展――DuoBase中的HBase264
9.8 HBase的用户定义索引266
9.8.1 HBase用户定义索引―HFile格式的扩展267
9.8.2 HBase用户定义索引―Region的扩展267
9.9 总结270
内容摘要
本书基于云计算和大数据,介绍大数据处理和分析的技术,分为两部分。靠前部分介绍Hadoop基础知识,内容包括:Hadoop的介绍和集群构建、Hadoop的分部式系统架构、MapReduce及其应用、Hadoop的版本特征及进化。第二部分以云计算为主题,详细论述利用Hadoop的大数据分析和处理工具,以及NoSQL技术,内容包括:云计算和Hadoop、Amazon服务中的MapReduce应用、Hadoop应用下的大数据分析、NoSQL、HBase。本书不单纯地讲述理论和概念,而是基于目具体的工具和技术(Hadoop和NoSQL),利用大量实际案例,通过实际的操作和应用来组织大数据处理和分析技术,有利于读者从工程应用的角度进行实际掌握和利用。适合相关专业的本科生、研究生和软件工程师学习。
— 没有更多了 —
以下为对购买帮助不大的评价