Hadoop核心技术及其在防灾减灾中的应用9787512151536
正版图书,可开发票,请放心购买。
¥
44.71
6.5折
¥
69
全新
仅1件
作者陈新房编著
出版社清华大学出版社
ISBN9787512151536
出版时间2024-02
装帧平装
开本其他
定价69元
货号15015239
上书时间2025-01-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
陈新房长期从事数据科学与大数据技术专业的教学工作,在教学过程中积累了大量的资料,具有丰富的教学经验,对课程结构、内容能够很好的把握,同时参加过相关培训,对当前高校Hadoop核心技术的教学情况有一定的掌握。在多个学期教授Hadoop核心技术与实战课程中查阅了大量相关资料和官方文档,收看了大量视频讲座,整理成文档形成讲义,这些讲义已经在9个班级使用了6轮,学生操作达到预期结果,效果良好。
目录
目 录 第1章 大数据概述 1 1.1 大数据的产生背景和发展历史 1 1.1.1 大数据产生的背景 2 1.1.2 大数据的发展历程 3 1.2 大数据的特征 4 1.2.1 数据量大 4 1.2.2 数据类型繁多 5 1.2.3 处理速度快 6 1.2.4 价值密度低 6 1.2.5 真实性 6 1.3 大数据的影响 7 1.3.1 大数据对科学研究的影响 7 1.3.2 大数据对思维方式的影响 8 1.3.3 大数据对社会发展的影响 9 1.3.4 大数据对就业市场的影响 10 1.3.5 大数据对人才培养的影响 10 1.4 大数据关键技术 11 1.5 大数据计算模式 13 1.6 大数据的应用 13 1.7 人工智能、大数据、物联网、云计算之间的关系 14 本章小结 15 习题 16 实验1.1 VMware虚拟机中安装CentOS系统 16 第2章 Hadoop概述及生态系统 26 2.1 Hadoop概述 26 2.1.1 Hadoop起源 26 2.1.2 Hadoop的发展简史 27 2.1.3 Hadoop的特性 29 2.1.4 Hadoop的应用现状 29 2.1.5 Hadoop的版本 30 2.2 Hadoop生态系统 31 2.2.1 HDFS 31 2.2.2 HBase 31 2.2.3 MapReduce 32 2.2.4 Hive 32 2.2.5 Pig 32 2.2.6 Mahout 32 2.2.7 ZooKeeper 32 2.2.8 Flume 33 2.2.9 Sqoop 33 2.2.10 Ambari 33 本章小结 33 习题 34 实验2.1 CentOS 7集群环境配置 34 第3章 分布式文件系统HDFS 51 3.1 分布式文件系统介绍 51 3.1.1 什么是DFS 51 3.1.2 DFS集群架构 52 3.1.3 分布式文件系统的结构 52 3.2 HDFS简介 53 3.2.1 HDFS概念 53 3.2.2 HDFS体系结构 53 3.2.3 HDFS命名空间 54 3.2.4 HDFS通信协议 54 3.2.5 HDFS客户端 54 3.2.6 HDFS特点 54 3.2.7 HDFS的局限性 55 3.3 HDFS主要组件 56 3.3.1 数据块 56 3.3.2 名称节点 58 3.3.3 数据节点 58 3.3.4 第二名称节点 58 3.3.5 数据错误与恢复 60 3.4 HDFS的数据读写过程 61 3.4.1 HDFS读数据的过程 61 3.4.2 HDFS写数据的过程 62 本章小结 63 习题 63 实验3.1 接近分布式文件系统搭建 63 实验3.2 HDFS基本访问操作 71 第4章 HDFS 2.0新特性 93 4.1 Hadoop的优化与发展 93 4.1.1 Hadoop 1.0的局限性与不足 93 4.1.2 针对Hadoop的改进与提升 94 4.2 HDFS 2.0的新特性 94 4.2.1 HDFS HA 95 4.2.2 HDFS联邦 96 本章小结 97 习题 98 实验4.1 HDFS HA配置与API访问 98 第5章 分布式计算框架MapReduce 118 5.1 MapReduce概述 118 5.1.1 MapReduce核心思想 119 5.1.2 MapReduce编程模型 120 5.1.3 MapReduce的特点 121 5.1.4 MapReduce的应用场景 121 5.2 MapReduce的工作原理 122 5.2.1 MapReduce的执行过程 122 5.2.2 Map阶段工作原理 123 5.2.3 Shuffle过程详解 123 5.2.4 Reduce阶段工作原理 126 5.3 典型实例:WordCount 126 5.3.1 WordCount的程序任务 126 5.3.2 WordCount的设计思路 126 5.3.3 一个WordCount执行过程实例 127 5.4 资源管理系统YARN 128 5.4.1 YARN设计思想 128 5.4.2 YARN体系结构 129 5.4.3 YARN工作流程 130 5.4.4 YARN的发展目标 131 本章小结 132 习题 132 实验5.1 MapReduce并行编程基础 133 实验5.2 MapReduce应用实例 139 第6章 数据仓库Hive 157 6.1 数据仓库简介 157 6.1.1 什么是数据仓库 157 6.1.2 数据仓库的结构 158 6.2 Hive基础 159 6.2.1 什么是Hive 159 6.2.2 Hive与传统数据库的区别 160 6.2.3 Hive与其他组件的关系 160 6.2.4 Hive的特点 161 6.2.5 Hive系统架构 161 6.3 Hive工作原理 162 6.3.1 Hive的数据类型 162 6.3.2 Hive的数据模型 163 6.3.3 SQL语句转换成MapReduce 165 6.3.4 Hive工作过程 166 本章小结 167 习题 167 实验6.1 数据仓库工具Hive环境搭建 168 实验6.2 数据仓库工具Hive操作 183 第7章 分布式数据库HBase 200 7.1 HBase简介 200 7.1.1 什么是HBase 200 7.1.2 HBase与传统关系型数据库的区别 201 7.1.3 HBase访问接口 202 7.2 HBase数据模型 202 7.2.1 HBase基本结构 203 7.2.2 概念视图 204 7.2.3 物理视图 205 7.2.4 面向列的存储 205 7.2.5 HBase数据模型 206 7.3 HBase 的运行机制 207 7.3.1 HBase系统架构 207 7.3.2 表和Region 209 7.3.3 Region的定位 210 7.3.4 Region服务器的工作原理 211 7.3.5 Store的工作原理 212 7.3.6 HLog的工作原理 212 本章小结 213 习题 213 实验7.1 分布式数据库HBase的安装与操作 214 第8章 数据迁移工具Sqoop 231 8.1 Sqoop简介 231 8.1.1 什么是Sqoop 231 8.1.2 Sqoop特点 232 8.1.3 数据导入的方式 232 8.2 Sqoop工作机制 232 8.2.1 Sqoop基本架构 232 8.2.2 Sqoop import 233 8.2.3 Sqoop export 234 本章小结 235 习题 235 实验8.1 Sqoop的安装与操作 235 第9章 日志采集系统Flume 251 9.1 Flume简介 251 9.1.1 什么是Flume 252 9.1.2 Flume的特点 252 9.2 Flume架构 252 9.2.1 Flume基本架构 252 9.2.2 Flume的主要组件 253 9.2.3 复杂结构 254 9.3 Flume的数据传输 255 9.3.1 Source——Event获取 255 9.3.2 Channel——Event传输 256 9.3.3 Sink——Event发送 257 9.3.4 其他组件 258 本章小结 258 习题 259 实验9.1 日志采集工具Flume 259 第10章 NoSQL数据库 280 10.1 NoSQL数据库简介 280 10.1.1 什么是NoSQL数据库 280 10.1.2 为什么用NoSQL数据库 281 10.1.3 NoSQL与关系型数据库的比较 282 10.2 NoSQL数据库分类 283 10.2.1 键值对存储数据库 283 10.2.2 列式存储数据库 284 10.2.3 文档存储数据库 284 10.2.4 图形存储数据库 285 10.2.5 各类NoSQL数据库的比较 286 10.3 NoSQL理论基石 287 10.3.1 CAP 287 10.3.2 BASE 289 10.3.3 最终一致性 289 本章小结 290 习题 290 实验10.1 MongoDB的安装与操作 291 第11章 数据可视化 299 11.1 数据可视化简介 299 11.1.1 数据可视化的发展 299 11.1.2 什么是数据可视化 302 11.1.3 视觉感知和数据可视化 302 11.1.4 数据可视化的作用 303 11.2 数据可视化工具 303 11.2.1 入门级工具 303 11.2.2 信息图表工具 304 11.2.3 地图工具 305 11.2.4 时间线工具 305 11.2.5 高级分析工具 306 本章小结 307 习题 307 实验11.1 地震数据可视化 307 参考文献 329
内容摘要
本书系统介绍了Hadoop生态系统主要组件的基本概念、特点、主要组成、运行机制及存在的问题等内容。全书共11章,内容包含大数据基本概念、大数据处理平台Hadoop、分布式文件系统HDFS、HDFS2.0新特性、分布式计算框架MapReduce、数据仓库Hive、分布式数据库HBase、数据迁移工具Sqoop、日志采集系统Flume、NoSQL数据库及数据可视化等内容。每一部分都有相应的实验指导,以便读者更好地学习和掌握Hadoop核心技术,进一步提高实践操作能力。
本书可作为高等院校大数据、计算机类、信息管理等专业大数据课程教材,也可作为相关技术人员参考用书。
主编推荐
"本书围绕“理论联系实际”的指导思想,在内容上对 Hadoop 核心技术的阐述与典型实 践操作相辅相成,二者紧密结合、相互作用,形成完整的知识系统,具有连续性、完整性、 一致性。内容编排上引领读者在阅读过程中不断提出问题、分析问题、解决问题,进而达到 循序渐进、抽丝剥茧剖析 Hadoop 生态圈各组件的内在原理、运行机制和相互之间的联系, 达到掌握、理解、应用 Hadoop 核心技术的能力。对提高学习兴趣、提升学习效果、提高学 习质量具有重要的现实作用。"
精彩内容
本书系统介绍了 Hadoop 生态系统主要组件的基本概念、特点、主要组成、运行机制及存在的问题等内 容。全书共 11 章,内容包含大数据基本概念、大数据处理平台 Hadoop、分布式文件系统 HDFS、HDFS 2.0 新特性、分布式计算框架 MapReduce、数据仓库 Hive、分布式数据库 HBase、数据迁移工具 Sqoop、日志采 集系统 Flume、NoSQL 数据库及数据可视化等内容。每一部分都有相应的实验指导,以便读者更好地学习和 掌握 Hadoop 核心技术,进一步提高实践操作能力。 本书可作为高等院校大数据、计算机类、信息管理等专业大数据课程教材,也可作为相关技术人员参考 用书。
— 没有更多了 —
以下为对购买帮助不大的评价