正版保障 假一赔十 可开发票
¥ 24.15 4.9折 ¥ 49 全新
库存2件
作者深圳市讯方技术股份有限公司主编
出版社西安电子科技大学出版社
ISBN9787560669212
出版时间2023-08
装帧其他
开本其他
定价49元
货号13446934
上书时间2025-01-07
模块一 大数据基础概述
1.1大数据的概念和价值
1.2大数据的来源
1.3大数据的应用场景
1.4大数据时代的机遇和挑战.
1.5Hadoop及其生态系统简介
1.6大数据行业的人才需求状况
知识巩固
模块二 Hadoop分布式文件系统HDFS
2.1HDFS概述及基本概念.
2.1.1HDFS概述.
2.1.2HDFS的基本概念.
2.2 HDFS的系统架构与适用场景
2.2.1HDFS的系统架构
2.2.2 HDFS的适用场景
2.3HDFS的操作方式
2.3.1 常用Shell命令
2.3.2HDFS的数据写入流程
2.3.3 HDFS的数据读取流程
2.4 HDFS的关键特性.
2.4.1 HDFS的架构设计特性
2.4.2 HDFS的高可用性
2.4.3元数据持久化
2.4.4HDFS的联邦存储机制
2.4.5 HDFS的数据副本机制
2.4.6HDFS的数据存储策略
2.4.7HDFS的数据完整性保障
2.4.8 HDFS的其他关键特性技能实训
实训2.1 基础实训环境准备
实训 2.2 HDFS的安装部署与配置
实训2.3 HDFS的读写API 操作知识巩固.
模块三 分布式计算框架MapReduce 和分布式资源管理器YARN
3.1 MapReduce和 YARN概述
3.1.1 MapReduce概述.
3.1.2 YARN概述.
3.2 MapReduce和YARN 的工作过程与架构
3.2.1 MapReduce的基本工作过程.
3.2.2 Shuffle过程
3.2.3 YARN的组件架构.
3.2.4 MapReduce on YARN任务调度流程
3.2.5 YARN RM的HA方案.
3.3 YARN的资源管理和任务调度.
3.3.1资源管理及分配模型
3.3.2调度器的介绍
3.3.3 Capacity 调度器的特点与管理.
3.3.4 Fair 调度器的特点与管理
3.3.5 Capacity 调度器与Fair 调度器的对比与选型
技能实训
实训3.1 YARN集群的部署.
实训3.2 单词计数(WordCount)程序的编写.
知识巩固
模块四 分布式NoSOL数据库HBase
4.1 HBase概述
4.1.1 HBase简介
4.1.2 HBase与RDB的对比
4.1.3 HBase的应用场景
4.1.4行存储与列存储
4.1.5 Key-Value 存储模型
4.2 HBase 的架构
4.2.1 HBase架构介绍
4.2.2 Master
4.2.3 RegionServer
4.2.4 Region
4.2.5ColumnFamily
4.2.6各个组件之间的逻辑关系
4.3 HBase的关键流程.
4.3.1写流程
4.3.2读流程
技能实训
实训4.1 HBase 的安装与配置
实训4.2 HBase命令行之Shell 操作
实训4.3 HBase的API操作
知识巩固
模块五 分布式数据仓库Hive
5.1 Hive概述
5.1.1数据仓库的概念及特点
5.1.2 Hive的概念与HiveQL简介
5.1.3Hive的应用场景.
5.1.4 Hive与传统数据仓库比较
5.1.5 Hive 的优缺点
5.2 Hive的架构原理
5.2.1 Hive的架构
5.2.2Hive的存储模型与数据模型
5.2.3Hive的存储格式
5.3 Hive的基本操作
5.4 HiveQL的应用
5.4.1数据定义语言(DDL)讲解
5.4.2数据操纵语言(DML)讲解
5.4.3数据查询语言(DQL)讲解
技能实训
实训5.1 Hive的安装与部署
实训5.2数据定义操作的具体实现
实训5.3数据操纵操作的具体实现
实训5.4查询操作的具体实现
知识巩固
模块六 Hadoop 其他大数据生态组件
6.1 数据采集系统Flume.
6.1.1 Flume简介及其架构
6.1.2 Flume的关键特性
6.2 分布式发布订阅消息系统Kafka.
6.2.1Kafka简介.
6.2.2 Kafka的架构与功能
6.2.3 Kafka 的常用命令
技能实训
实训6.1 Flume的安装与部署
实训6.2用Flume采集数据到HDFS
实训6.3 Kafka集群部署.
实训 6.4发布订阅消息系统Kafka的具体实现
知识巩固
模块七 大数据日志分析综合项目案例
7.1项目准备
7.2项目实施
7.3项目总结
知识巩固
附录1搭建虚拟机环境
附录2大数据常用管理脚本
参考文献
模块一大数据基础概述
大数据时代的到来,给社会带来了深刻的变革。常规的软件工具已经无法满足大数据时代的需求,所以必须要有新的处理模式。这些新的处理模式应该具有更强的决策力、洞察发现力和流程优化能力,只有这样才能满足大数据管理和利用多样化的要求。
本模块首先介绍大数据的概念和价值以及大数据的来源,然后介绍大数据的应用场景、大数据时代的机遇和挑战,接着给出 Hadoop及其生态系统简介,最后介绍大数据行业的人才需求状况。
通过本模块的学习,可以培养学生以身作则、爱国如家的爱国情怀。
1.1大数据的概念和价值
1.大数据的概念
现在,人们常常将“大数据”理解为数据量庞大,形式繁杂,利用常规的软件工具难以或无法捕获、管理和处理的数据集。大数据的特点如图1-1所示,即数据量大、产生速度快、数据种类多和价值密度低。
(1)数据量大。数据量大是指大数据中的数据集是大型的,采集、存储和计算的数据量都非常大。
……
本书主要围绕大数据Hadoop平台及其生态组件展开讲解,带领读者认识企业生产中大数据分析处理的整体流程,剖析每个环节中所使用组件的技术原理,并且全书穿插大量的实训任务和案例,可以全面提高读者的动手实操能力。全书共7个模块,模块一为大数据基础概述,讲述大数据的概念、来源、应用场景、大数据时代的机遇和挑战。模块二至模块六以Hadoop生态系统为基础,系统地讲解了HDFS、MapReduce和YARN的原理与相关特性,同时还讲解了HBase分布式NoSQL数据库、Hive分布式数据仓库、Flume海量日志采集框架、Kafka分布式消息订阅系统,每一模块均附有有大量的实训内容,方便读者掌握相关知识。模块七为大数据日志分析综合项目案例,通过案例将前面模块所学的内容融会贯通,手把手实现大数据开发的核心流程。
— 没有更多了 —
以下为对购买帮助不大的评价