• Hadoop+HBase技术项目教程
21年品牌 40万+商家 超1.5亿件商品

Hadoop+HBase技术项目教程

全新正版 急速发货

40.1 6.8折 59 全新

库存5件

天津武清
认证卖家担保交易快速发货售后保障

作者张立辉 李明革

出版社机械工业出版社

ISBN9787111705239

出版时间2022-06

装帧平装

开本16开

定价59元

货号29422599

上书时间2024-11-23

当科图书专营店

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言
前言 
古人云“才德全尽谓之圣人,才德兼亡谓之愚人,德胜才谓之君子,才胜德谓之小
人”。在新兴的大数据时代,不仅要培养技术人员数据存储和处理的技术要点,更要培养技术人员的数据安全意识。数据安全与隐私保护、数据存储、使用与风险防范等问题已成为研究的焦点。对于每个从事大数据行业相关人员来说,不仅要解决大数据应用过程中的技术难题,更要在技术开发过程中加强信息安全意识、防止安全漏洞,争做技术强人、安全标兵。
为适应大数据、云计算、人工智能等新兴技术的发展,以及企业数字化管理转型的人才需求,编者遵循技术技能人才的成长规律和“立德树人”的育人理念,在充分调研院校
教学需求的基础上,结合企业工程师提供的丰富实践经验编写了本书。本书通过“项目实现”与“拓展项目”等内容,实现知识传授与价值引领有机结合,重在培养大数据时代德才兼备的人才。本书以Hadoop 为核心,以应用项目实例为载体,阐述了大数据处理平台的应用开发技术。
本书共由9 个项目组成。
项目1 主要讲解Hadoop 的安装。通过本项目的学习,读者可以对大数据有初步认识,了解Hadoop 的起源、特点和生态圈,掌握虚拟机的安装、JDK 安装和配置、
Hadoop 的安装等技能。
项目 2 主要讲解Hadoop 集群部署。通过本项目的学习,读者可以学习到Linux 环境设置、Hadoop 配置文件,并对YARN 的基本服务组件和执行过程有初步认识,掌握集群网络配置、配置文件的设置和集群部署等技能。
项目 3 主要讲解用HDFS 实现电影信息管理。通过本项目的学习,读者可以对HDFS 的设计原则和核心概念等有初步认识,学习到HDFS 常用的Shell 命令和工作机制。
项目 4 主要讲解用MapReduce 统计网站最大访问次数。通过对本项目的实现,读者
可以对MapReduce 的执行过程有充分的认知,能够学习到IDEA 的安装及配置、MapReduce 的输入/输出类和典型案例,掌握MapReduce 程序及其实现思路。
项目 5 主要使用MapReduce 程序实现课程名称和成绩的二次排序。通过本项目的学
习,读者能够对MapReduce 编程有更深入的理解,掌握MapReduce 的合并编程、分区编程、连接、排序等高级开发操作。
项目 6 主要使用Hive 实现购物用户数据清洗。通过本项目的学习,读者可以掌握Hive 的体系结构和设计特征、Hive 的安装和基本操作,掌握数据导入、分析和导出等操作。
项目 7 是使用HBase 实现学生成绩管理。通过本项目的学习,读者可以了解HBase的体系结构和读写流程,掌握HBase 的安装、shell 命令操作和API 操作等实践技能。
项目8 主要讲解Sqoop 导入导出。通过本项目的学习,读者可以了解Sqoop 概述,学习到Sqoop 的工作原理、安装和基本命令,掌握从RDBMS 导入到HDFS、将MySQL 数据库中的表数据导入到Hive 和HBase 等实践操作技能。
项目9 主要介绍了一个大数据项目案例。通过本项目的学习,加深读者对HDFS 分布式文件系统和MapReduce 分布式并行计算框架的理解,熟练掌握和应用,并且体验大数据企业实战项目的开发过程,积累实际项目开发的经验。
本书适用性和可操作性强,针对大数据运维等相关岗位所需技能,结合大数据职业技能大赛的主要知识与技能点,由大数据技术专业一线教师与企业工程师一起设定了本书的
9 个项目及相应的案例。本书适合作为职业类院校计算机、大数据等相关专业的教材,也适用于计算机培训班教学,以及有构建大数据知识体系需求的读者学习。
读者在学习过程中,如果不能完全理解书中所讲的知识点,可以通过微视频进行辅助
学习。如果读者在理解知识点的过程中遇到困难,建议不要纠结于某个内容,可以先往后学习。通常来讲,随着对后面知识的不断深入了解,前面看不懂的知识点一般就能理解了。如果读者在动手练习的过程中遇到问题,建议多思考,厘清思路,认真分析问题发生的原因,并在解决问题后多总结。
本书由张立辉、李明革主编,其中项目1、项目2、项目3、项目8 由张立辉编写,项
目4、项目5 由郭明珠编写,项目6、项目7 由刘心美编写,项目9 由李明革、李季、张蕊共同编写。
由于编者水平有限,书中难免有不妥或疏漏之处,敬请广大读者批评指正!
编者

导语摘要
本书详细介绍了大数据技术中的Hadoop 集群部署、MapReduce、Hive和HBase 等的基本知识和应用,本书采用了大量案例,可以更好地帮助读者学习和理解大数据的核心技术。
本书从实用的角度出发,设计了9 个项目,从虚拟机安装入手,结合实际工作中的典型项目和案例,全面介绍了Hadoop 集群部署、HDFS、MapReduce 编程、Hive、HBase 和Sqoop 的相关知识和基本操作。
本书围绕Linux 操作系统和Hadoop 集群部署,按照初学者的思维习惯,循序渐进地设计和安排学习内容,采用将基础知识融入项目教学的方式,在完成项目学习的同时,实现从理论知识到能力的转化,帮助学习者牢固掌握Hadoop 集群部署等相关知识的实践技能。
本书适合作为职业类院校计算机、大数据等相关专业的教材,也适用于计算机培训班教学,以及有构建大数据知识体系需求的读者学习。

作者简介
张立辉,2003年毕业于吉林工程技术师范学院计算机科学与技术专业,发表核心论文一篇,论文10余篇,主持和参与课题5个,指导学生参加吉林省大数据比赛多次获得一等奖,实用新型专利3个,软件著作权4个。带领团队参与公司实际项目3个以上。

目录
目录

前言
项目1 Hadoop 安装
1.1 大数据认知
1.1.1 大数据是什么
1.1.2 大数据应用领域
1.1.3 大数据的特点
1.1.4 大数据的技术架构
1.2 Hadoop 认知
1.2.1 Hadoop 起源
1.2.2 Hadoop 的特点
1.2.3 Hadoop 生态圈
1.2.4 Hadoop 核心架构
项目实现
任务1 安装前准备
任务2 虚拟机的安装
任务3 Ubuntu 的安装
任务4 解压与压缩命令
任务5 JDK 安装和配置
任务6 Hadoop 的安装
拓展项目
课后练习
项目2 Hadoop 集群部署
2.1 Linux 环境设置
2.1.1 Linux 常用命令
2.1.2 用户(组)创建
2.1.3 FileZilla 文件传输
2.1.4 apt 更新
2.1.5 vim 编辑器的应用
2.1.6 网络配置
2.2 Hadoop 配置文件
2.2.1 环境变量的配置
2.2.2 SSH 安装
2.2.3 core-site.xml 配置文件
2.2.4 hdfs-site.xml 配置文件
2.2.5 Hadoop 伪分布式运行实例
2.3 YARN 认知
2.3.1 初识YARN
2.3.2 YARN 基本服务组件
2.3.3 YARN 执行过程
项目实现
任务1 部署前准备
任务2 集群网络配置
任务3 配置文件的设置
任务4 集群部署
拓展项目
课后练习
项目3 HDFS-电影信息管理
3.1 HDFS 认知
3.1.1 HDFS 简介
3.1.2 HDFS 特点
3.1.3 HDFS 设计原则
3.1.4 HDFS 核心概念
3.2 HDFS 常用Shell 命令和基础编程开发
3.2.1 HDFS 常用Shell 命令
3.2.2 用HDFS API 实现上传本地文件
3.2.3 用HDFS API 实现创建HDFS 文件
3.2.4 用HDFS API 实现读取和写入文件
3.2.5 用HDFS API 实现创建HDFS 目录
3.2.6 用HDFS API 实现查找文件所在位置
3.3 HDFS 工作机制
3.3.1 HDFS 写数据流程
3.3.2 HDFS 读数据流程
3.3.3 NameNode 工作机制
3.3.4 DataNode 工作机制
项目实现
任务1 环境搭建
任务2 写入电影信息
任务3 读取电影信息
拓展项目
课后练习
项目4 用MapReduce 统计网站最大访问次数
4.1 MapReduce 认知
4.1.1 MapReduce 的由来
4.1.2 MapReduce 的执行过程
4.1.3 Mapper 过程
4.1.4 Reduce 过程
4.1.5 Shuffle 过程
4.2 MapReduce 程序开发
4.2.1 IDEA 安装
4.2.2 MapReduce 输入/输出类型
4.2.3 MapReduce 输入处理类
4.2.4 MapReduce 输出处理类
4.2.5 典型案例:WordCount
项目实现
任务1 POJO 类编写
任务2 Map 网站访问数据
任务3 Reduce 网站访问数据
任务4 项目驱动类编写
拓展项目
课后练习
项目5 用MapReduce 实现课程名称和成绩的二次排序
5.1 MapReduce 高级开发一
5.1.1 Combiner 合并编程
5.1.2 Partitioner 分区编程
5.1.3 RecordReader 编程
5.2 MapReduce 高级开发二
5.2.1 MapReduce 连接操作
5.2.2 MapReduce 排序操作
5.2.3 MapReduce 多文件联合查询
项目实现
任务1 POJO 类编写
任务2 Map 课程和成绩数据
任务3 Reduce 课程和成绩数据
任务4 项目驱动类编写
拓展项目
课后练习
项目6 用Hive 实现购物用户数据清洗
6.1 Hive 认知
6.1.1 Hive 简介
6.1.2 Hive 体系结构
6.1.3 Hive 设计特征
6.2 Hive 安装
6.2.1 伪分布式安装与配置Hive
6.2.2 安装与配置MySQL
6.3 Hive 基本操作
6.3.1 Hive 数据类型
6.3.2 数据库操作
6.3.3 内部表操作
6.3.4 外部表操作
6.3.5 分区表操作
6.3.6 分桶表操作
6.3.7 Hive 数据操作
项目实现
任务1 导入数据
任务2 数据分析
任务3 数据导出
拓展项目
课后练习
项目7 用HBase 实现学生成绩管理
7.1 HBase 认知
7.1.1 HBase 简介
7.1.2 HBase 体系结构
7.1.3 HBase 写数据流程
7.1.4 HBase 读数据流程
7.2 HBase 安装
7.2.1 下载软件
7.2.2 伪分布式安装与配置
7.3 HBase shell 操作命令
7.3.1 HBase 数据模型
7.3.2 数据表空间操作
7.3.3 数据表操作
7.3.4 数据操作
7.4 HBase API 操作
7.4.1 HBase 常用的API
7.4.2 Configuration 对象
7.4.3 HTable 句柄创建
7.4.4 HBase 数据的CRUD 操作
项目实现
任务1 学生成绩表数据准备
任务2 学生成绩表设计分析
任务3 学生成绩表代码实现
拓展项目
课后练习
项目8 Sqoop 导入导出
8.1 概述
8.1.1 Sqoop 产生背景
8.1.2 Sqoop 是什么
8.1.3 为什么选择 Sqoop 
8.2 工作原理
8.2.1 导入机制
8.2.2 导出机制
8.3 安装
8.4 Sqoop 的基本命令
8.4.1 基本操作
8.4.2 示例
项目实现
任务1 从RDBMS 导入到HDFS 
任务2 从MySQL 导入到Hive
任务3 从MySQL 导入到HBase
课后练习
Hadoop 综合实例—网络交易数据统计
9.1 项目概述
9.1.1 项目实现的思路
9.1.2 项目流程
9.2 准备工作
9.2.1 项目环境的搭建
9.2.2 Hadoop+HBase+Hive 集成
9.2.3 HBase 数据库设计原则
9.2.4 数据概况
项目实现
项目9
任务1 POJO 类编写
任务2 统计不同品牌手机的销售数量
任务3 统计不同品牌手机销量和销售额占比
任务4 统计某年每个月的手机销售数量的比例
任务5 统计每个月份各市区县的手机销售数量
任务6 统计购买手机的男女比例
任务7 统计不同手机品牌购买用户的年龄区间人数
课后练习

内容摘要
本书详细介绍了大数据技术中的Hadoop 集群部署、MapReduce、Hive和HBase 等的基本知识和应用,本书采用了大量案例,可以更好地帮助读者学习和理解大数据的核心技术。
本书从实用的角度出发,设计了9 个项目,从虚拟机安装入手,结合实际工作中的典型项目和案例,全面介绍了Hadoop 集群部署、HDFS、MapReduce 编程、Hive、HBase 和Sqoop 的相关知识和基本操作。
本书围绕Linux 操作系统和Hadoop 集群部署,按照初学者的思维习惯,循序渐进地设计和安排学习内容,采用将基础知识融入项目教学的方式,在完成项目学习的同时,实现从理论知识到能力的转化,帮助学习者牢固掌握Hadoop 集群部署等相关知识的实践技能。
本书适合作为职业类院校计算机、大数据等相关专业的教材,也适用于计算机培训班教学,以及有构建大数据知识体系需求的读者学习。

主编推荐
张立辉,2003年毕业于吉林工程技术师范学院计算机科学与技术专业,发表核心论文一篇,论文10余篇,主持和参与课题5个,指导学生参加吉林省大数据比赛多次获得一等奖,实用新型专利3个,软件著作权4个。带领团队参与公司实际项目3个以上。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP