• 【现货速发】大数据科学与应用丛书HADOOP大数据实战权威指南(第2版)
21年品牌 40万+商家 超1.5亿件商品

【现货速发】大数据科学与应用丛书HADOOP大数据实战权威指南(第2版)

全新正版书籍,24小时发货,可开发票。

41.5 5.3折 79 全新

库存4件

天津津南
认证卖家担保交易快速发货售后保障

作者黄东军

出版社电子工业出版社

ISBN9787121370335

出版时间2019-09

装帧平装

开本16开

定价79元

货号27941600

上书时间2024-12-19

易安居书舍

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

第2版前言
本书第1版于2017年7月面世,到目前已经印刷多次,受到了广大读者的欢迎和好评,作者为此备受鼓舞。随着时间的推移,大数据技术又有了新的变化,例如,Hadoop由写作第1版时的Hadoop 2.6升级到Hadoop 3.1,其官方文档声称新版Hadoop的速度比同期Spark快10倍;其他组件也在不断更新和升级。作为大数据实战权威指南,本书当然要紧跟技术发展,及时反映新平台、新技术、新方法和新特性。因此,我们撰写了《Hadoop大数据实战权威指南(第2版)》。
第2版的写作架构上与第1版保持一致,仍然分为3篇、12章,但是各章内容进行了提升和改写,对软件平台和主要组件都进行了升级,具体变化如下:
(1)采用Hadoop 3.1。在实践中我们也感受到, Hadoop 3.1在速度、稳定性、易用性等方面都好于早期的版本。
(2)JDK由原来的1.7.0_71升级到了1.8.0_171。从业界反馈的信息看,1.8.0版本的JDK是很受开发人员欢迎的。
(3)MySQL由原来的5.7.13升级到8.0.11,其性能得到了显著的提高。
(4)Hive从原来的2.1.0升级到3.1.0。
(5)HBase继续采用1.2.4版。我们观点是,必要的升级是有效的,但是,升级软件组件也面临适配性问题,在生产实际中更是需要慎重对待。从官方文献及实践来看,Hadoop与HBase存在很强的适配性问题,不同版本的Hadoop需要对应不同版本的HBase。研究证明,Hadoop 3.1与HBase 1.2.4能够很好地配合使用。
(6)Spark由原来的2.0升级到2.4。与之配套的开发平台IDEA也由原来的2016.3升级到2018.3.4。
特别需要说明的是,在上述升级中,为读者展示了大量的新方法和新变化,曾踩过了很多的坑,解决了不少技术问题。这些对学习者、项目开发者都有很好的参考作用。
大数据正处于方兴未艾的发展时期,我们将努力为读者奉献精品力作。由于作者水平有限,错误和疏漏在所难免,恳请广大读者提出宝贵的意见和建议。作者的电子邮箱是:djhuang@csu.edu.cn。

                                                             黄东军    
                                                   2019年8月21日于长沙



导语摘要

基于"深入分析组件原理、充分展示搭建过程、详细指导应用开发”的理念,以*版Hadoop及其生态组件为对象,采用理论与应用高度融合的方法,介绍大数据的概念、技术、方法、应用、以及项目开发。全书分为三篇,*篇为大数据的基本概念和技术综述,第二篇为平台搭建与基本应用,内容设计Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇为数据处理与项目开发,综合运用各类组件进行实际数据处理,包括交互式应用、决策、推荐算法、销售数据分析系统等。



作者简介

黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,*计算机科学与技术专业教学指导委员会"物联网工程专业教学研究专家组”成员。



目录

目 录 
篇 大数据的基本概念和技术 1 
第1章 绪论 3 
1.1 大数据的时代背景 3 
1.1.1 全球大数据浪潮 3 
1.1.2 我国的大数据战略 5 
1.2 大数据的基本概念和特征 6 
1.2.1 基本概念 6 
1.2.2 基本特征 7 
1.3 大数据系统的技术支撑体系 7 
1.3.1 技术支撑体系概览 7 
1.3.2 大数据系统的采集层 8 
1.3.3 大数据系统的存储层 9 
1.3.4 大数据系统的分析层 9 
1.3.5 大数据系统的应用层 9 
1.3.6 大数据系统的垂直层 10 
1.4 大数据领域的主要职位及其能力要求 11 
1.4.1 首席数据官 11 
1.4.2 数据科学家 11 
1.4.3 大数据开发工程师 12 
1.4.4 大数据运维工程师 13 
1.5 本章小结 13 
第2章 Hadoop大数据关键技术 15 
2.1 Hadoop大数据应用生态系统 15 
2.1.1 架构的基本理论 15 
2.1.2 Hadoop大数据应用生态系统的主要组件及其关系 16 
2.2 大数据采集技术 19 
2.2.1 结构化数据采集工具 19 
2.2.2 日志收集工具与技术 20 
2.3 大数据存储技术 23 
2.3.1 相关概念 23 
2.3.2 分布式存储系统 27 
2.3.3 数据库(HBase)与数据仓库(Hive) 30 
2.4 分布式计算框架 35 
2.4.1 离线计算框架 35 
2.4.2 实时流计算平台 40 
2.5 数据分析平台与工具 45 
2.5.1 面向大数据的数据挖掘与分析工具 45 
2.5.2 机器学习 49 
2.6 本章小结 52 
第二篇 Hadoop大数据平台搭建与基本应用 55 
第3章 Linux操作系统与集群搭建 57 
3.1 Linux操作系统 57 
3.1.1 概述 57 
3.1.2 特点 58 
3.1.3 Linux操作系统的组成 59 
3.2 Linux集群的搭建 62 
3.2.1 安装VMware Workstation 62 
3.2.2 在VMware Workstation Pro 12上安装Linux(CentOS 7) 65 
3.3 集群的配置 77 
3.3.1 设置主机名 77 
3.3.2 网络设置 79 
3.3.3 关闭防火墙 83 
3.3.4 安装JDK 84 
3.3.5 免密钥登录配置 87 
3.4 Linux基本命令 89 
3.5 本章小结 96 
第4章 HDFS安装与基本应用 97 
4.1 HDFS概述 97 
4.1.1 特点 97 
4.1.2 主要组件与架构 97 
4.2 HDFS架构分析 98 
4.2.1 数据块 98 
4.2.2 NameNode 98 
4.2.3 DataNode 99 
4.2.4 SecondaryNameNode 100 
4.2.5 数据备份 100 
4.2.6 通信协议 101 
4.2.7 可靠性保证 101 
4.3 文件操作过程分析 101 
4.3.1 读文件 101 
4.3.2 写文件 102 
4.3.3 删除文件 103 
4.4 Hadoop的安装与配置 104 
4.4.1 解压Hadoop安装包 104 
4.4.2 配置Hadoop环境变量 105 
4.4.3 配置Yarn环境变量 106 
4.4.4 配置核心组件 106 
4.4.5 配置文件系统 107 
4.4.6 配置yarn site.xml文件 108 
4.4.7 配置MapReduce计算框架文件 109 
4.4.8 配置Master中的workers文件 111 
4.4.9 将Master上的Hadoop复制到Slave 111 
4.5 Hadoop集群的启动 112 
4.5.1 配置操作系统的环境变量 112 
4.5.2 创建Hadoop数据目录 113 
4.5.3 格式化文件系统 113 
4.5.4 启动和关闭Hadoop 114 
4.5.5 验证Hadoop是否成功启动 115 
4.6 Hadoop集群的基本应用 117 
4.6.1 HDFS基本命令 117 
4.6.2 在Hadoop集群中运行程序 120 
4.7 本章小结 122 
第5章 MapReduce与Yarn 123 
5.1 MapReduce程序的概念 123 
5.1.1 基本编程模型 123 
5.1.2 计算过程分析 124 
5.2 深入理解Yarn 126 
5.2.1 Yarn的基本架构 126 
5.2.2 Yarn的工作流程 130 
5.3 在Linux平台安装Eclipse 130 
5.3.1 Eclipse简介 130 
5.3.2 安装并启动Eclipse 131 
5.4 开发MapReduce程序的基本方法 133 
5.4.1 为Eclipse安装Hadoop插件 133 
5.4.2 WordCount:个MapReduce程序 137 
5.5 本章小结 150 
第6章 Hive和HBase的安装与应用 151 
6.1 在CentOS 7下安装MySQL 151 
6.1.1 下载或复制MySQL安装包 151 
6.1.2 执行安装命令 152 
6.1.3 启动MySQL 153 
6.1.4 登录MySQL 153 
6.1.5 使用MySQL 154 
6.1.6 问题与解决办法 156 
6.2 Hive安装与应用 157 
6.2.1 下载并解压Hive安装包 158 
6.2.2 配置Hive 158 
6.2.3 启动并验证Hive 161 
6.2.4 Hive的基本应用 162 
6.3 ZooKeeper集群安装 163 
6.3.1 ZooKeeper简介 163 
6.3.2 安装ZooKeeper 164 
6.3.3 配置ZooKeeper 165 
6.3.4 启动和测试 166 
6.4 HBase的安装与应用 168 
6.4.1 解压并安装HBase 168 
6.4.2 配置HBase 169 
6.4.3 启动并验证HBase 171 
6.4.4 HBase的基本应用 173 
6.4.5 HBase应用中常见问题及其解决办法 175 
6.5 本章小结 176 
第7章 Sqoop和Kafka的安装与应用 177 
7.1 安装部署Sqoop 177 
7.1.1 下载或复制Sqoop安装包 177 
7.1.2 解压并安装Sqoop 177 
7.1.3 配置Sqoop 178 
7.1.4 启动并验证Sqoop 180 
7.1.5 测试Sqoop与MySQL的连接 180 
7.2 安装部署Kafka集群 182 
7.2.1 下载或复制Kafka安装包 182 
7.2.2 解压缩Kafka安装包 182 
7.2.3 配置Kafka集群 183 
7.2.4 Kafka的初步应用 184 
7.3 本章小结 188 
第8章 Spark集群的安装与开发环境的配置 189 
8.1 深入理解Spark 189 
8.1.1 Spark的系统架构 189 
8.1.2 Spark的关键概念 191 
8.2 Scala的安装与配置 193 
8.2.1 下载Scala安装包 194 
8.2.2 安装Scala 194 
8.2.3 启动并应用Scala 195 
8.3 Spark集群的安装与配置 195 
8.3.1 安装模式 195 
8.3.2 Spark的安装 196 
8.3.3 启动并验证Spark 198 
8.3.4 几点说明 202 
8.4 IDEA开发环境的安装与配置 203 
8.4.1 IDEA简介 203 
8.4.2 IDEA的安装 204 
8.4.3 IDEA的配置 205 
8.5 本章小结 208 
第9章 Spark应用基础 209 
9.1 Spark应用程序的运行模式 209 
9.1.1 Spark on Yarn-cluster- 209 
9.1.2 Spark on Yarn-client 210 
9.2 Spark的应用设计 211 
9.2.1 分布式估算圆周率 211 
9.2.2 基于Spark MLlib的贷款风险预测 226 
9.3 本章小结 242 
第三篇 大数据处理与项目开发 243 
第10章 交互式数据处理 245 
10.1 数据预处理 245 
10.1.1 查看数据 245 
10.1.2 数据扩展 247 
10.1.3 数据过滤 247 
10.1.4 数据上传 248 
10.2 创建数据仓库 249 
10.2.1 创建Hive数据仓库的基本命令 249 
10.2.2 创建Hive分区表 251 
10.3 数据分析 253 
10.3.1 基本统计 253 
10.3.2 用户行为分析 254 
10.3.3 实时数据 256 
10.4 本章小结 256 
第11章 协同过滤推荐系统 257 
11.1 推荐算法概述 257 
11.1.1 基于人口统计学的推荐 257 
11.1.2 基于内容的推荐 258 
11.1.3 协同过滤推荐 258 
11.2 协同过滤推荐算法分析 259 
11.2.1 基于用户的协同过滤推荐 259 
11.2.2 基于物品的协同过滤推荐 261 
11.3 Spark MLlib推荐算法应用 262 
11.3.1 ALS算法原理 262 
11.3.2 ALS的应用设计 264 
11.4 本章小结 277 
第12章 销售数据分析系统 279 
12.1 数据采集 279 
12.1.1 在Windows平台安装JDK 279 
12.1.2 在Windows平台安装Eclipse 281 
12.1.3 将WebCollector项目导入Eclipse 282 
12.1.4 在Windows平台安装MySQL 283 
12.1.5 连接JDBC 286 
12.1.6 运行爬虫程序 286 
12.2 在HBase集群上准备数据 287 
12.2.1 将数据导入MySQL 287 
12.2.2 将MySQL表中的数据导入HBase集群 289 
12.3 安装Phoenix中间件 291 
12.3.1 Phoenix架构 291 
12.3.2 解压安装Phoenix 293 
12.3.3 Phoenix环境配置 293 
12.3.4 使用Phoenix 294 
12.4 基于Web的前端开发 298 
12.4.1 将Web前端项目导入Eclipse 298 
12.4.2 安装Tomcat 300 
12.4.3 在Eclipse中配置Tomcat 300 
12.4.4 在Web浏览器中查看执行结果 303 
12.5 本章小结 305 
参考文献307



内容摘要

基于"深入分析组件原理、充分展示搭建过程、详细指导应用开发”的理念,以*版Hadoop及其生态组件为对象,采用理论与应用高度融合的方法,介绍大数据的概念、技术、方法、应用、以及项目开发。全书分为三篇,*篇为大数据的基本概念和技术综述,第二篇为平台搭建与基本应用,内容设计Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇为数据处理与项目开发,综合运用各类组件进行实际数据处理,包括交互式应用、决策、推荐算法、销售数据分析系统等。



主编推荐

黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会高级会员,*计算机科学与技术专业教学指导委员会"物联网工程专业教学研究专家组”成员。



   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP