大数据原理与技术
全新正版 极速发货
¥
35.6
6.0折
¥
59.8
全新
库存4件
作者刘甫迎
出版社电子工业
ISBN9787121431906
出版时间2022-04
装帧平装
开本16开
定价59.8元
货号1202625590
上书时间2024-06-02
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
刘甫迎,教授,硕士研究生导师,2006年获的国家级教学名师奖、成为当时全国高职高专首位获得该殊荣的教师。2006~2010年,担任高职高专计算机类专业教学指导委委员,曾获四川省有突出贡献的优秀专家称号,四川省优秀教师称号。1982年1月毕业于电子科技大学计算机工程专业。1975年至1995年在中国科学院成都计算机应用研究所,历任软件研究室副主任、副研究员。1985年在加拿大McMaster大学作中科院公派访问学者。作为负责人获国家精品课程一项,四川省精品课程二项,获四川省教学成果一、二等奖各一项。作为主编2002年获全国普通高等学校优秀教材二等奖。1981年获四川省重大科技成果奖。发表论文40余篇,主编出版教材、著作21部。获选普通高等教育“十一五”国家级规划教材两部。获选“十三五”职业教育国家规划教材一部。
目录
目录
第一篇 大数据基础篇
第1章 绪 论2
1.1 大数据概述2
1.1.1 三次信息化浪潮、大数据的兴起与影响2
1.1.2 大数据的概念及特征5
1.1.3 大数据的计算模式9
1.1.4 大数据的关键技术11
1.2 大数据的Hadoop解决方案13
1.2.1 Hadoop的由来与发展13
1.2.2 Hadoop的特性、运行原理和生态环境14
1.2.3 Hadoop的企业级开发架构、技术与落地应用18
1.3 大数据各时期的热点与数据使用发展趋势21
1.3.1 数据架构各时期的演变22
1.3.2 Hadoop的YARN计算框架24
1.3.3 大数据的实时交互式分析25
1.3.4 数据使用发展趋势25
习题29
第二篇 大数据存储篇
第2章 HDFS分布式文件系统32
2.1 HDFS及其设计思路和架构32
2.1.1 HDFS及其设计思路32
2.1.2 HDFS的架构与基本存储单元33
2.1.3 HDFS的存/取流程34
2.2 HDFS Shell的基本操作38
2.3 HDFS的命令行操作41
2.3.1 HDFS文件访问权限41
2.3.2 通过Web浏览HDFS文件42
2.3.3 HDFS的接口(API)使用44
习题46
第3章 NoSQL及其HBase分布式数据库系统48
3.1 大数据环境中的NoSQL48
3.1.1 NoSQL应运而生48
3.1.2 NoSQL的类型49
3.1.3 NoSQL的三大基石51
3.2 HBase的设计思路与架构54
3.2.1 HBase的系统架构与组件54
3.2.2 HBase的数据模型、物理存储与查找56
3.2.3 HBase的数据读/写流程60
3.3 HBase的操作与数据管理61
3.3.1 HBase的Shell操作61
3.3.2 Java API 与非Java访问64
3.3.3 HBase的编程实例65
3.4 从RDBMS到HBase67
3.5 为应用程序选择合适的Hadoop数据存储机制69
习题70
第三篇 大数据计算篇
第4章 MapReduce分布式计算74
4.1 MapReduce的架构与源码分析74
4.1.1 MapReduce的架构与执行过程74
4.1.2 MapReduce的输入与输出75
4.1.3 MapReduce的Job类78
4.2 MapReduce任务的异常处理与失败处理79
4.2.1 MapReduce任务的异常处理方式79
4.2.2 MapReduce任务的失败处理方式80
4.3 在HBase上运行MapReduce80
4.4 MapReduce程序开发实例82
4.5 基于MapReduce的数据挖掘应用88
4.5.1 数据挖掘与高级分析库Mahout88
4.5.2 矩阵乘法90
4.5.3 相似度计算93
习题96
第5章 大数据的Spark内存计算99
5.1 Spark概述99
5.1.1 Spark及其架构99
5.1.2 Spark的特点及性能100
5.1.3 Spark的基本原理及计算方法101
5.1.4 Spark与MapReduce、Hive对比102
5.1.5 Spark在国内的现状以及未来的展望103
5.2 Spark的RDD103
5.2.1 Spark的核心概念――RDD103
5.2.2 RDD基本操作104
5.2.3 Spark提供的Transformation实现与Action实现104
5.3 Spark的运行模式105
5.3.1 Spark的程序框架105
5.3.2 独立(Standalone)模式107
5.3.3 Spark YARN的模式108
5.4 Spark应用程序109
5.4.1 Scala语言简介109
5.4.2 Spark程序设计111
5.5 Spark SQL116
5.5.1 Spark SQL简介116
5.5.2 DataFrame117
5.5.3 Datasets122
5.5.4 使用数据源124
习题127
第6章 大数据的流计算129
6.1 流计算概述129
6.1.1 无界数据及流数据129
6.1.2 流计算概念131
6.1.3 流计算框架132
6.1.4 流计算的价值与应用137
6.2 流计算处理流程138
6.2.1 概述138
6.2.2 数据实时采集138
6.2.3 数据实时计算139
6.2.4 实时查询服务140
6.3 开源流计算框架Flink141
6.3.1 Flink简介141
6.3.2 Flink的基本架构142
6.3.3 Flink编程144
习题148
第7章 大数据的图计算149
7.1 大数据的图计算概述149
7.2 Spark GraphX150
7.2.1 Spark GraphX简介150
7.2.2 Spark GraphX的实现分析151
7.2.3 Spark GraphX实例152
7.3 Pregel155
7.3.1 Pregel简介155
7.3.2 Pregel图计算模型156
7.3.3 Pregel的体系结构159
7.3.4 PageRank算法及其实现161
习题165
第四篇 大数据管理、查询分析及可视篇
第8章 Hadoop的数据整合、集群管理与维护168
8.1 Hadoop数据整合168
8.1.1 Hadoop计算环境中的数据整合问题168
8.1.2 数据库整合工具Sqoop(导入、导出数据)168
8.1.3 Hadoop平台内部数据整合工具――HCatalog172
8.2 Hadoop集群管理与维护175
8.2.1 云计算平台的管理体系175
8.2.2 集群中的配置管理与协调者――ZooKeeper177
8.2.3 Hadoop集群部署与监控集成工具――Ambari179
8.2.4 基于Kerberos的Hadoop安全管理181
8.2.5 Hadoop集群管理工具分析183
习题184
第9章 大数据的查询分析技术185
9.1 大数据对传统分析处理的挑战185
9.2 查询(SQL on Hadoop)185
9.3 使用Hive和Pig处理数据188
9.3.1 Hive与HiveQL命令188
9.3.2 Pig与Pig Latin192
9.3.3 实例193
9.3.4 Hive与Pig对比195
9.4 实时互动的SQL:Impala和Drill195
9.4.1 Cloudera Impala195
9.4.2 Apache Drill196
习题205
第10章 R语言与可视化技术206
10.1 开源可视化统计绘图工具――R语言206
10.1.1 R语言概述206
10.1.2 R软件资源207
10.1.3 函数、运算符、数据表和数据框208
10.1.4 数据存/取及脚本语言209
10.1.5 绘图及实例210
10.2 可视化技术213
10.2.1 可视化技术及分类213
10.2.2 入门级工具214
10.2.3 互动图形用户界面控制215
10.2.4 地图工具216
10.2.5 可视化设计工具216
10.2.6 专家级可视化分析工具217
习题218
第五篇 大数据发展及应用篇
第11章 大数据应用――人工智能深度学习220
11.1 理解大数据深度学习220
11.1.1 机器学习、感知器与大数据深度学习220
11.1.2 人工神经网络与深度学习221
11.2 深度学习的编程基础222
11.2.1 环境配置222
11.2.2 Python入门227
11.2.3 NumPy229
11.2.4 机器学习实践232
11.3 大数据深度学习实践240
11.3.1 卷积神经网络240
11.3.2 深度学习在图像中的应用240
习题245
附录A 《大数据原理与技术》教学大纲246
附录B 实验指导书247
B.1 实验一:Hadoop平台安装环境配置(Ambari)247
B.2 实验二:Hadoop集群配置及HDFS的使用252
B.3 实验三:HBase的安装与实例运行257
B.4 实验四:MapReduce计算263
B.5 实验五:基于MapReduce的大数据挖掘实例264
B.6 实验六:认识Spark265
B.7 实验七:Spark编程268
B.8 实验八:初步体验大数据流计算框架Flink270
B.9 实验九:数据库整合工具Sqoop与查询分析(Hive、Pig)273
B.10 实验十:R语言与可视化技术278
B.11 实验十一:认识深度学习(PyCharm、Python、NumPy、 Keras)280
B.12 实验十二:深度学习实例284
附录C 模拟考试288
C.1 模拟考试试卷(一)288
C.2 模拟考试试卷(二)290
参考文献293
内容摘要
本书分为5篇,包括11章和3个附录。大数据基础篇包括第1章(绪论);大数据存储篇包括第2~3章(HDFS分布式文件系统、NoSQL及其HBase分布式数据库系统);大数据计算篇包括第4~7章(MapReduce分布式计算、大数据的Spark内存计算、大数据的流计算、大数据的图计算);大数据管理、查询分析及可视篇包括第8~10章(Hadoop的数据整合、集群管理与维护,大数据的查询分析技术,R语言与可视化技术);大数据发展及应用篇包括第11章(大数据应用――人工智能深度学习)。本书体现了校际联盟、校企合作的建设成果,将理论与实践相结合,突出实践应用。本书配套的教学资源丰富,包括PPT、教学大纲、实验指导书、习题、模拟考试试卷等,读者在可以登录华信教育资源网(www.hxedu.com.cn)注册后免费下载。本书可以作为应用型本科院校、高等职业院校计算机专业、大数据专业、人工智能专业的教材,也可以作为相关培训机构的教材,还可以作为软件开发和应用从业人员的参考书。
— 没有更多了 —
以下为对购买帮助不大的评价