大数据理论与应用基础
新华书店全新正版书籍图书 保证_可开发票_极速发货支持7天无理由
¥
62.6
7.9折
¥
79
全新
库存2件
作者编者:吴慧欣//韩珂|责编:李蕊
出版社电子工业
ISBN9787121463488
出版时间2023-09
装帧平装
开本其他
定价79元
货号31861612
上书时间2024-06-08
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
吴慧欣,男,博士、教授,主要从事系统建模与仿真、机器学习、虚拟现实技术研究,担任河南省大数据专家委员会委员,河南省研究生教育指导委员会委员,河南省一流本科专业软件工程负责人,主持完成省部级以上科研、教改项目9项,获省部级科技奖励2项,国家发明专利7项,发表学术论文32篇,SCI/EI收录15篇。
目录
目 录
第1章 绪论1
1.1 大数据的形成和发展1
1.2 大数据的基本概念3
1.2.1 什么是大数据3
1.2.2 大数据的特征3
1.3 大数据关键技术5
1.3.1 大数据采集技术5
1.3.2 大数据预处理技术6
1.3.3 大数据存储与管理技术7
1.3.4 大数据分析与挖掘技术8
1.3.5 大数据展现与应用技术10
1.4 大数据的行业应用11
1.4.1 水利领域11
1.4.2 生物医学领域13
1.4.3 智慧城市领域14
1.4.4 商业领域15
1.4.5 信息安全领域15
1.5 大数据领域的主要职位及其能力要求16
1.5.1 首席数据官16
1.5.2 数据科学家17
1.5.3 大数据开发工程师17
1.5.4 大数据运维工程师18
1.6 本章小结18
1.7 习题18
第2章 Linux的基础操作19
2.1 Linux概述19
2.1.1 Linux系统的发行版本及特点19
2.1.2 Linux与Windows系统对比19
2.2 Linux命令20
2.2.1 命令行技巧20
2.2.2 Linux帮助命令22
2.2.3 Linux文件类型及查看操作24
2.2.4 文件与目录操作27
2.2.5 文本编辑34
2.2.6 文本过滤器与处理39
2.2.7 用户与用户组管理43
2.2.8 文件权限管理49
2.2.9 归档与压缩53
2.2.10 进程管理56
2.3 本章小结57
2.4 习题57
第3章 Hadoop大数据处理架构59
3.1 Hadoop简介59
3.1.1 Hadoop的概念59
3.1.2 Hadoop的发展史59
3.1.3 Hadoop版本介绍61
3.2 Hadoop的特性61
3.3 Hadoop生态系统62
3.3.1 Hadoop集群的架构62
3.3.2 Hadoop生态系统的组件62
3.4 部署Hadoop集群64
3.4.1 Hadoop集群的部署方式64
3.4.2 虚拟机的创建和配置64
3.4.3 安装JDK91
3.4.4 安装Hadoop92
3.4.5 验证98
3.5 本章小节104
3.6 习题104
第4章 HDFS分布式文件系统105
4.1 HDFS简介105
4.1.1 分布式文件系统的发展105
4.1.2 HDFS的基本概念107
4.1.3 HDFS的特点108
4.2 HDFS的存储架构和工作原理109
4.2.1 HDFS的存储架构109
4.2.2 HDFS文件的读取原理110
4.2.3 HDFS文件的写入原理111
4.3 HDFS的Shell操作112
4.4 HDFS的Java API介绍114
4.4.1 HDFS Java API概述114
4.4.2 使用Java API操作HDFS114
4.5 本章小结123
4.6 习题123
第5章 MapReduce分布式计算框架124
5.1 MapReduce简介124
5.1.1 分布式并行编程124
5.1.2 MapReduce模型简介125
5.1.3 MapReduce的优/缺点125
5.1.4 Map和Reduce函数126
5.2 MapReduce的工作原理127
5.2.1 工作原理概述127
5.2.2 MapReduce的工作过程127
5.2.3 Map任务的工作原理129
5.2.4 Shuffle的工作原理130
5.2.5 Reduce任务的工作原理133
5.3 MapReduce编程组件134
5.3.1 InputFormat组件135
5.3.2 Mapper组件139
5.3.3 Reducer组件140
5.3.4 Partitioner组件140
5.3.5 Combiner组件141
5.3.6 OutputFormat组件142
5.4 MapReduce案例142
5.4.1 本地测试环境配置143
5.4.2 WordCount144
5.4.3 倒排索引146
5.4.4 数据去重154
5.4.5 Top-N157
5.5 MapReduce实验160
5.5.1 任务要求161
5.5.2 环境准备161
5.5.3 程序编写162
5.5.4 本地测试165
5.5.5 集群测试166
5.6 本章小结167
5.7 习题168
第6章 ZooKeeper分布式协调服务170
6.1 ZooKeeper概述170
6.1.1 ZooKeeper的设计目标170
6.1.2 ZooKeeper的特性171
6.1.3 ZooKeeper集群角色172
6.1.4 ZooKeeper实现173
6.2 ZooKeeper数据模型174
6.2.1 数据存储结构174
6.2.2 节点类型175
6.2.3 znode属性176
6.2.4 znode数据访问176
6.2.5 其他节点176
6.2.6 ZooKeeper中的时间177
6.3 watch机制178
6.3.1 watch机制的定义178
6.3.2 watch机制的语义178
6.3.3 watch机制的实现179
6.3.4 watch机制的特点179
6.3.5 watch机制的通知状态和事件类型180
6.3.6 ZooKeeper对watch的支持180
6.4 ZooKeeper的选举机制180
6.4.1 选举机制相关概念180
6.4.2 选举机制类型181
6.5 ZooKeeper会话182
6.6 ZooKeeper使用ACL进行访问控制185
6.6.1 ACL权限与内置方案185
6.6.2 ZooKeeper C API186
6.7 可插拔ZooKeeper身份验证187
6.8 ZooKeeper绑定189
6.8.1 Java绑定189
6.8.2 C绑定191
6.9 ZooKeeper部署及操作191
6.9.1 ZooKeeper的下载与安装192
6.9.2 配置修改192
6.9.3 ZooKeeper操作194
6.9.4 ZooKeeper集群部署195
6.9.5 ZooKeeper的Java API操作203
6.10 ZooKeeper典型应用209
6.10.1 数据发布与订阅209
6.10.2 负载均衡209
6.10.3 命名服务210
6.10.4 分布式锁210
6.11 本章小结211
6.12 习题211
第7章 YARN资源管理器213
7.1 YARN介绍213
7.1.1 YARN的概念213
7.1.2 YARN的应用场景213
7.2 YARN的基本组成214
7.2.1 ResourceManager215
7.2.2 NodeManager215
7.2.3 ApplicationMaster216
7.3 YARN的工作流程216
7.4 YARN的调度器217
7.4.1 先进先出调度器218
7.4.2 容量调度器218
7.4.3 公平调度器221
7.5 YARN的常用命令227
7.5.1 查看任务227
7.5.2 查看日志228
7.5.3 查看尝试运行任务228
7.5.4 查看容器229
7.5.5 查看节点状态229
7.5.6 更新配置229
7.5.7 查看队列230
7.6 本章小结230
7.7 习题230
第8章 HBase分布式数据库232
8.1 HBase简介232
8.2 HBase的基本组成结构232
8.2.1 表233
8.2.2 行233
8.2.3 列簇233
8.2.4 列限定符233
8.2.5 单元格233
8.3 HBase数据模型234
8.4 HBase的系统架构235
8.5 HBase的安装部署237
8.6 HBase的Shell操作241
8.6.1 基本命令241
8.6.2 命名空间操作242
8.6.3 常用DDL操作243
8.6.4 常用DML操作247
8.7 HBase的Java API介绍251
8.7.1 环境配置251
8.7.2 Java API操作252
8.8 本章小结255
8.9 习题255
第9章 Hive数据仓储256
9.1 Hive简介256
9.1.1 Hive的体系结构256
9.1.2 Hive的工作流程257
9.2 Hive的安装与配置258
9.2.1 Hive的安装258
9.2.2 Hive的配置260
9.3 Hive数据操作261
9.3.1 Hive的数据类型261
9.3.2 DDL操作263
9.3.3 DML操作267
9.3.4 Hive SQL操作270
9.4 实验274
9.4.1 例1:MovieLens用户评分274
9.4.2 例2:Apache网络日志数据276
9.5 本章小结276
9.6 习题277
第10章 PySpark数据处理与分析278
10.1 Spark概述278
10.1.1 基本概念279
10.1.2 Spark的基本组成与架构280
10.1.3 Spark编程模型282
10.1.4 Spark集群架构283
10.2 PySpark简介285
10.3 PySpark的部署和操作285
10.3.1 PySpark部署285
10.3.2 快速启动DataFrame287
10.4 Spark Pandas API299
10.4.1 快速入门299
10.4.2 常用的操作运算305
10.4.3 PySpark使用方法的详细讲解307
10.5 实验332
10.5.1 DataFrame数据操作333
10.5.2 Spark Pandas API的操作334
10.6 本章小结335
10.7 习题335
第11章 综合案例337
11.1 实验准备337
11.2 实验环境337
11.3 实验目的337
11.4 数据预处理338
11.5 数据入库339
11.5.1 启动Hadoop环境339
11.5.2 数据导入HBase340
11.6 构建索引表341
11.6.1 创建Jingdong工程342
11.6.2 导入相关jar包343
11.6.3 创建ItemsInfo实体类346
11.6.4 编写创建HBase索引表的代码348
11.6.5 将程序打包成jar包356
11.6.6 运行环境配置361
11.6.7 运行程序363
11.7 构建搜索引擎363
11.7.1 创建Java Web工程364
11.7.2 导入相关jar包366
11.7.3 部署Tomcat到IntelliJ IDEA中367
11.7.4 创建相关类370
11.7.5 创建前端页面DataSearch.jsp378
11.7.6 加载hbase-site.xml配置文件382
11.8 页面访问385
11.9 本章小结386
参考文献387
内容摘要
本书从初学者的角度详细介绍大数据的核心技术。全书共11章,包括绪论、Linux的基础操作、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、YARN资源管理器、HBase分布式数据库、Hive数据仓储、PySpark数据处理与分析及综合案例。此外,本书还提供了相应的示例代码,以帮助读者进一步理解相关方案的实现过程。
— 没有更多了 —
以下为对购买帮助不大的评价