大数据技术及架构图解实战派
全新正版 极速发货
¥
85.96
5.9折
¥
146
全新
库存7件
作者徐葳
出版社电子工业出版社
ISBN9787121437748
出版时间2022-07
装帧平装
开本16开
定价146元
货号1202682197
上书时间2024-06-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
徐葳中科院大数据研究院大数据技术专家,曾就职于北京猎豹移动科技有限公司,出版了《Flink入门与实战》
目录
基 础 篇
●第1章 大数据的前世今生2
1.1 什么是大数据2
1.2 大数据产生的背景3
1.3 大数据的4V特征3
1.4 大数据的典型应用场景4
1.5 大数据生态圈核心技术总览7
技 术 篇
●第2章 海量数据采集9
2.1 为什么需要数据采集9
2.2 数据形态9
2.3 数据来源11
2.4 数据采集规则11
2.5 日志数据采集工具13
2.5.1 对比常见的日志数据采集工具13
2.5.2 Flume的原理及架构分析14
2.5.3 Flume的应用17
-安装Flume17
-Hello World17
-【实战】日志汇总采集23
2.5.4 Logstash的原理及架构分析28
2.5.5 Logstash的应用30
-安装Logstash31
-【实战】Hello World案例31
-【实战】采集异常日志案例34
2.5.6 Filebeat的原理及架构分析38
- Filebeat的由来38
-原理及架构分析39
2.5.7 Filebeat的应用42
- 安装Filebeat42
-【实战】采集应用程序日志43
2.6 数据库数据采集工具46
2.6.1 对比常见的数据库数据采集工具46
-数据库离线数据采集工具46
-数据库实时数据采集工具47
2.6.2 Sqoop的原理及架构分析49
2.6.3 DataX的原理及架构分析53
2.6.4 Sqoop的应用55
-安装Sqoop55
-Sqoop常见参数57
-【实战】导入数据59
-【实战】导出数据61
-【实战】封装Sqoop脚本63
2.6.5 Canal的原理及架构分析64
2.6.6 Maxwell的原理及架构分析65
2.6.7 Maxwell的应用66
-安装Maxwell66
-【实战】采集MySQL数据库的实时数据67
2.7 网页数据采集工具71
2.7.1 常见的网页数据采集工具71
2.7.2 网页数据采集工具的原理及架构分析71
2.8 物联网数据采集工具73
2.8.1 什么是物联网数据采集73
2.8.2 如何实现物联网数据采集73
2.9 消息队列中间件73
2.9.1 为什么需要消息队列中间件73
2.9.2 对比常见的消息队列中间件75
2.9.3 Kafka原理及架构分析75
2.9.4 Kafka的应用77
-安装Zookeeper集群77
-安装Kafka集群79
-【实战】生产者的使用81
-【实战】消费者的使用82
2.9.5 Filebeat + Flume + Kafka的典型架构分析82
-数据采集聚合层83
-数据分发层83
-数据落盘层84
● 第3章 海量数据存储85
3.1 海量数据存储的演进之路85
3.2 分布式文件存储之HDFS86
3.2.1 HDFS的前世今生86
3.2.2 HDFS的原理及架构分析87
3.2.3 常见的分布式文件系统90
3.2.4 安装Hadoop集群91
3.2.5 安装Hadoop客户端102
3.2.6 HDFS的应用104
-HDFS常用命令的使用105
-【实战】统计HDFS中的文件107
3.3 NoSQL数据库之HBase108
3.3.1 HBase的前世今生108
3.3.2 HBase的原理及架构分析108
3.3.3 HBase的典型应用场景115
3.3.4 安装HBase集群116
3.3.5 HBase的应用120
-【实战】使用Shell命令行操作HBase121
-【实战】使用Java API操作HBase132
3.4 NoSQL数据库之Redis136
3.4.1 Redis的产生背景136
3.4.2 Redis的发展历程137
3.4.3 Redis的原理及架构分析137
3.4.4 Redis的应用142
-安装Redis142
-【实战】Redis常见命令的使用144
-【实战】存储一个班的学员信息154
-【实战】使用Java代码操作Redis155
●第4章 离线数据计算158
4.1 离线数据计算引擎的发展之路158
4.2 离线计算引擎MapReduce160
4.2.1 MapReduce的前世今生160
4.2.2 MapReduce核心原理及架构分析161
4.2.3 【实战】MapReduce离线数据计算――计算文件中每个单词出现的总次数170
4.3 离线计算引擎Spark176
4.3.1 Spark可以取代Hadoop吗176
4.3.2 Spark核心原理及架构分析177
4.3.3 【实战】Spark离线数据计算――计算文件中每个单词出现的总次数184
4.3.4 Spark中核心算子介绍及使用189
●第5章 实时数据计算207
5.1 从离线数据计算到实时数据计算207
5.2 实时数据计算引擎的演进之路208
5.3 实时数据计算引擎的技术选型209
5.4 实时计算引擎Storm211
5.4.1 Storm的原理及架构分析211
5.4.2 安装Storm集群216
5.4.3 【实战】Storm实时数据计算220
-实时清洗订单数据(实时ETL)220
-向Storm集群中提交任务224
-停止Storm集群中正在运行的任务226
5.5 实时计算引擎Spark Streaming227
5.5.1 Spark Streaming的原理227
5.5.2 对比Spark Streaming和Structured Streaming229
5.5.3 【实战】Spark Streaming实时数据计算230
5.6 新一代实时计算引擎Flink237
5.6.1 Flink的原理及架构分析237
5.6.2 Flink中核心算子的使用244
5.6.3 【实战】Flink实时数据计算251
5.6.4 【实战】利用Flink + DataV实现“双十一”数据大屏261
●第6章 OLAP数据分析274
6.1 OLAP起源及现状274
6.2 OLAP引擎的分类278
6.2.1 从数据建模方式分类278
6.2.2 从数据处理时效分类279
6.3 常见OLAP引擎的应用场景280
6.4 常见离线OLAP引擎282
6.4.1 Hive的原理及架构分析282
6.4.2 Impala的原理及架构分析284
6.4.3 Kylin的原理及架构分析287
6.4.4 对比Hive、Impala和Kylin290
6.5 常见实时OLAP引擎290
6.5.1 Druid的原理及架构分析290
6.5.2 ClickHouse的原理及架构分析297
6.5.3 Doris的原理及架构分析299
6.5.4 对比Druid、ClickHouse和Doris302
6.6 Hive快速上手303
6.6.1 Hive部署303
6.6.2 Hive核心功能使用307
- Hive的使用方式307
-【实战】Hive中数据库和表的操作310
-【实战】Hive中的数据类型314
-【实战】Hive中的表类型318
-【实战】Hive中的视图324
-【实战】Hive中的高级函数324
-【实战】Hive中的排序语句327
6.7 【实战】Hive离线数据统计分析329
6.7.1 需求及架构分析329
6.7.2 核心步骤实现330
●第7章 海量数据全文检索引擎336
7.1 大数据时代全文检索引擎的发展之路336
7.1.1 全文检索引擎的发展337
7.1.2 全文检索引擎技术选型338
7.2 全文检索引擎原理与架构分析340
7.2.1 Lucene的原理及架构分析340
7.2.2 Solr的原理及架构分析343
7.2.3 Elasticsearch的原理及架构分析345
7.3 Elasticsearch快速上手351
7.3.1 Elasticsearch集群安装部署351
-安装Elasticsearch集群351
-安装Elasticsearch集群的监控管理工具356
7.3.2 Elasticsearch核心功能的使用359
-Elasticsearch的常见操作359
-【实战】Elasticsearch集成中文分词器371
-【实战】Elasticsearch自定义词库379
-【实战】Elasticsearch查询详解383
-【实战】Elasticsearch SQL的使用387
7.4 【实战】基于Elasticsearch + HBase构建全文搜索系统390
7.4.1 全文搜索系统需求分析390
7.4.2 系统架构流程设计391
7.4.3 开发全文搜索系统394
●第8章 分布式任务调度系统411
8.1 任务调度系统的作用411
8.2 传统任务调度系统Crontab的痛点411
8.3 分布式任务调度系统原理与架构分析412
8.3.1 常见的分布式任务调度系统413
8.3.2 Azkaban的原理及架构分析414
8.3.3 Ooize的原理及架构分析417
8.3.4 DolphinScheduler的原理及架构分析420
8.4 Azkaban快速上手422
8.4.1 安装Azkaban422
8.4.2 【实战】配置一个定时执行的独立任务424
8.4.3 【实战】配置一个带有多级依赖的任务432
8.5 【实战】Azkaban在数据仓库中的应用435
8.5.1 创建Job文件并进行压缩436
8.5.2 在Azkaban中创建项目并上传gmv_calc.zip441
8.5.3 给Azkaban中的任务设置定时执行441
●第9章 分布式资源管理444
9.1 分布式资源管理444
9.2 YARN的原理及架构分析445
9.3 YARN中的资源调度器448
9.4 【实战】配置和使用YARN多资源队列450
●第10章 大数据平台搭建工具456
10.1 如何快速搭建大数据平台456
10.2 了解常见的大数据平台工具457
10.2.1 大数据平台工具HDP457
10.2.2 大数据平台工具CDH458
10.2.3 大数据平台工具CDP460
架 构 篇
●第11章 数据仓库架构演进之路463
11.1 什么是数据仓库463
11.2 为什么需要数据仓库464
11.3 数据仓库的基础知识465
11.3.1 事实表和维度表465
11.3.2 数据库三范式466
11.3.3 数据仓库建模方式467
11.3.4 维度建模模型468
11.4 数据仓库分层469
11.4.1 数据分层设计470
11.4.2 数据仓库命名规范471
11.5 数据仓库架构设计471
11.5.1 离线数据仓库架构472
11.5.2 实时数据仓库架构472
●第12章 数据中台架构演进之路475
12.1 什么是中台475
12.2 什么是数据中台477
12.3 数据中台演进过程478
12.4 数据中台架构479
12.4.1 采480
12.4.2 存480
12.4.3 通481
12.4.4 用481
●第13章 典型行业大数据架构分析482
13.1 直播大数据平台架构分析482
13.2 电商大数据平台架构分析483
13.3 金融大数据平台架构分析484
13.4 交通大数据平台架构分析485
13.5 游戏大数据平台架构分析486
内容摘要
本书提供了学习大数据技术及架构的一站式解决方案,覆盖了大数据生态圈中的完整技术体系,包括数据采集、数据存储、分布式资源管理、数据计算、数据分析、任务调度、数据检索、大数据底层基础技术和大数据集群安装与管理。本书还介绍了多个企业级大数据应用案例(包括海量数据采集、“双十一”数据大屏、海量数据全文搜索系统等)和大数据平台架构案例(包括离线数据仓库架构、实时数据仓库架构、批流一体化数据仓库架构、数据中台架构、直播大数据平台架构、电商大数据平台架构等),可以帮助读者从全局角度理解大数据。在本书中,技术内容基本上都是从零讲起的,结合原理和架构,以“图解+实战”的形式帮助读者轻松理解复杂的知识。
— 没有更多了 —
以下为对购买帮助不大的评价