大数据平台架构
¥
30.53
3.4折
¥
89
九五品
仅1件
作者李·P
出版社电子工业出版社
出版时间2022-04
版次1
装帧其他
货号A27
上书时间2024-11-05
商品详情
- 品相描述:九五品
图书标准信息
-
作者
李·P
-
出版社
电子工业出版社
-
出版时间
2022-04
-
版次
1
-
ISBN
9787121430671
-
定价
89.00元
-
装帧
其他
-
开本
16开
-
页数
320页
-
字数
416千字
- 【内容简介】
-
本书将为大家全面而深入地介绍Hadoop、Spark和NoSQL平台的构建,深入浅出地讲解Hadoop、Spark和NoSQL的基础知识、架构方案与实战技巧等。通过阅读本书,读者可以对大数据平台架构有一个明确、清晰的认识,掌握Hadoop、Spark、NoSQL平台的使用技巧,从而搭建一个安全可靠的大数据集群平台,来满足企业的实际需求。 本书共15章,可分为五大部分。部分(第1章)为大数据平台架构概述,讲述大数据平台的基本概念与实际应用;第二部分(第2章~第6章)主要讲解Hadoop的基本使用方法,以及Hadoop生态圈的其他组件;第三部分(第7章)主要介绍NoSQL;第四部分(第8章~第10章)主要介绍Spark生态圈与Spark实战案例;第五部分(第11章~第15章)讲解如何构建大数据平台,阐述大数据平台的几个核心模块,以及大数据平台的未来发展趋势。 本书可作为各类IT企业和研发机构的大数据工程师、架构师、软件设计师、程序员,以及相关专业在校学生的参考书。
- 【作者简介】
-
数据库专家,数据分析专家,有丰富的IT领域、数学领域的知识经验。知名数据库网站ITPUB创始人,知名数据分析网站炼数成金创始人。ITPUB在其十几年历史中为中国IT业特别是数据库行业输送了大量人才,其中不乏今天在行业里叱咤风云的佼佼者,因此被誉为数据库业的黄埔军校。后来创建炼数成金,言传身教,亲自讲授大数据,数据库,数据分析,人工智能等方面的几十门课程,身也在华南著名学府中山大学任教多年,桃李满天下。引领无数弟子进入业界,朋友圈遍及业界重要人士,广受尊重。
- 【目录】
-
第1章 大数据平台架构概述1
1.1 大数据平台的产生与应用1
1.1.1 大数据平台的产生1
1.1.2 大数据平台的应用2
1.2 大数据平台架构4
1.3 大数据处理系统经典架构7
1.3.1 什么是Lambda架构7
1.3.2 Lambda架构8
1.3.3 Kappa架构10
1.3.4 适用场景10
第2章 大数据与Hadoop12
2.1 Hadoop简介12
2.1.1 Hadoop起源12
2.1.2 Hadoop特点13
2.1.3 Hadoop版本13
2.2 Hadoop生态系统14
2.2.1 Hadoop生态系统概况15
2.2.2 Hadoop生态系统组成详解16
2.3 Hadoop应用案例21
2.3.1 Hadoop应用案例1:全球超市沃尔玛21
2.3.2 Hadoop应用案例2:全球拍卖网站eBay21
2.3.3 Hadoop应用案例3:全球信用卡公司Visa22
2.4 Hadoop在国内的现状与未来22
2.4.1 国内早的Hadoop交流平台:Hadoop in China22
2.4.2 国内Hadoop发展现状22
2.4.3 国内Hadoop前景展望25
第3章 开始使用Hadoop集群26
3.1 Hadoop初探26
3.1.1 使用Hadoop的先决条件26
3.1.2 安装环境27
3.1.3 安装并运行Hadoop29
3.1.4 运行模式30
3.1.5 Hadoop单机模式31
3.1.6 Hadoop伪分布式模式32
3.1.7 Hadoop完全分布式模式36
3.1.8 Hadoop命令手册解读39
3.2 HDFS基础和权限管理45
3.2.1 HDFS特点45
3.2.2 HDFS基本构成46
3.2.3 HDFS使用原理47
3.2.4 HDFS权限管理48
3.3 MapReduce Job开发、运行与管理49
3.3.1 为什么需要 MapReduce49
3.3.2 MapReduce 1.X和MapReduce 2.X49
3.3.3 MapReduce开发55
3.3.4 MapReduce运行与管理58
3.4 YARN管理62
3.4.1 YARN简介62
3.4.2 主要组件64
3.4.3 ResourceManager组件65
3.4.4 NodeManager组件65
3.4.5 ApplicationMaster组件66
3.4.6 Container组件66
3.4.7 应用提交过程分析66
第4章 Hadoop集群性能优化和维护69
4.1 集群常用配置文件解读69
4.1.1 配置文件70
4.1.2 Hadoop核心配置文件core-site.xml71
4.2 HDFS配置优化78
4.2.1 dfsadmin81
4.2.2 SecondaryNameNode82
4.2.3 Rebalance与机架感知83
4.2.4 安全模式、fsck、升级与回滚84
4.2.5 集群与环境优化85
4.3 MapReduce配置优化86
4.3.1 Job配置86
4.3.2 其他91
4.4 YARN配置优化91
4.4.1 YARN91
4.4.2 Capacity Scheduler92
4.4.3 Queue Properties94
第5章 高可用配置97
5.1 架构97
5.2 使用NFS共享存储98
5.3 Quorum-based存储+ZooKeeper99
5.4 QJM100
5.5 使用ZooKeeper进行自动故障转移101
5.6 部署与配置102
第6章 Hadoop其他组件106
6.1 HBase介绍106
6.1.1 概述106
6.1.2 特点107
6.1.3 架构108
6.1.4 工作原理108
6.1.5 安装与运行110
6.1.6 基础操作112
6.2 Hive介绍113
6.2.1 概述113
6.2.2 特点114
6.2.3 数据结构114
6.2.4 架构115
6.2.5 工作原理116
6.2.6 安装与运行116
6.3 Pig介绍118
6.3.1 概述118
6.3.2 特点119
6.3.3 运行模式119
6.3.4 安装与运行120
6.4 Sqoop介绍121
6.4.1 概述121
6.4.2 版本介绍122
6.4.3 特点122
6.4.4 安装与运行123
6.4.5 工作原理123
第7章 NoSQL125
7.1 NoSQL介绍125
7.2 NewSQL介绍126
7.3 NoSQL应用场景127
7.4 能承受海量压力的键值型数据库:Redis128
7.5 处理非结构化数据的利器:MongoDB128
7.6 图数据库:Neo4j130
7.6.1 什么是图130
7.6.2 什么是图数据库130
7.6.3 Neo4j简介130
第8章 Spark生态系统132
8.1 Spark在大数据生态中的定位132
8.1.1 Spark简介132
8.1.2 Spark系统定位135
8.1.3 基本术语136
8.2 Spark主要模块介绍138
8.2.1 Spark Core138
8.2.2 Spark SQL146
8.2.3 Spark Streaming149
8.2.4 GraphX150
8.2.5 MLlib154
8.3 Spark部署模型介绍156
第9章 Spark SQL实战案例158
9.1 Spark SQL前世今生158
9.1.1 大数据背景158
9.1.2 Spark和Spark SQL的产生159
9.1.3 版本更迭159
9.2 RDD、DataFrame及Dataset160
9.2.1 Spark SQL基础161
9.2.2 Dataset、DataFrame、RDD的区别167
9.3 使用外部数据源168
9.3.1 读写文件168
9.3.2 .parquet文件169
9.3.3 ORC文件174
9.3.4 JSON Dataset174
9.4 连接Metastore174
9.4.1 Hive table174
9.4.2 和不同版本的Hive Metastore交互175
9.4.3 JDBC连接其他数据库176
9.5 自定义函数178
9.5.1 聚合函数——非标准化类型(UnTyped)UADF开发178
9.5.2 类型安全的自定义聚合函数——Type-safe的UDAF180
9.6 Spark SQL与Spark Thrift server183
9.6.1 分布式SQL引擎183
9.6.2 HiveServer2服务184
9.7 Spark SQL 优化185
9.7.1 内存缓存数据185
9.7.2 SQL查询中的Broadcast Hint186
9.7.3 持久化RDD,选择存储级别186
9.7.4 数据序列化选择188
9.7.5 内存管理189
9.7.6 其他考虑192
第10章 Spark Streaming195
10.1 Spark Streaming架构195
10.2 DStream的特点196
10.3 DStream的操作197
10.3.1 DStream的输入操作197
10.3.2 DStream的转换操作199
10.4 StatefulRDD和windowRDD实战201
10.4.1 StatelessRDD无状态转化操作201
10.4.2 StatefulRDD有状态转化操作206
10.5 Kafka+Spark Steaming实战212
10.5.1 搭建Kafka环境212
10.5.2 代码编写213
10.6 Spark Streaming的优化220
第11章 数据同步收集224
11.1 从关系数据库同步数据到HDFS224
11.1.1 Sqoop225
11.1.2 DataX226
11.2 Sqoop的使用228
11.2.1 安装228
11.2.2 MySQL环境驱动配置229
11.2.3 导入数据230
11.3 数据清洗234
第12章 任务调度系统设计239
12.1 初识任务调度239
12.2 几种相对成熟的Java调度系统选择242
12.2.1 Timer和TimerTask242
12.2.2 ScheduledThreadPoolExecutor244
12.2.3 Quartz245
12.2.4 jcrontab245
12.2.5 相对成熟的调度工具和开源产品246
12.3 Quartz的介绍250
12.3.1 Quartz的储备知识251
12.3.2 Quartz的基本使用251
12.3.3 Trigger的选择252
12.3.4 JobStore255
12.3.5 完整的例子257
12.4 开源工具XXL-Job258
12.4.1 搭建项目258
12.4.2 运行项目260
12.4.3 项目简单使用263
12.4.4 高级使用和使用建议267
第13章 调度系统选择274
13.1 常用调度系统及对比274
13.1.1 Oozie简介274
13.1.2 Azkaban简介275
13.1.3 Airflow简介276
13.1.4 调度系统对比277
13.2 Airflow基本架构设计278
13.2.1 设计原则278
13.2.2 Airflow的服务构成278
13.2.3 依赖关系的解决280
13.2.4 工作原理280
13.3 Airflow任务调度系统的安装配置及使用281
13.3.1 安装281
13.3.2 配置282
13.3.3 使用285
13.4 Airflow自定义DAG的使用286
第14章 数据安全管理292
14.1 HDFS层面的访问权限及安全模式292
14.1.1 HDFS权限管理292
14.1.2 HDFS安全模式293
14.1.3 ACL概念介绍294
14.2 保障敏感数据的安全性295
14.3 应用层面的安全性保障297
第15章 大数据面临的挑战、发展趋势及典型案例300
15.1 大数据面临的问题与挑战300
15.1.1 大数据潜在的危害300
15.1.2 开放与隐私如何平衡301
15.1.3 大数据人才的缺乏302
15.2 大数据发展趋势302
15.2.1 大数据与电子商务303
15.2.2 大数据与医疗303
15.2.3 大数据与人工智能304
15.2.4 工业大数据云平台304
15.3 典型大数据平台案例304
15.3.1 阿里云数加304
15.3.2 华为Fusion Insight大数据平台305
15.3.3 三一重工Witsight工业大数据平台307
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价