大数据平台架构与原型实现(数据中台建设实战)
正版保障 假一赔十 电子发票
¥
56.23
5.2折
¥
108
全新
库存2件
作者耿立超|责编:董英
出版社电子工业
ISBN9787121390449
出版时间2020-07
装帧其他
开本其他
定价108元
货号30910659
上书时间2024-11-17
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1章 企业与数据1
1.1 数据的价值3
1.2 企业的数据应用能力6
1.3 企业的数据技术成熟度12
1.4 数据团队建设14
1.4.1 大数据人才类型14
1.4.2 数据团队的组织与管理20
1.5 建设数据文化25
第2章 聚焦中台27
2.1 中台简介27
2.2 企业信息系统现状28
2.2.1 点对点式的系统集成29
2.2.2 重复建设30
2.2.3 阻碍业务沉淀与发展31
2.3 烟囱架构案例:会员管理31
2.4 曾经的“救赎”——SOA38
2.5 中台详解41
2.5.1 中台架构42
2.5.2 中台的技术体系46
2.5.3 中台的组织架构48
2.5.4 中台不是“银弹”51
2.6 数据中台52
2.6.1 企业数据资产的现状53
2.6.2 数据中台具备的能力54
2.6.3 数据中台建设策略56
第3章 基础设施60
3.1 集群规划61
3.1.1 集群规模与节点配置61
3.1.2 节点角色分配63
3.2 创建实例与组网65
3.2.1 登录云控制台65
3.2.2 创建专有网络67
3.2.3 创建安全组67
3.2.4 创建实例72
3.2.5 申请弹性公网IP地址78
3.3 安装集群79
3.3.1 软件清单79
3.3.2 环境预配置80
3.3.3 安装Redis86
3.3.4 安装Galera(MySQL集群)87
3.3.5 搭建本地CDH Repository100
3.3.6 安装Cloudera Manager Server103
3.3.7 安装CDH110
3.3.8 高可用配置114
3.3.9 安装Spark 2117
3.3.10 启用Spark SQL118
3.4 安装单节点集群121
第4章 架构与原型122
4.1 大数据平台架构设计123
4.2 原型项目业务背景127
4.3 原型项目架构方案132
4.4 原型项目工程结构139
4.5 部署原型项目142
4.5.1 配置服务器142
4.5.2 构建与部署151
4.5.3 最小化增量部署165
第5章 数据采集167
5.1 技术堆栈与选型168
5.2 需求与概要设计171
5.3 原型项目设计173
5.4 生成dummy数据174
5.5 基于Sqoop的批量导入177
5.5.1 项目原型177
5.5.2 使用Sqoop180
5.5.3 增量导入与全量导入184
5.6 基于Camel的实时采集185
5.6.1 项目原型186
5.6.2 基本的数据采集188
5.6.3 应对采集作业超时193
5.6.4 应对数据延迟就绪197
第6章 主数据管理202
6.1 主数管理据系统的建设策略202
6.2 原型设计204
6.3 项目构建与运行205
6.4 使用主数据209
6.5 围绕主数据进行领域建模209
6.6 主数据在内存数据库中的组织粒度219
第7章 实时计算221
7.1 ETL已死,流计算永存221
7.2 技术堆栈与选型223
7.2.1 Storm223
7.2.2 Spark Streaming225
7.2.3 Flink235
7.2.4 Kafka Stream237
7.2.5 关于选型的考量238
7.3 实时计算需求分析239
7.4 原型项目介绍与构建241
7.5 流计算工程结构243
7.6 集成Kafka245
7.7 集成HBase246
7.8 基于时间窗口的聚合运算252
7.9 自定义状态的流255
7.10 自定义状态的设计260
7.11 Structured Streaming性能相关的参数263
第8章 批处理与数据仓库266
8.1 大数据与数据仓库266
8.2 数据仓库的基本理论267
8.2.1 维度和度量268
8.2.2 事实表和维度表268
8.2.3 维度的基数269
8.2.4 Cube和Cuboid269
8.2.5 星型模型与雪花模型269
8.3 批处理需求分析271
8.4 数据仓库架构272
8.5 原型项目介绍与构建277
8.6 数据仓库工程结构283
8.7 临时数据层的设计与构建285
8.8 源数据层的设计与构建286
8.8.1 数据模型287
8.8.2 建表并处理数据288
8.8.3 SQL黏合与作业提交293
8.8.4 增量导入与全量导入298
8.8.5 源数据层的表分区300
8.8.6 SRC层数据归档300
8.9 明细数据层的设计与构建301
8.9.1 数据模型301
8.9.2 建表并处理数据302
8.9.3 合并增量数据305
8.9.4 SQL参数替换307
8.10 汇总数据层的设计与构建309
8.10.1 数据模型309
8.10.2 建表并处理数据312
8.10.3 构建维度模型314
8.10.4 缓慢变化维度318
8.10.5 2型SCD表320
8.10.6 生成代理主键328
8.10.7 运行示例329
8.11 实现UDF332
第9章 数据存储335
9.1 批处理的数据存储335
9.2 NoSQL数据库概览341
9.3 HBase与Cassandra343
9.4 HBase的Rowkey设计349
9.4.1 “热点”问题与应对策略349
9.4.2 定长处理352
9.4.3 最佳实践352
9.5 探索HBase二级索引356
第10章 作业调度364
10.1 技术堆栈与选型364
10.2 需求与概要设计365
10.3 工作流的组织策略366
10.4 工程结构370
10.5 项目构建372
10.6 实现工作流375
10.7 实现coordinator381
10.8 部署与提交工作流385
10.9 作业依赖管理389
10.9.1 Oozie的作业依赖管理391
10.9.2 原型项目中的作业依赖394
内容摘要
目前,在基于大数据技术的数据中台建设过程中,由于缺乏完备的架构参考和类似于“脚手架”的原型项目,很多IT团队会在工程技术层面上感到无从下手。开发人员迫切地需要设计良好的架构参考和简单易用的原型项目帮助他们快速启动自己的数据中台建设,本书就是为这一目标而写作的。本书以大数据平台的架构设计为主题,围绕一个2万行源代码的原型项目讲解和演示如何在工程技术层面构建当下流行的数据中台。全书涵盖建设一个企业数据平台所需的各个重要环节,包括基础设施建设、数据采集、主数据管理、实时计算、批处理与数据仓库、数据存储及作业调度,每个环节独立成章,每一章介绍对应主题的架构方案和技术选型,然后结合原型项目讲解具体的实现细节。如果你是一位架构师,本书可以帮助你提升对大数据平台的整体把控力;如果你是中高级开发人员,建议你选择自己感兴趣的章节深入学习原型项目的代码;如果你是企业的CIO或数据团队的负责人,本书的第1、2、4章对于你定制企业数据中台战略、规划数据平台蓝图及组建数据团队都有重要的参考价值。
— 没有更多了 —
以下为对购买帮助不大的评价