剑指大数据——Flink实时数据仓库项目实战（电商版）

本店经营正版图书两天左右发货如果有着急发货的请不要下单

55.08 5.1折 108 全新

库存16件

北京房山

认证卖家担保交易快速发货售后保障

作者尚硅谷教育

出版社电子工业出版社

出版时间2023-10

版次1

装帧其他

上书时间2024-12-18

北京新华书海图书城

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 29小时
好评率暂无

最新上架

大学物理学（下）大中专理科数理化李未,桂卫军,王锋新华正版 ¥12.16

体育与健康实践教程刘素军主编北京邮电大学出版社 9787563558278 ¥12.90

大学物理:下大中专理科数理化罗益民，吴烨主编新华正版 ¥10.81

大学物理（第4版）下 ¥18.62

计算机应用基础 ¥10.44

会计学原理（第3版） ¥21.28

MySQL数据库应用技术 ¥19.68

简明数据结构董黎刚[等]编著北京邮电大学出版社 9787563556762 ¥18.62

中文版 3ds Max三维效果表现实例教程 ¥24.70

商品详情

品相描述：全新

图书标准信息

作者尚硅谷教育
出版社电子工业出版社
出版时间 2023-10
版次 1
ISBN 9787121463990
定价 108.00元
装帧其他
开本 16开
页数 380页
字数 775千字

【内容简介】: 本书从需求规划、需求实现到可视化展示等，遵循项目开发的主要流程，全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中，介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等，并穿插了大数据和数据仓库相关的理论知识，包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用，为读者展示了Flink处理数据的多种可能性。本书最后还详细讲解了项目的性能调优技巧和实战案例，帮助读者掌握更多的实战经验。本书适合具有一定编程基础的读者学习或作为参考资料，通过本书，可以使你快速了解实时数据仓库，全面掌握实时数据仓库的相关技术。
【作者简介】: 尚硅谷教育是一家专业的IT教育培训机构，开设了JavaEE、大数据、HTML5前端等多门学科，在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。
【目录】: 目录

第1章  实时数据仓库概论1

1.1  什么是数据仓库1

1.2  走进实时数据仓库2

1.2.1  实时计算和离线计算2

1.2.2  实时数据仓库的构建目的3

1.2.3  实时技术发展4

1.2.4  实时数据仓库现状分析5

1.3  学前导读7

1.3.1  学习的基本要求7

1.3.2  你将学到什么7

1.4  本章总结8

第2章  需求分析与架构设计9

2.1  项目需求分析9

2.1.1  实时数据仓库项目产品描述9

2.1.2  项目流程图10

2.1.3  指标体系分析11

2.2  项目架构概述12

2.2.1  架构设计12

2.2.2  分层设计13

2.3  技术选型14

2.4  本章总结17

第3章  项目部署与框架搭建18

3.1  集群规划与服务器配置18

3.2  JDK与Hadoop安装18

3.2.1  虚拟机环境准备19

3.2.2  JDK安装22

3.2.3  Hadoop安装23

3.2.4  Hadoop分布式集群部署24

3.3  ZooKeeper与Kafka安装30

3.3.1  安装ZooKeeper30

3.3.2  Zookeeper集群启动、停止脚本32

3.3.3  安装Kafka33

3.3.4  Kafka集群启动、停止脚本34

3.3.5  Kafka Topic相关操作35

3.4  Flink的安装与部署36

3.4.1  YARN模式安装36

3.4.2  任务部署37

3.5  本章总结38

第4章  数据仓库建模理论39

4.1  数据仓库理论准备39

4.1.1  数据建模概述39

4.1.2  关系模型与范式理论40

4.1.3  维度模型43

4.1.4  维度建模理论之事实表44

4.1.5  维度建模理论之维度表46

4.2  数据仓库建模实践48

4.2.1  名词概念48

4.2.2  为什么要分层49

4.2.3  数据仓库构建流程50

4.3  本章总结54

第5章  构建ODS层之用户行为数据采集55

5.1  日志生成55

5.1.1  数据埋点55

5.1.2  目标数据56

5.1.3  数据模拟60

5.2  采集日志的Flume63

5.2.1  Flume组件63

5.2.2  Flume安装64

5.2.3  采集日志Flume配置64

5.2.4  Flume的拦截器65

5.2.5  采集日志Flume启动、停止脚本69

5.3  本章总结70

第6章  构建ODS层之业务数据采集71

6.1  电商业务概述71

6.1.1  电商业务流程71

6.1.2  电商常识72

6.1.3  电商表结构73

6.2  数据同步概述82

6.2.1  数据同步策略82

6.2.2  数据同步工具选择83

6.3  业务数据模拟83

6.3.1  MySQL安装83

6.3.2  数据模拟流程85

6.4  Maxwell数据采集87

6.4.1  MySQL中的binlog87

6.4.2  Maxwell工作原理89

6.4.3  业务数据采集93

6.4.4  首日全量同步95

6.5  本章总结97

第7章  构建DIM层98

7.1  开发环境准备98

7.1.1  IDEA开发环境准备98

7.1.2  HBase与Phoenix102

7.2  关键技术解读106

7.2.1  Flink CDC106

7.2.2  配置表设计110

7.3  DIM层代码编写112

7.3.1  接收Kafka数据过滤脏数据112

7.3.2  动态拆分维度表数据114

7.3.3  将流中的数据保存至Phoenix124

7.3.4  测试125

7.4  本章总结126

第8章  构建DWD层127

8.1  概述127

8.2  流量域五大事务事实表128

8.2.1  思路梳理128

8.2.2  代码编写132

8.3  交易域加购事务事实表139

8.3.1  思路梳理140

8.3.2  编写代码143

8.4  交易域下单事务事实表147

8.4.1  思路梳理147

8.4.2  代码编写151

8.5  交易域取消订单事务事实表155

8.5.1  思路梳理155

8.5.2  代码编写157

8.6  交易域支付成功事务事实表160

8.6.1  思路梳理160

8.6.2  代码编写162

8.7  交易域退单事务事实表165

8.7.1  思路梳理166

8.7.2  代码编写167

8.8  交易域退款成功事务事实表170

8.8.1  思路梳理170

8.8.2  代码编写171

8.9  事实表动态分流175

8.9.1  思路梳理175

8.9.2  代码编写177

8.10  本章总结186

第9章  构建DWS层187

9.1  概述187

9.2  环境准备190

9.2.1  安装Redis190

9.2.2  安装ClickHouse191

9.3  流量域关键词粒度页面浏览各窗口汇总表193

9.3.1  思路梳理193

9.3.2  代码编写196

9.4  流量域版本—渠道—地区—访客类别粒度页面浏览各窗口汇总表202

9.4.1  思路梳理202

9.4.2  代码编写203

9.5  流量域页面浏览各窗口汇总表209

9.5.1  思路梳理209

9.5.2  代码编写210

9.6  用户域用户登录各窗口汇总表215

9.6.1  思路梳理215

9.6.2  代码编写217

9.7  用户域用户注册各窗口汇总表222

9.7.1  思路梳理222

9.7.2  代码编写222

9.8  交易域加购各窗口汇总表226

9.8.1  思路梳理226

9.8.2  代码编写227

9.9  交易域支付各窗口汇总表231

9.9.1  思路梳理231

9.9.2  代码编写232

9.10  交易域下单各窗口汇总表237

9.10.1  思路梳理237

9.10.2  代码编写238

9.11  交易域SKU粒度下单各窗口汇总表243

9.11.1  思路梳理243

9.11.2  代码编写248

9.12  交易域省份粒度下单各窗口汇总表266

9.12.1  思路梳理266

9.12.2  代码编写267

9.13  交易域品牌—分类—用户粒度退单各窗口汇总表274

9.13.1  思路梳理274

9.13.2  代码编写275

9.14  本章总结282

第10章  数据可视化大屏283

10.1  需求分析283

10.2  Sugar BI介绍283

10.2.1  简介283

10.2.2  使用入门284

10.2.3  效果展示286

10.3  本章总结286

第11章  性能调优理论与实践287

11.1  项目环境概述287

11.1.1  集群环境287

11.1.2  任务提交测试288

11.2  YARN调优策略297

11.2.1  YARN内存调优297

11.2.2  YARN CPU调优297

11.3  Flink内存模型298

11.3.1  TaskManager内存模型298

11.3.2  JobManager内存模型301

11.4  并行度与slot302

11.4.1  Flink的并行度配置302

11.4.2  TaskManager slot个数配置304

11.5  状态调优304

11.5.1  Flink的状态编程概述305

11.5.2  检查点相关配置306

11.5.3  开启状态访问性能监控308

11.5.4  RocksDB状态后端的性能优化手段310

11.5.5  开启分区索引和过滤器功能311

11.5.6  调整预定义选项312

11.5.7  手动调整参数312

11.6  反压313

11.6.1  反压概述313

11.6.2  如何定位反压314

11.6.3  反压的原因及解决办法317

11.7  数据倾斜320

11.7.1  判断数据倾斜320

11.7.2  解决数据倾斜321

11.8  Job优化325

11.8.1  为算子指定UUID325

11.8.2  链路延迟监控326

11.8.3  开启对象重用327

11.8.4  细粒度滑动窗口优化328

11.8.5  提前计算滚动窗口329

11.9  Flink SQL优化329

11.9.1  设置空闲状态保留时间329

11.9.2  开启MiniBatch功能329

11.9.3  开启LocalGlobal优化330

11.9.4  开启Split Distinct优化331

11.9.5  使用FILTER语法332

11.10  Flink对接Kafka优化333

11.10.1  Flink并行度与Kafka主题分区数333

11.10.2  指定Watermark空闲等待334

11.10.3  动态发现Kafka分区334

11.11  DIM层调优实操335

11.11.1  YARN资源配置分析335

11.11.2  Flink内存分配分析336

11.11.3  并行度与slot个数配置分析337

11.11.4  状态相关配置分析337

11.11.5  DIM层任务初次提交测试338

11.11.6  反压情况分析344

11.11.7  数据倾斜情况分析348

11.11.8  与Kakfa对接的相关优化措施351

11.11.9  任务重启352

11.11.10  最终提交命令355

11.12  DWD层调优实操356

11.12.1  DWD层任务初次提交测试356

11.12.2  反压情况分析359

11.12.3  数据倾斜情况分析364

11.12.4  最终提交命令367

11.13  本章总结369

点击展开点击收起

— 没有更多了 —