Flink大数据分析实战
全新正版 极速发货
¥
55.33
6.2折
¥
89
全新
库存11件
作者张伟洋
出版社清华大学出版社
ISBN9787302598183
出版时间2022-02
装帧平装
开本16开
定价89元
货号1202593281
上书时间2024-06-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
张伟洋,大数据领域资深专家,拥有多年互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。先后多次为中国海洋大学、曲阜师范大学、青岛理工大学等高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop大数据技术开发实战》《Spark大数据分析实战》等图书,公众号“奋斗在IT”的创办人。
目录
第1章 初识Flink1
1.1 大数据开发总体架构1
1.2 什么是Flink3
1.3 Flink的应用场景5
1.4 流计算框架对比6
1.5 Flink的主要组件8
1.6 Flink编程模型9
1.6.1 数据集9
1.6.2 编程接口11
1.6.3 程序结构12
1.7 快速体验Flink程序13
1.7.1 IntelliJ IDEA安装Scala插件13
1.7.2 IntelliJ IDEA创建Flink项目15
1.7.3 示例:批处理单词计数17
1.7.4 示例:流处理单词计数20
第2章 Flink运行架构及原理23
2.1 Flink运行时架构23
2.1.1 YARN集群架构23
2.1.2 Flink Standalone架构27
2.1.3 Flink On YARN的架构29
2.2 Flink任务调度原理30
2.2.1 任务链30
2.2.2 并行度31
2.2.3 共享Task Slot32
2.2.4 数据流33
2.2.5 执行图34
2.2.6 执行计划35
2.3 Flink数据分区38
2.3.1 分区数量38
2.3.2 分区策略39
第3章 Flink安装及部署41
3.1 Flink集群搭建41
3.1.1 Flink本地模式搭建42
3.1.2 Flink Standalone搭建44
3.1.3 Flink On YARN搭建46
3.2 Flink HA模式54
3.2.1 Flink Standalone模式的HA
架构55
3.2.2 Flink Standalone模式HA集群
搭建56
3.2.3 Flink On YARN模式HA集群
搭建60
3.3 Flink命令行界面61
3.4 Flink应用提交65
3.5 Flink Shell的使用67
第4章 Flink DataStream API72
4.1 基本概念72
4.2 执行模式73
4.3 作业流程76
4.4 程序结构77
4.5 Source数据源79
4.5.1 基本数据源79
4.5.2 高级数据源81
4.5.3 自定义数据源81
4.6 Transformation数据转换85
4.7 Sink数据输出97
4.8 数据类型与序列化98
4.9 分区策略100
4.9.1 内置分区策略101
4.9.2 自定义分区策略114
4.10 窗口计算117
4.10.1 事件时间117
4.10.2 窗口分类118
4.10.3 窗口函数124
4.10.4 触发器133
4.10.5 清除器134
4.11 水印137
4.11.1 计算规则138
4.11.2 允许延迟与侧道输出140
4.11.3 生成策略142
4.12 状态管理147
4.12.1 Keyed State149
4.12.2 Operator State152
4.13 容错机制156
4.13.1 Checkpoint156
4.13.2 Barrier162
4.13.3 重启与故障恢复策略165
4.13.4 Savepoint167
4.14 案例分析:计算5秒内输入的单词
数量168
4.15 案例分析:统计5分钟内每个用户
产生的日志数量170
4.16 案例分析:统计24小时内每个用户的
订单平均消费额173
4.17 案例分析:计算5秒内每个信号灯
通过的汽车数量177
4.18 案例分析:Flink整合Kafka计算
实时单词数量183
4.19 案例分析:天猫双十一实时交易额
统计188
4.19.1 创建自定义数据源188
4.19.2 计算各个分类的订单总额189
4.19.3 计算全网销售总额与
分类Top3192
第5章 Flink Table API&SQL196
5.1 基本概念196
5.1.1 计划器197
5.1.2 API架构197
5.1.3 程序结构199
5.2 动态表200
5.2.1 流映射为动态表201
5.2.2 连续查询201
5.2.3 动态表转换为流203
5.3 TableEnvironment API205
5.3.1 基本概念205
5.3.2 创建TableEnvironment205
5.3.3 示例:简单订单统计206
5.4 Table API210
5.4.1 基本概念210
5.4.2 示例:订单分组计数211
5.4.3 示例:每小时订单分组求
平均值213
5.4.4 关系操作214
5.5 SQL API217
5.5.1 DDL操作218
5.5.2 DML操作221
5.5.3 DQL操作222
5.5.4 窗口函数223
5.5.5 窗口聚合230
5.5.6 分组聚合233
5.5.7 OVER聚合235
5.5.8 连接查询237
5.6 TopN查询240
5.6.1 OVER子句240
5.6.2 示例:计算产品类别销
售额TopN242
5.6.3 示例:搜索词热度统计243
5.6.4 窗口TopN246
5.7 Catalog元数据管理248
5.8 Flink SQL整合Kafka250
5.8.1 基本概念250
5.8.2 示例:Flink SQL整合Kafka实现
实时ETL253
5.9 Flink SQL CLI258
5.9.1 启动SQL CLI259
5.9.2 执行SQL查询260
5.9.3 可视化结果模式262
5.10 Flink SQL整合Hive263
5.10.1 整合步骤264
5.10.2 Table API操作Hive272
5.10.3 示例:Flink SQL整合Hive分析
搜狗用户搜索日志274
5.11 案例分析:Flink SQL实时单词
计数279
5.12 案例分析:Flink SQL实时计算
5秒内用户订单总金额283
5.13 案例分析:微博用户行为分析288
5.13.1 离线与实时计算业务架构288
5.13.2 Flume数据采集架构291
5.13.3 Kafka消息队列架构293
5.14 案例分析:Flink SQL智慧交通数据
分析294
5.14.1 项目介绍294
5.14.2 数据准备295
5.14.3 统计正常卡口数量297
5.14.4 统计车流量排名前3的
卡口号299
5.14.5 统计每个卡口通过速度最快的
前3辆车300
5.14.6 车辆轨迹分析302
第6章 Flink内核源码304
6.1 流图304
6.1.1 StreamGraph核心对象305
6.1.2 StreamGraph生成过程308
6.2 作业图310
6.2.1 JobGraph的核心对象312
6.2.2 JobGraph的生成过程312
6.3 执行图319
6.3.1 ExecutionGraph的核心对象319
6.3.2 ExecutionGraph的生成过程320
第7章 Gelly图计算324
7.1 什么是Gelly324
7.2 第一个Gelly程序325
7.3 Gelly数据结构328
7.4 如何使用Gelly329
7.5 图操作330
7.5.1 基本操作330
7.5.2 属性操作332
7.5.3 结构操作335
7.5.4 连接操作335
7.6 图常用API337
7.6.1 创建图337
7.6.2 图的转换339
7.6.3 图的添加与移除342
7.6.4 图的邻域方法343
7.7 案例分析:Gelly计算社交网络中
粉丝的平均年龄346
内容摘要
\\\"本书由资深大数据专家精心编写,循序渐进地介绍了Flink生态系统主流的大数据开发技术。全书共7章,第1章讲解Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,最后通过一个单词计数示例带领读者快速体验Flink应用程序的编写;第2、3章讲解Flink的多种运行时架构、任务调度原理、数据分区以及Flink集群的安装部署,同时包括Flink命令行操作、应用程序提交、常用Shell命令等;第4~7章讲解了Flink流式计算DataStreamAPI、关系型计算Table&SQLAPI以及图计算框架Gelly等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。
本书内容翔实,实例丰富,适合Flink新手、大数据开发人员阅读,也可作为培训机构和大专院校相关专业的教学用书。
\\\"
主编推荐
"Flink的基础知识,包括Flink应用场景、主要组件、编程模型等,通过单词计数示例带领读者快速体验Flink应用程序的编写。
Flink的多种运行时架构、任务调度原理、数据分区、Flink集群的安装部署,以及Flink命令行操作、应用程序提交、常用Shell命令等。
Flink流式计算DataStream API、关系型计算Table&SQL API、图计算框架Gelly等的基础知识和架构原理,以及API操作、内核源码剖析。
通过丰富的实际案例讲解了各个框架的具体应用以及与Hadoop生态系统框架Hive、Kafka的整合操作。"
— 没有更多了 —
以下为对购买帮助不大的评价