Spark性能优化实战
正版好书 两天左右发货 着急要货的请不要下单
¥
42.91
4.3折
¥
99.8
全新
库存7件
作者谢雪葵
出版社清华大学出版社
出版时间2023-11
版次1
装帧其他
上书时间2024-11-13
商品详情
- 品相描述:全新
图书标准信息
-
作者
谢雪葵
-
出版社
清华大学出版社
-
出版时间
2023-11
-
版次
1
-
ISBN
9787302647706
-
定价
99.80元
-
装帧
其他
-
开本
16开
-
页数
368页
-
字数
580千字
- 【内容简介】
-
park能优化实战:突破能瓶颈,遨游数据重洋全面、系统、深入地介绍apache park能优化的相关技术和策略,涵盖从park能优化的基础知识到核心技术,再到应用实践的方方面面。本书不但系统地介绍各种监控工具的使用,而且还结合实战案例,详细介绍park能优化的各种经验和,提升读者的实际应用技能。
park能优化实战:突破能瓶颈,遨游数据重洋共8章。章从能优化的基本概念出发,介绍park的基础知识,并介绍如何进行能优化;第2章介绍park能优化的几个方面,包括程序设计优化、资源优化、网络通信优化和数据读写优化等;第3章深入介绍park任务执行过程优化;第4章介绍park ql能优化;第5章结合实战案例全面解析park能优化的核心技术与应用;第6章详细介绍不同应用场景的能优化策略;第7章介绍park集成hadoop、kafka和elaticearch使用时的能优化,从而提供更实用的park能提升方案;第8章介绍park应用程序开发与优化,以及集群管理实践。
park能优化实战:突破能瓶颈,遨游数据重洋内容丰富,讲解深入浅出,适合apache park开发人员、数据工程师和数据科学家阅读,也适合需要处理大规模数据集和对park能优化感兴趣的技术人员阅读,还可作为高等院校大数据专业的教材和相关培训机构的用书。
- 【作者简介】
-
谢雪葵: 研发工程师,ccf会员,阿诚网络创始人。有多年的软件设计和开发经验,专注于大数据技术与服务。来主持和参与多个大型银行和互联网公司的大数据项目,累积了丰富的大数据项目开发及能优化经验。为多家企业提供技术支持,帮助其降低成本和提高效率。
- 【目录】
-
章 能优化基础 1
1.1 spark简介 1
1.2 什么是spark能优化 1
1.3 spark应用程序能指标 2
1.4 自带的spark web ui 5
1.4.1 jobs模块 6
1.4.2 stages模块 12
1.4.3 storage模块 16
1.4.4 environment模块 17
1.4.5 executors模块 18
1.4.6 sql模块 19
1.5 自带的spark历史服务器 21
1.5.1 spark历史服务器简介 21
1.5.2 配置、启动和访问spark历史服务器 22
1.6 spark事件志 23
1.6.1 spark的常见事件 23
1.6.2 事件信息 24
1.6.3 spark启动事件分析案例 24
1.6.4 spark事件志的用途 25
1.6.5 cpu密集型与内存密集型分析案例 26
1.7 spark驱动程序志 27
1.8 spark executor志 28
1.8.1 spark executor志简介 28
1.8.2 志解析 28
1.8.3 配置executor打印志到driver节点 29
1.8.4 使用executor完成时间异常分析案例 30
1.9 linux系统监控工具 31
1.9.1 top命令 31
1.9.2 htop命令 32
1.9.3 iostat命令 32
1.9.4 vmstat命令 34
1.9.5 sar命令 35
1.9.6 spark进程的cpu和内存监控案例 35
1.10 jvm监控工具 36
1.10.1 jconsole监控工具 37
1.10.2 jvisualvm监控工具 38
1.10.3 使用jvisualvm定位内存泄漏案例 41
1.11 第三方工具prometheus 42
1.11.1 prometheus简介 42
1.11.2 prometheus架构的工作 42
1.11.3 安装prometheus 43
1.11.4 使用prometheus web ui 46
1.11.5 基于promql磁盘的多维度分析案例 47
1.12 第三方工具grafana 48
1.12.1 grafana简介 48
1.12.2 安装grafana 48
1.12.3 数据源和仪表盘 49
1.12.4 在grafana中创建查询和可视化 52
1.12.5 监控分析spark指标案例 55
1.13 spark能测试与验证 56
1.13.1 能测试之基准测试 56
1.13.2 能测试之压力测试 57
1.13.3 能测试之资源测试 59
1.13.4 能测试之基准优化测试 61
1.13.5 获取测试数据 62
1.13.6 使用spark mllib生成电商测试数据案例 64
1.13.7 能测试工具sparkperf 65
1.13.8 能测试工具hibench 68
1.13.9 scalacheck检查属案例 70
1.13.10 准确验证之单元测试 71
1.13.11 准确验证之集成测试 73
1.13.12 准确验证之作业验证 75
1.14 spark执行计划 77
1.14.1 spark执行计划简介 77
1.14.2 spark执行计划的生成过程 78
1.14.3 执行计划中的逻辑计划 80
1.14.4 执行计划中的物理计划 84
1.14.5 spark钨丝计划tungsten 89
1.14.6 spark阶段划分和任务划分 90
1.14.7 spark执行计划的优化和调试 91
1.14.8 spark执行计划的可视化 92
1.14.9 shuffle能瓶颈识别案例 93
1.15 spark任务能瓶颈的定位 94
1.15.1 能瓶颈的定义和识别能瓶颈的意义 95
1.15.2 数据倾斜引发的能问题 96
1.15.3 数据本地问题 98
1.15.4 网络瓶颈问题 100
1.15.5 内存管理问题 102
1.15.6 垃圾回收问题 104
1.15.7 spark长时任务能瓶颈定位案例 105
第2章 spark应用程序能优化 107
2.1 程序设计优化 107
2.1.1 数据模型策略优化 107
2.1.2 缓存策略优化 108
2.1.3 广播变量策略优化 109
2.1.4 累加器策略优化 111
2.1.5 函数式编程策略优化 113
2.1.6 全局变量策略优化 115
2.1.7 程序设计优化综合案例 116
2.2 资源优化 118
2.2.1 spark资源管理的重要 118
2.2.2 spark内存管理的优化 119
2.2.3 spark中的cpu优化 123
2.2.4 spark磁盘管理的优化 125
2.2.5 spark shuffle分配的优化 125
2.2.6 spark并行度与资源分配的衡 127
2.2.7 spark分区策略优化 129
2.2.8 spark内存溢出的应对策略 130
2.2.9 spark shuffle分配优化案例 131
2.3 网络通信优化 133
2.3.1 网络通信架构和组件 133
2.3.2 网络通信协议和数据传输方式 134
2.3.3 数据压缩策略 135
2.3.4 序列化策略 137
2.3.5 网络缓存策略 139
2.3.6 i/o优化策略 140
2.3.7 带宽和网络拥塞控制 141
2.3.8 数据本地优化策略 142
2.3.9 网络安全和认证优化 143
2.3.10 进程本地化优化案例 144
2.4 数据读写优化 147
2.4.1 数据读取的优化 147
2.4.2 数据写入的优化 147
2.4.3 过滤数据的读取优化 148
2.4.4 分区读取数据的优化 149
2.4.5 批量写入数据的优化 150
2.4.6 并行写入数据的优化 152
2.4.7 列存储数据的读取优化 153
2.4.8 数据预处理优化 154
2.4.9 数据存储位置优化 154
2.4.10 内存和磁盘数据缓存优化 155
2.4.11 数据格式优化 156
2.4.12 转换方式优化 157
2.4.13 索引数据读取优化 159
2.4.14 数据读写错误的处理和容错 160
2.4.15 alluo的使用 162
2.4.16 利用压缩数据减少传输量案例 166
第3章 spark任务执行过程优化 169
3.1 调度优化 169
3.1.1 资源管理器的基本 169
3.1.2 理解spark资源管理器 171
3.1.3 资源分配策略 174
3.1.4 资源调度算法 176
3.1.5 集群资源池化技术 180
3.1.6 docker容器 182
3.1.7 基于yarn的资源管理 184
3.1.8 基于mesos的资源管理 188
3.1.9 基于kuberes的资源管理 190
3.1.10 spark资源利用率和能优化案例 204
3.2 任务执行器优化 206
3.2.1 spark任务执行器组件简介 206
3.2.2 spark任务执行器的线程池配置优化 210
3.2.3 spark任务执行器的jvm参数配置优化 211
3.2.4 spark任务执行器的堆内存配置优化 213
3.2.5 spark任务执行器的直接内存配置优化 215
3.2.6 spark任务执行器的内存分配方式优化 216
3.2.7 spark任务执行器的gc策略配置优化 218
3.2.8 spark任务执行器的资源隔离配置优化 219
3.2.9 spark任务执行器的容错机制优化 220
3.2.10 spark任务线程池的并行度提升和吞吐量增强案例 221
第4章 spark sql能优化 223
4.1 常用的查询优化 223
4.1.1 谓词下推 223
4.1.2 窄依赖 224
4.1.3 聚合查询优化 224
4.1.4 join查询优化 226
4.1.5 子查询优化 227
4.1.6 联合查询优化 228
4.1.7 窗函数优化 229
4.1.8 排序查询优化 232
4.1.9 内置函数优化 232
4.1.10 union连接优化 233
4.1.11 表设计优化 233
4.1.12 使用窗函数实现高效的分组统计案例 234
4.2 spark 3.0的新特 236
4.2.1 aqe的自动分区合并 236
4.2.2 aqe的自动倾斜处理 238
4.2.3 aqe的join策略调整 239
4.2.4 dpp动态分区剪裁 240
4.2.5 join hints的使用 241
4.2.6 使用join hints解决数据倾斜案例 244
4.3 spark sql数据倾斜优化 245
4.3.1 广播变量 245
4.3.2 采样 246
4.3.3 手动指定shuffle分区数 248
4.3.4 前缀和哈希 249
4.3.5 使用map join方法 251
4.3.6 预先聚合 253
4.3.7 排序 255
4.3.8 动态重分区 257
4.3.9 手动实现动态重分区案例 258
4.4 特定场景优化 259
4.4.1 大表连接小表 259
4.4.2 大表连接大表 262
4.4.3 窗函数优化 265
4.4.4 复杂逻辑和函数调用优化 268
4.4.5 多表关联查询优化 270
4.4.6 宽表查询优化 272
4.4.7 使用两阶段shuffle解决倾斜大表关联案例 272
第5章 spark能优化案例分析 281
5.1 基于spark的短系统能优化 281
5.1.1 短系统概述 281
5.1.2 将spark作为短系统的计算框架 285
5.1.3 客户端push业务 287
5.1.4 model_server大宽表 288
5.1.5 请求表etl的优化 289
5.1.6 model_server大宽表的优化 294
5.1.7 案例结 296
5.2 基于spark的航空数据分析系统能优化 297
5.2.1 系统概述 297
5.2.2 能评估与瓶颈分析 299
5.2.3 数据分区与存储优化 300
5.2.4 任务调度与资源管理 301
5.2.5 数据预处理与转换优化 302
5.2.6 查询优化与能优化 304
5.2.7 并行计算与调度优化 305
5.2.8 监控与优化策略 306
第6章 不同场景的spark能优化 309
6.1 批处理模式的优化策略 309
6.1.1 数据倾斜优化之预聚合 309
6.1.2 数据倾斜优化之键值对重分区 313
6.1.3 数据倾斜优化之调整分区数量 314
6.1.4 数据倾斜优化之广播变量 316
6.1.5 数据倾斜优化之动态调整分区大小 317
6.1.6 数据倾斜优化之使用map join方法 318
6.1.7 数据倾斜优化之前缀和扩容rdd 319
6.1.8 数据倾斜优化之采样倾斜key 320
6.1.9 数据倾斜优化之过滤特定数据 322
6.1.10 数据倾斜优化之组合策略 323
6.1.11 基于内存的shuffle作优化 324
6.1.12 基于sort的shuffle作优化 325
6.1.13 基于压缩和序列化的shuffle作优化 326
6.1.14 基于增量式的shuffle作优化 326
6.2 流式处理场景的优化策略 327
6.2.1 批处理间隔优化 327
6.2.2 管理优化 328
6.2.3 窗作优化 329
6.3 机器学场景的优化策略 330
6.3.1 模型训练优化 330
6.3.2 特征工程优化 331
第7章 spark集成其他技术的能优化 333
7.1 spark与hadoop整合优化 333
7.1.1 数据读写优化 333
7.1.2 数据存储优化 334
7.2 spark与kafka整合优化 336
7.2.1 数据读写优化 336
7.2.2 数据处理优化 337
7.3 spark与elasticsearch的整合优化 339
7.3.1 数据写入和索引优化 340
7.3.2 数据查询和能优化 341
第8章 spark能优化实践 344
8.1 spark应用程序开发建议 344
8.1.1 代码规范 344
8.1.2 数据分析 346
8.1.3 数据处理 348
8.2 spark应用程序优化建议 349
8.2.1 数据压缩 349
8.2.2 合理使用缓存 350
8.2.3 shuffle作 351
8.3 spark集群管理的优化建议 352
8.3.1 资源管理 352
8.3.2 任务调度 353
8.3.3 故障处理 354
结束语 356
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价