Spark:大数据集群计算的生产实践
书籍均为精品二手图书品相85品以上,出库会经过高温消毒,书籍上架都会检测可保证正版!!
¥
10.7
1.6折
¥
65
九品
库存2件
作者李刚
出版社"电子工业出版社
ISBN9787121313646
出版时间2017
装帧平装
开本16开
纸张胶版纸
定价65元
货号991287311637413890
上书时间2024-09-15
商品详情
- 品相描述:九品
-
本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
- 商品描述
-
以下信息以网上匹配仅供参考,不支持以此为由退款
内容简介:
本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1 ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。
目录:
第1 章 成功运行Spark job / 1
安装所需组件 / 2
原生安装Spark Standalone 集群 /3
分布式计算的发展史/ 3
步入云时代 /5
理解资源管理/6
使用各种类型的存储格式 /9
文本文件/11
Sequence 文件/13
Avro 文件/ 13
Parquet 文件 /13
监控和度量的意义/ 14
Spark UI/ 14
Spark Standalone UI/ 17
Metrics REST API / 17
Metrics System / 18
外部监控工具 / 18
总结 /19
第2 章 集群管理 /21
背景知识/ 23
Spark 组件 / 26
Driver / 27
workers 与executors /28
配置 / 30
Spark Standalone/33
架构 / 34
单节点设置场景 / 34
多节点设置 / 36
YARN / 36
架构 / 38
动态资源分配 /41
场景 /43
Mesos/ 45
安装/46
架构 / 47
动态资源分配/ 49
基本安装场景 / 50
比较 / 52
总结 /56
第3 章 性能调优 /59
Spark 执行模型/ 60
分区 /62
控制并行度/62
分区器/64
shuffle 数据 /65
shuffle 与数据分区 / 67
算子与shuffle / 70
shuffle 并不总是坏事 /75
序列化 / 75
Kryo 注册器 / 77
Spark 缓存 / 77
SparkSQL 缓存 / 81
内存管理 /82
垃圾回收 / 83
共享变量 / 84
广播变量 / 85
累加器 /87
数据局部性 / 90
总结 / 91
第4 章 安全/ 93
架构/ 94
Security Manager/ 94
设定配置 / 95
ACL / 97
配置 / 97
提交job / 98
Web UI/ 99
网络安全 / 107
加密/ 108
事件日志 /113
Kerberos/114
Apache Sentry./114
总结 /115
第5 章 容错或job 执行/ 117
Spark job 的生命周期 /118
Spark master /119
Spark driver/ 122
Spark worker /124
job 生命周期 /124
job 调度 /125
应用程序内部调度 / 125
用外部工具进行调度 / 133
容错 /135
内部容错与外部容错 / 136
SLA/ 137
RDD / 138
Batch vs Streaming / 145
测试策略 / 148
推荐配置/ 155
总结 / 158
第6 章 超越Spark /159
数据仓库 /159
SparkSQL CLI/161
Thrift JDBC/ODBC 服务器 / 162
Hive on Spark/ 162
机器学习 / 164
DataFrame / 165
MLlib 和ML / 167
Mahout on Spark / 174
Hivemall On Spark/ 175
外部的框架 / 176
Spark Package / 177
XGBoost/ 179
spark-jobserver / 179
未来的工作 /182
与参数服务器集成 / 184
深度学习 / 192
Spark 在企业中的应用 / 200
用Spark 及Kafka 收集用户活动日志 / 200
用Spark 做实时推荐/ 202
Twitter Bots 的实时分类 / 204
总结 / 205
— 没有更多了 —
本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
以下为对购买帮助不大的评价