spark 网络技术 作者
spark核心贡献者用真实案例讲述如何开发及维护生产级应用
¥
37.95
5.8折
¥
65
全新
仅1件
作者作者
出版社电子工业出版社
ISBN9787121313646
出版时间2017-05
版次1
装帧其他
开本16
页数220页
字数226.5千字
定价65元
货号xhwx_1201515209
上书时间2024-11-12
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
主编:
本书涵盖了开发及维护生产级park应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家,带着你一步步从概念验证或park应用的demo版迁移到生产环境,用真实案例分析常见问题、、挑战和机会。调优park应用管理资源、组织存储、做好监控了解在生产环境中使用park时有哪些潜在的问题知晓park用在何处很能发挥作用预估集群的规模,搞清楚硬件需求通过内存管理、分区、huffle等技术提升能用kerbero保证数据的安全解决park treaming在生产环境中的问题将park与yarn、meo、tachyon等集成
目录:
章 成功运行spark job / 1
安装所需组件 / 2
原生安装spark standalone 集群 /3
分布式计算的发展史/ 3
步入云时代 /5
理解资源管理/6
使用各种类型的存储格式 /9
文本文件/11
sequence 文件/13
avro 文件/ 13
parquet 文件 /13
监控和度量的意义/ 14
spark ui/ 14
spark standalone ui/ 17
metrics rest api / 17
metrics system / 18
外部监控工具 / 18
结 /19
第2 章 集群管理 /21
背景知识/ 23
spark 组件 / 26
driver / 27
workers 与executors /28
配置 / 30
spark standalone/33
架构 / 34
单节点设置场景 / 34
多节点设置 / 36
yarn / 36
架构 / 38
动态资源分配 /41
场景 /43
mesos/ 45
安装/46
架构 / 47
动态资源分配/ 49
基本安装场景 / 50
比较 / 52
结 /56
第3 章 能调优 /59
spark 执行模型/ 60
分区 /62
控制并行度/62
分区器/64
shuffle 数据 /65
shuffle 与数据分区 / 67
算子与shuffle / 70
shuffle 并不是坏事 /75
序列化 / 75
kryo 注册器 / 77
spark 缓存 / 77
sparksql 缓存 / 81
内存管理 /82
垃圾回收 / 83
共享变量 / 84
广播变量 / 85
累加器 /87
数据局部 / 90
结 / 91
第4 章 安全/ 93
架构/ 94
security manager/ 94
设定配置 / 95
acl / 97
配置 / 97
提交job / 98
web ui/ 99
网络安全 / 107
加密/ 108
事件志 /113
kerberos/114
apache sentry./114
结 /115
第5 章 容错或job 执行/ 117
spark job 的生命周期 /118
spark master /119
spark driver/ 122
spark worker /124
job 生命周期 /124
job 调度 /125
应用程序调度 / 125
用外部工具进行调度 / 133
容错 /135
容错与外部容错 / 136
sla/ 137
rdd / 138
batch vs streaming / 145
测试策略 / 148
配置/ 155
结 / 158
第6 章 spark /159
数据仓库 /159
sparksql cli/161
thrift bc/odbc 服务器 / 162
hive on spark/ 162
机器学 / 164
dataframe / 165
mllib 和ml / 167
mahout on spark / 174
hivemall on spark/ 175
外部的框架 / 176
spark package / 177
xgboost/ 179
spark-jobserver / 179
未来的工作 /182
与参数服务器集成 / 184
深度学 / 192
spark 在企业中的应用 / 200
用spark 及kafka 收集用户活动志 / 200
用spark 做实时/ 202
twitter bots 的实时分类 / 204
结 / 205
内容简介:
本书针对park从验证环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级park应用的各种方法、组件与有用实践。全书分为6章, ~ 2章帮助读者深入理解park的机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优park,改善能,获得高可用和容错;第4章专门讨论park应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对park生态系统进行了梳理。
作者简介:
ilya ganelin 从机器人专家成功跨界成为一名数据工程师。他曾在密歇根大学花费数年时间研究自发现机器人(elfdicovering robot),在波音公司从事手机及无线嵌入式dp(数据信号处理)软件开发项目,随后加入capital one 的数据创新实验室,由此进入大数据领域。ilya是apache park核心组件的活跃贡献者以及apache apex的提交者(mitter),他希望研究构建下一代分布式计算台。同时,ilya还是一个狂热的面包烘焙师、厨师、赛车手和滑雪爱好者。ema orhian 是一位对伸缩算法充满激情的大数据工程师。她活跃于大数据社区,组织会议,在会上发表演讲,积极投身于开源项目。她是jarkqlret(parkql数据仓库上的一种资源管理器)的主要提交者。ema一直致力于将大数据分析引入医疗领域,开发一个对大型数据集计算统计指标的端到端的管道。kai aaki 是一位本软件工程师,对分布式计算和机器学很感兴趣。但是一开始他并未从事hadoop或park相关的工作,他很初的兴趣是中间件以及提供这些服务的基础技术,是互联网驱使他转向大数据技术领域。kai一直是park的贡献者,开发了不少mllib和ml库。如今,他正尝试研究将机器学和大数据结合起来。他相信park在大数据时代的人工智能领域也将扮演重要角。他的github地址为:://github./lewuathe。brennon york既是一名特技飞行员,也是一位计算机科学家。他的爱好是分布式计算、可扩展架构以及编程语言。自2014年以来,他是apache park的核心贡献者,目标是通过发展graphx和核心编译环境,培育一个更强大的park社区,激发更多合作。从为park提交贡献开始,york一直在用park,而且从那个时候开始,使用park将应用带入生产环境。
精彩内容:
引言apachepark一个易于掌握的、面向大规模计算的分布式计算框架。它又被称为“计算网格”或者“计算框架”——虑到park使开发人员能够便捷地获得大量数据且进行分析,这些说法也是正确的。apachepark由mateizaharia2009年在加州大学伯克利分校创建,一开始把它作为一个研究项目,后来在2010年捐给开源社区。2013年,park作为一个孵化项目加入apache软件会,并于2014年成为项目(tlp),一直发展到现在。本书面向的读者如果你拿起这本书,我们认为你应该对park非常感兴趣。本书面向的读者群体是开发人员、park应用的项目经理,以及那些准备虑将开发的park应用程序迁移到生产环境的系统管理员(或者devo)。涵盖的内容本书涵盖了开发及维护生产级park应用的各种方、组件与佳实践。也是说,我们设你已经有一个或者打算开发一个park应用,并且具备park的一些基础知识。内容结构本书分为6章,旨在传授给读者以下知识:?深入理解park的机制以及它们在生产流程中的含义。?一组针对配置参数的法则和权衡方案,用来调优park以获得高可用和容错。?全面了解生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件。读者需要具备的知识作为读者,你应该具备基本的park开发及使用的知识。本书不会讲述入门级内容。市面上有许多关于park入门的书籍、论坛及各类资源,如果你对某部分的知识点有所缺失,可以阅读相关主题的资料以便更好地理解本书所表达的内容。本书示例的源代码可从wiley上下载:(.wiley./go/parkbigdatacluterputing。)格式的约定为帮助你了解本书的内容及主线,在本书用了一些格式约定。注意这个样例表示注意事项、小提示、暗示、,或者当前讨论的旁白。?当介绍一些新的术语和重要的词时,会采用黑体(中文)或者加粗(英文)。?在文本里显示代码时会使用代码体,譬如:peritence.propertie。源码学本书中的示例时,你可以选择手动输入所有代码,或使用本书所配套的源码文件。所有的源码均可从.wiley.下载。对于本书,下载页面在.wiley./go/parkbigdatacluterputing的“downloadcode”标签页上。可以在.wiley.上通过英文版的ibn(9781119254010)来搜索本书。你也可以在://github./backtopmedia/parkbook上找到这些文件。下载完代码,随便用哪种解压工具解压即可。读者服务轻松注册成为博文视点社区用户(.broadview..),扫码直达本书页面。?提交勘误:您对书中内容的修改意见可在提交勘误处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。?交流互动:在页面下方读者处留下您的疑问或观点,与我们和其他读者一同学交流。页面入:://.broadview../31364
— 没有更多了 —
以下为对购买帮助不大的评价