基于Apache Spark的流处理
正版新书 新华官方库房直发 可开电子发票
¥
28.16
2.2折
¥
128
全新
库存48件
作者(美)杰拉德·马斯,(美)弗朗索瓦·加里洛
出版社中国电力出版社
ISBN9787519852948
出版时间2021-03
版次1
装帧平装
开本16开
纸张胶版纸
页数444页
字数581千字
定价128元
货号SC:9787519852948
上书时间2024-12-24
商品详情
- 品相描述:全新
-
全新正版 提供发票
- 商品描述
-
内容简介:
利用分析工具可以快速获取商业洞察,为此你需要了解如何对数据进行实时处理。通过这本实用指南,对于熟悉Apache Spark的读者来说,你们将了解如何将这个内存框架应用于流数据。你会发现Spark让你几乎可以像面对批处理作业一样来开发流处理作业。 本书介绍了Apache Spark的理论基础。这本综合指南通过两个部分比较了Spark支持的流处理API:早期Spark Streaming和后来的Structured Streaming。
目录:
序 1
前言 3
第一部分 Apache Spark 流处理的基本原理
第1章 流处理概述 13
什么是流处理 14
批处理与流处理 15
流处理中的时间概念 15
不确定性因素 16
流处理案例 16
可扩展的数据处理能力 18
扩展性与容错性 19
分布式流处理 19
Apache Spark 概述 20
第一波浪潮:函数式API 20
第二波浪潮:SQL 21
统一的引擎21
Spark 组件 22
Spark Streaming 23
Structured Streaming 23
接下来? 24
第2章 流处理模型 25
数据源与接收器 26
不可变流 27
转换与聚合 27
窗口聚合 28
滚动窗口 28
滑动窗口 29
无状态处理与有状态处理 29
有状态的流 30
案例:Scala中的本地状态计算 31
无状态流,还是有状态流? 33
时间效应 33
带时间戳的事件计算 33
通过时间戳来定义时间概念 34
事件时间与处理时间 34
使用水位线计算 37
小结 39
第3章 流处理架构 41
数据平台的组件 41
体系模型 43
在流处理应用中使用批处理组件 44
流处理架构参考 45
Lambda 架构 45
Kappa 架构 46
流处
...
— 没有更多了 —
全新正版 提供发票
以下为对购买帮助不大的评价