消息首页搜索举报

Spark权威指南

正版保障假一赔十可开发票

78.85 6.2折 128 全新

仅1件

广东广州

认证卖家担保交易快速发货售后保障

作者Bill Chambers，Matei Zaharia著

出版社中国电力出版社

ISBN9787519840099

出版时间2020-04

装帧平装

开本其他

定价128元

货号9753159

上书时间2024-12-14

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

中文版Illustrator CS6高手成长之路(附光盘) ¥49.99

精通Cocos2d-x游戏开发(进阶卷) ¥63.16

预防医学 ¥22.79

计算机导论 ¥32.03

材料研究方法 ¥41.89

荷马史诗（全2册） ¥54.21

火电厂作业危险点分析及预控:通用分册 ¥16.02

群雄并起“画”春秋(下) ¥15.40

彼岸花开 ¥24.52

商品详情

品相描述：全新

商品描述: 作者简介
比尔·尚贝尔(Bill Chambers)是Databricks的一名产品经理，致力于使用Spark和Databricks帮助客户完成大规模数据分析的任务。Bill还定期写关于数据科学和大数据方面的博客, 并常在各种会议和见面会上展示产品。他拥有加州大学伯克利分校信息学院的信息系统硕士学位, 研究方向为数据科学。
  马特·扎哈里亚(Matei Zaharia)是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校创立了Spark项目, 那时他是一名博士生, 并继续担任Apache Spark项目的副主席。Matei Zaharia还是Apache Mesos项目的联合创始人，也是Apache Hadoop项目的贡献者。Matei Zaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖和VMware系统研究奖。

  张岩峰，东北大学教授，在国内外从事大数据分布式处理研究工作10余年，中国计算机学会数据库专委会委员，大数据专委会通讯委员，研究设计了iMapReduce、Maiter等大数据迭代计算分布式框架，承担和参与国家自然科学基金、国家重点研发计划等多项课题，在SIGMOD、VLDB、ICDE、PPoPP、TPDS、TKDE等顶级国际会议和期刊上发表论文10余篇，曾获云计算国际会议ACM SOCC 2011优秀论文奖及多项国内外奖励和荣誉。

目录
目录
前言1
第Ⅰ部分大数据与Spark概述
第1章 Spark是什么？ 9
Apache Spark的设计哲学 10
背景：大数据问题12
Spark的历史 12
Spark的现状和未来 14
运行Spark 14
第2章 Spark浅析  18
Spark的基本架构18
Spark API的多语言支持 20
Spark的API21
启动Spark 21
转换操作 24
动作操作 25
Spark用户接口26
一个完整的例子 27
小结35
第3章 Spark工具集介绍 36
运行生产应用程序37
Dataset：类型安全的结构化API 38
结构化流处理39
机器学习和高级数据分析 43
低级API48
SparkR 49
Spark的生态系统和工具包50
小结50
第Ⅱ部分结构化API——DataFrame、
SQL和Dataset
第4章结构化API概述  53
DataFrame类型和Dataset类型 54
Schema 54
结构化Spark类型概述 54
结构化API执行概述 61
小结63
第5章基本的结构化操作 64
模式65
列和表达式66
记录和行 69
DataFrame转换操作70
小结86
第6章处理不同的数据类型  87
在哪里查找API87
转换成Spark类型89
处理布尔类型89
处理数值类型92
处理字符串类型 96
处理日期和时间戳类型  101
处理数据中的空值 106
处理JSON类型  113
用户自定义函数  115
小结 119
第7章聚合操作  120
聚合函数  122
分组 128
window函数 130
分组集  133
用户自定义的聚合函数  138
小结 139
第8章连接操作  140
连接表达式 140
连接类型  140
内连接  142
外连接  143
左外连接  143
右外连接  144
左半连接  144
左反连接  145
自然连接  146
交叉连接(笛卡尔连接)  146
连接操作常见问题与解决方案 147
小结 152
第9章数据源 153
数据源 API 的结构  154
CSV 文件 156
JSON 文件 161
Parquet文件  163
ORC文件  164
SQL数据库  165
文本文件  173
高级I/O概念  174
小结 177
第10章 Spark SQL  178
什么是 SQL？  178
大数据和SQL： Apache Hive 178
大数据和SQL： Spark SQL 179
如何运行Spark SQL 查询 180
Catalog 182
视图 187
数据库  188
选择语句  189
高级主题  190
其他功能  194
小结 195
第11章 Dataset  196
何时使用Dataset 197
创建Dataset 197
动作操作  199
转换操作  199
连接 201
分组和聚合 202
小结 203
第Ⅲ部分低级API
第12章弹性分布式数据集 207
什么是低级API？  207
关于RDD  208
创建RDD  210
操作RDD  212
转换操作  213
动作操作  215
保存文件  218
缓存 219
检查点  220
通过pipe方法调用系统命令操作RDD  220
小结 222
第13章高级RDD 223
Key-Value基础 (Key-Value RDD)224
聚合操作  226
CoGroups 230
连接操作  231
控制分区  232
自定义序列化 235
小结 236
第14章分布式共享变量  237
广播变量  237
累加器  239
小结 243
第Ⅳ部分生产与应用
第15章 Spark如何在集群上运行 247
Spark应用程序的体系结构 247
Spark应用程序的生命周期( Spark外部)  250
Spark应用程序的生命周期( Spark内部)  253
执行细节  258
小结 259
第16章开发Spark应用程序 260
编写Spark应用程序  260
测试Spark应用程序  265
开发过程  268
启动应用程序 268
配置应用程序 271
小结 278
第17章部署Spark  279
在哪里部署Spark集群  280
集群管理器 282
其他注意事项 288
小结 289
第18章监控与调试  290
监控级别  290
要监视什么 291
Spark日志 292
Spark UI  293
调试和Spark抢救方案  301
小结 311
第19章性能调优  312
间接性能优化 313
直接性能优化 320
小结 325
第Ⅴ部分流处理
第20章流处理基础  329
什么是流处理？  330
流处理设计要点  334
Spark的流处理API  336
小结 338
第21章结构化流处理基础 339
结构化流处理概述 339
核心概念  340
结构化流处理实例 343
结构化流上的转换操作  347
聚合 348
输入和输出 349
流式Dataset API  358
小结 359
第22章事件时间和有状态处理  360
事件时间  360
有状态处理 362
任意有状态处理  362
事件时间基础知识 363
事件时间的窗口  363
在流中删除重复项 370
任意有状态处理  371
小结 380
第23章生产中的结构化流处理  381
容错和检查点 381
更新应用程序 382
度量和监视 384
警报 386
使用流侦听器进行高级监视 387
小结 388
第Ⅵ部分高级分析与机器学习
第24章高级分析和机器学习概览 391
高级分析简介 392
Spark的高级分析工具包 399
高级MLlib概念 400
MLlib的执行  402
部署模式  412
小结 413
第25章预处理和特征工程 414
根据应用场景格式化模型  414
转换器  416
预处理的估计器  417
高级转换器 418
处理连续型特征  422
使用类别特征 428
文本数据转换器  431
特征操作  440
特征选择  442
高级主题  443
编写自定义转换器 444
小结 445
第26章分类  446
应用场景  446
分类的类型 446
MLlib中的分类模型  447
逻辑回归  449
决策树  452
随机森林和梯度提升树  454
朴素贝叶斯 456
分类评估器和自动化模型校正 457
One-vs-Rest分类 459
多层感知器 459
小结 459
第27章回归  460
应用场景  460
MLlib中的回归模型  461
线性回归  462
广义线性回归 464
决策树  466
随机森林和梯度提升树  467
高级方法  468
评估器和自动化模型校正  469
度量标准  470
小结 471
第28章推荐系统  472
应用场景  472
基于交替最小二乘法的协同过滤  473
推荐系统的评估器 476
度量指标  477
频繁模式挖掘 479
小结 479
第29章无监督学习  480
应用场景  480
模型的可扩展性  481
k-means  482
二分k-means  484
高斯混合模型 485
LDA主题模型 487
小结 490
第30章图分析 491
构建图  493
查询图  495
模式发现  496
图算法  498
小结 504
第31章深度学习  505
什么是深度学习？  505
在Spark中使用深度学习 506
深度学习库 508
Deep Learning Pipelines的一个简单示例  510
小结 514
第Ⅶ部分生态系统
第32章语言支持： Python(PySpark)和R(SparkR和
Sparklyr)  517
PySpark  518
Spark 中的R  519
小结 529
第33章生态系统和社区  530
Spark软件包  530
社区 533
小结 534

主编推荐

通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写，重点介绍Spark新版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。

你将接触到Spark的基本操作和常用函数，还包括一种全新的构建端到端流数据应用的结构化流处理API。开发人员和系统管理员将了解到Spark的监控、调优，以及调试的原则和方法，并通过使用Spark提供的可扩展机器学习库Mllib来了解机器学习算法的实现技术。

精彩内容
·大数据技术和Spark概述。
  ·通过实例学习DataFrame、SQL、Dataset等Spark的核心API。
  ·了解Spark的低级API实现，包括RDD以及SQL和DataFrame的执行过程。
  ·了解Spark如何在集群上运行。
  ·Spark集群和应用程序的调试、监控、和调优。
  ·学习Spark强大的流处理引擎——结构化流处理。
  ·学习MLlib并了解如何应用它解决包括分类、推荐，以及其他多种实际问题。

媒体评论
通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写，重点介绍Spark最新版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。

你将接触到Spark的基本操作和常用函数，还包括一种全新的构建端到端流数据应用的结构化流处理API。开发人员和系统管理员将了解到Spark的监控、调优，以及调试的原则和方法，并通过使用Spark提供的可扩展机器学习库Mllib来了解机器学习算法的实现技术。

“这本书是所有Spark开发人员的必读书籍，介绍了许多别处无法学到的使用技巧。”——Ion Stoica 美国加州大学伯克利分校RISE实验室主任

— 没有更多了 —

Spark权威指南

灵感书店

商品详情

相关推荐