• Spark快速大数据分析 第2版
  • Spark快速大数据分析 第2版
21年品牌 40万+商家 超1.5亿件商品

Spark快速大数据分析 第2版

正版新书 新华官方库房直发 可开电子发票

88.65 7.4折 119.8 全新

库存8件

江苏南京
认证卖家担保交易快速发货售后保障

作者(美)朱尔斯·S.达米吉 等

出版社人民邮电出版社

ISBN9787115576019

出版时间2021-11

版次1

装帧平装

开本16开

纸张胶版纸

页数340页

字数502千字

定价119.8元

货号SC:9787115576019

上书时间2024-05-08

江苏读客文化

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
全新正版 提供发票
商品描述
作者简介:
【作者简介】

朱尔斯·S. 达米吉(Jules S. Damji)是Databricks的高级开发人员,也是MLflow的贡献者。

布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。

泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。

丹尼·李(Denny Lee)是Databricks的软件工程师。

【译者简介】

王道远

目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉Spark源码,从2014年开始参与Spark项目,曾为Spark贡献大量修复和新特性,也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。
主编推荐:
1.本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。
2.第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
3.Spark项目创始人Matei Zaharia、Spark PMC成员Reynold Xin力荐。

毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。

* 学习使用Python、Java、Scala的结构化数据API
* 理解Spark SQL引擎的原理
* 掌握Spark应用的优化技巧
* 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等
* 使用Structured Streaming分析批式数据和流式数据
* 使用Spark和Delta Lake构建湖仓一体的系统
* 使用MLlib开发机器学习流水线
媒体评论:
"这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。"

--Reynold Xin
Databricks联合创始人、Apache Spark PMC成员

"对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。"

--Ben Lorica
Databricks数据科学家、Spark + AI峰会项目主席

"在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。"

--王峰,花名"莫问"
阿里云开源大数据平台负责人

"转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的'火花'。"

--邵赛赛
腾讯专家工程师,数据湖团队负责人
内容简介:
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。本书面向希望利用Spark处理海量数据的读者,包括数据工程师、数据科学家、机器学习工程师等。
目录:
译者序 xiii

对本书的赞誉 xv

序 xvii

前言 xix

第1章 Apache Spark简介:一站式分析引擎 1

1.1 Spark的起源 1

1.1.1 谷歌的大数据和分布式计算 1

1.1.2 雅虎的Hadoop 2

1.1.3 Spark在AMPLab崭露头角 3

1.2 什么是Spar 3

1.2.1 快速 4

1.2.2 易用 4

1.2.3 模块化 4

1.2.4 可扩展 5

1.3 一站式数据分析 5

1.3.1 由Spark组件组成的一站式软件栈 6

1.3.2 Spark的分布式执行 9

1.4 开发者体验 12

1.4.1 哪些人用Spark,用它做什么 13

1.4.2 社区接受度与社区发展 14

第2章 下载并开始使用Apache Spark 16

2.1 第1步:下载Spark 16

2.2 第2步:使用Scala shell 或PySpark shell 18

2.3 第3步:理解Spark 应用的相关概念 22

2.3.1 Spark应用与SparkSession 22

2.3.2 Spark作业 23

2.3.3 Spark执行阶段 23

2.3.4 Spark任务 24

2.4 转化操作、行动操作以及惰性求值 24

2.5 Spark UI 26

2.6 第 一个独立应用 29

2.6.1 统计M&M巧克力豆 29

2.6.2 用Scala构建独
...

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

全新正版 提供发票
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP