消息首页搜索举报

Spark快速大数据分析第2版

正版新书新华官方库房直发可开电子发票

88.65 7.4折 119.8 全新

库存8件

江苏南京

认证卖家担保交易快速发货售后保障

作者(美)朱尔斯·S.达米吉等

出版社人民邮电出版社

ISBN9787115576019

出版时间2021-11

版次1

装帧平装

开本16开

纸张胶版纸

页数340页

字数502千字

定价119.8元

货号SC:9787115576019

上书时间2024-05-08

江苏读客文化

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 13小时
好评率暂无

最新上架

初中生必背古诗文(133篇正楷衡中考试体) ¥15.50

部编版名著阅读与摘抄字帖(初中正楷) ¥15.50

间架结构/练字路线图 ¥14.88

偏旁部首/练字路线图 ¥15.50

水彩私藏笔记(意大利人文之旅)(精) ¥66.64

儿童的黑白线话/儿童原创艺术创新课例系列 ¥31.68

儿童美术课题创新/儿童原创艺术创新课例系列 ¥31.68

儿童绘画创新表现/儿童原创艺术创新课例系列 ¥31.68

当代儿童绘画语境/儿童原创艺术创新课例系列 ¥31.68

商品详情

品相描述：全新: 全新正版提供发票

商品描述: 作者简介:
【作者简介】

朱尔斯·S. 达米吉（Jules S. Damji）是Databricks的高级开发人员，也是MLflow的贡献者。

布鲁克·韦尼希（Brooke Wenig）是Databricks的机器学习专家。

泰瑟加塔·达斯（Tathagata Das）是Databricks的软件工程师，也是Apache Spark PMC成员。

丹尼·李（Denny Lee）是Databricks的软件工程师。

【译者简介】

王道远

目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉Spark源码，从2014年开始参与Spark项目，曾为Spark贡献大量修复和新特性，也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。
主编推荐:
1.本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark，并了解如何利用它适应这个属于大数据和机器学习的新时代。
2.第2版在第1版的基础上做了大量更新，涵盖Spark 3.0的新特性，并着重展示如何利用机器学习算法执行大数据分析。
3.Spark项目创始人Matei Zaharia、Spark PMC成员Reynold Xin力荐。

毋庸置疑，数据已经成为现代化企业的重要资产，大数据分析技术则是企业挖掘数据价值的核心利器。一直以来，Spark就是大数据分析领域的佼佼者，也已经成为一站式大数据分析引擎的事实标准。

* 学习使用Python、Java、Scala的结构化数据API
* 理解Spark SQL引擎的原理
* 掌握Spark应用的优化技巧
* 了解如何读写数据源：JSON、Parquet、CSV、Avro、ORC等
* 使用Structured Streaming分析批式数据和流式数据
* 使用Spark和Delta Lake构建湖仓一体的系统
* 使用MLlib开发机器学习流水线
媒体评论:
"这本书提供了一种系统学习Spark的方法，并介绍了该项目的发展近况，是Spark开发人员上手大数据的好途径。"

--Reynold Xin
Databricks联合创始人、Apache Spark PMC成员

"对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说，这本书应成为常备指南。"

--Ben Lorica
Databricks数据科学家、Spark + AI峰会项目主席

"在信息化时代，数据已经成为现代化企业的重要资产，大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来，随着开源技术理念的蓬勃发展，开源大数据技术体系已经成为行业的主流选择，Apache Spark就是其中的优秀代表。凭借优秀的架构设计，Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据，加速各行各业实现数字化转型。"

--王峰，花名"莫问"
阿里云开源大数据平台负责人

"转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目，Spark并未逐渐凋零，而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时，也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解，也希望Spark在未来的10年能持续进化，在大数据领域擦出更多的'火花'。"

--邵赛赛
腾讯专家工程师，数据湖团队负责人
内容简介:
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用Spark SQL进行交互式查询，掌握Spark应用的优化之道，用Spark和Delta Lake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark 3.0引入的新特性。本书面向希望利用Spark处理海量数据的读者，包括数据工程师、数据科学家、机器学习工程师等。
目录:
译者序 xiii

对本书的赞誉 xv

序 xvii

前言 xix

第1章 Apache Spark简介：一站式分析引擎 1

1．1 Spark的起源 1

1．1．1 谷歌的大数据和分布式计算 1

1．1．2 雅虎的Hadoop 2

1．1．3 Spark在AMPLab崭露头角 3

1．2 什么是Spar 3

1．2．1 快速 4

1．2．2 易用 4

1．2．3 模块化 4

1．2．4 可扩展 5

1．3 一站式数据分析 5

1．3．1 由Spark组件组成的一站式软件栈 6

1．3．2 Spark的分布式执行 9

1．4 开发者体验 12

1．4．1 哪些人用Spark，用它做什么 13

1．4．2 社区接受度与社区发展 14

第2章下载并开始使用Apache Spark 16

2．1 第1步：下载Spark 16

2．2 第2步：使用Scala shell 或PySpark shell 18

2．3 第3步：理解Spark 应用的相关概念 22

2．3．1 Spark应用与SparkSession 22

2．3．2 Spark作业 23

2．3．3 Spark执行阶段 23

2．3．4 Spark任务 24

2．4 转化操作、行动操作以及惰性求值 24

2．5 Spark UI 26

2．6 第一个独立应用 29

2．6．1 统计M&M巧克力豆 29

2．6．2 用Scala构建独
...

— 没有更多了 —

Spark快速大数据分析 第2版

江苏读客文化

商品详情

相关推荐

Spark快速大数据分析第2版