Spark实战(第2版)
新华书店全新正版书籍图书 保证_可开发票_极速发货支持7天无理由
¥
65.9
6.6折
¥
99.8
全新
仅1件
作者(法)吉恩·乔治·佩林
出版社清华大学出版社
ISBN9787302596783
出版时间2022-03
装帧平装
开本32开
定价99.8元
货号31415078
上书时间2024-08-12
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
Jean-GeorgesPerrin是-位经验丰富的数据和软件架构师。他是法国的第一位IBMChampion,并连续12年获奖,成为终身IBMChempion。Jean-GeorgesPerrin对软件工程和数据的各个方面充满热情。最新项目促使他转向分布式的数据工程,在此项目中,他在混合云环境中广泛使用ApacheSpark、Java和其他工具。他很自豪地成为法国第一个公认的IBMChampion,并连续12年获奖。作为获奖的数据和软件工程专家,现在,他在全球范围内都开展了业务,但重心在他所居住的美国。Jean-Georges是资深的会议演讲者和参与者,他以书面或在线媒体的形式发表文章,分享他在IT行业超过25年的经验。
目录
第Ⅰ部分 通过示例讲解理论
第1章 Spark介绍
1.1 Spark简介及其作用
1.1.1 什么是Spark
1.1.2 Spark神力的四个支柱
1.2 如何使用Spark
1.2.1 数据处理/工程场景中的Spark
1.2.2 数据科学场景中的Spark
1.3 使用Spark,能做些什么
1.3.1 使用Spark预测NC餐饮行业的餐馆质量
1.3.2 Spark允许Lumeris进行快速数据传输
1.3.3 Spark分析CERN的设备日志
1.3.4 其他用例
1.4 为什么你应该喜欢数据帧
1.4.1 从Java角度了解数据帧
1.4.2 从RDBMS角度理解数据帧
1.4.3 数据帧的图形表示
1.5 第一个示例
1.5.1 推荐软件
1.5.2 下载代码
1.5.3 运行第一个应用程序
1.5.4 第一份代码
1.6 小结
第2章 架构和流程
2.1 构建思维模型
2.2 使用Java代码构建思维模型
2.3 运行应用程序
2.3.1 连接到主机
2.3.2 加载或提取CSV文件
2.3.3 转换数据
2.3.4 将数据帧中完成的工作保存到数据库中
2.4 小结
第3章 数据帧的重要作用
3.1 数据帧在Spark中的基本作用
3.1.1 数据帧的组织
3.1.2 不变性并非贬低之词
3.2 通过示例演示数据帧的使用
3.2.1 简单提取CSV后的数据帧
3.2.2 数据存储在分区中
3.2.3 挖掘模式
3.2.4 提取JSON后的数据帧
3.2.5 合并两个数据帧
3.3 数据帧Dataset
3.3.1 重用POJO
3.3.2 创建字符串数据集
3.3.3 来回转换
3.4 数据帧的祖先:RDD
3.5 小结
第4章 Spark的“惰性”本质
4.1 现实中懒惰但高效的示例
内容摘要
企业数据的分析始于读取、过滤和合并来自多个数据源的文件和数据流。
Spark数据处理引擎是这方面的佼佼者,可处理各种量级的数据,其传输速度比Hadoop系统快100倍。得益于SQL的支持、直观的界面和简单的多语言API,你可轻松使用Spark,而不必学习复杂的新型生态系统。
本书将引导你创建端到端分析应用程序。在本书中,你可学习基于Java的有趣示例,包括用于处理NASA卫星数据的完整数据管道。
你还可查看托管在GitHub上的有关Java、Python和Scala的代码示例,并探索、
修改此代码。此外,本书的附录为你提供速查表,帮助你安装工具和理解特定的Spark术语。
主要内容用Java编写的Spark应用程序Spark应用架构提取文件、数据库、数据流和Elasticsearch的数据使用SparkSQL查询分布式数据集阅读门槛本书读者不需要具备有关Spark、Scala或Hadoop的经验。
|
— 没有更多了 —
以下为对购买帮助不大的评价