消息首页搜索举报

图书条目标准图

Spark快速数据处理

10.73 3.7折 29 全新

仅1件

北京通州

认证卖家担保交易快速发货售后保障

作者[美]Holden Karau 著；余璜、张磊译

出版社机械工业出版社

出版时间2014-04

版次1

装帧平装

上书时间2024-11-16

森少书店

四年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 18小时
好评率暂无

最新上架

Spring Boot 2精髓：从构建小系统到架构分布式大系统 ¥29.23

Spring Cloud与Docker高并发微服务架构设计实施 ¥29.23

Spring Cloud与Docker微服务架构实战（第2版） ¥29.23

大型网站技术架构演进与性能优化 ¥29.23

21个项目玩转深度学习：基于TensorFlow的实践详解 ¥29.23

全能活动运营：从零开始搭建能力模型 ¥29.23

腾讯游戏开发精粹 ¥29.23

重构：数字化转型的逻辑 ¥29.23

漫画算法：小灰的算法之旅 ¥29.23

商品详情

品相描述：全新

图书标准信息

作者 [美]Holden Karau 著；余璜、张磊译
出版社机械工业出版社
出版时间 2014-04
版次 1
ISBN 9787111463115
定价 29.00元
装帧平装
开本 16开
纸张胶版纸
页数 66页
正文语种简体中文
原版书名 Fast Data Processing with Spark
丛书大数据技术丛书

【内容简介】

　　Spark是一个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持，如阿里巴巴、百度、网易、英特尔等公司。
　　《Spark快速数据处理》系统讲解Spark的使用方法，包括如何在多种机器上安装Spark，如何配置一个Spark集群，如何在交互模式下运行第一个Spark作业，如何在Spark集群上构建一个生产级的脱机/独立作业，如何与Spark集群建立连接和使用SparkContext，如何创建和保存RDD（弹性分布式数据集），如何用Spark分布式处理数据，如何设置Shark，将Hive查询集成到你的Spark作业中来，如何测试Spark作业，以及如何提升Spark任务的性能。

【作者简介】

　　Holden Karau，资深软件开发工程师，现就职于Databricks公司，之前曾就职于谷歌、微软和Foursquare等著名公司。他对开源情有独钟，参与了许多开源项目，如Linux内核无线驱动、Android程序监控、搜索引擎等，对存储系统、推荐系统、搜索分类等都有深入研究。

　　译者简介

　　余璜，阿里巴巴核心系统研发工程师，OceanBase核心开发人员，对分布式系统理论和工程实践有深刻理解，专注于分布式系统设计、大规模数据处理，乐于分享，在CSDN上分享了大量技术文章。

　　张磊，Spark爱好者，曾参与分布式OLAP数据库系统核心开发，热衷于大数据处理、分布式计算。

【目录】

译者序
作者简介
前言
第1章　安装Spark以及构建Spark集群 / 1
1.1　单机运行Spark / 4
1.2　在EC2上运行Spark / 5
1.3　在ElasticMapReduce上部署Spark / 11
1.4　用Chef(opscode)部署Spark / 12
1.5　在Mesos上部署Spark / 14
1.6　在Yarn上部署Spark / 15
1.7　通过SSH部署集群 / 16
1.8　链接和参考 / 21
1.9　小结 / 21

第2章　Spark shell的使用 / 23
2.1　加载一个简单的text文件 / 24
2.2　用Spark shell运行逻辑回归 / 26
2.3　交互式地从S3加载数据 / 28
2.4　小结 / 30

第3章　构建并运行Spark应用 / 31
3.1　用sbt构建Spark作业 / 32
3.2　用Maven构建Spark作业 / 36
3.3　用其他工具构建Spark作业 / 39
3.4　小结 / 39

第4章　创建SparkContext / 41
4.1　Scala / 43
4.2　Java / 43
4.3　Java和Scala共享的API / 44
4.4　Python / 45
4.5　链接和参考 / 45
4.6　小结 / 46

第5章　加载与保存数据 / 47
5.1　RDD / 48
5.2　加载数据到RDD中 / 49
5.3　保存数据 / 54
5.4　连接和参考 / 55
5.5　小结 / 55

第6章　操作RDD / 57
6.1　用Scala和Java操作RDD / 58
6.2　用Python操作RDD / 79
6.3　链接和参考 / 83
6.4　小结 / 84

第7章　Shark-Hive和Spark的综合运用 / 85
7.1　为什么用Hive/Shark / 86
7.2　安装Shark / 86
7.3　运行Shark / 88
7.4　加载数据 / 88
7.5　在Spark程序中运行HiveQL查询 / 89
7.6　链接和参考 / 92
7.7　小结 / 93

第8章　测试 / 95
8.1　用Java和Scala测试 / 96
8.2　用Python测试 / 103
8.3　链接和参考 / 104
8.4　小结 / 105

第9章　技巧和窍门 / 107
9.1　日志位置 / 108
9.2　并发限制 / 108
9.3　内存使用与垃圾回收 / 109
9.4　序列化 / 110
9.5　IDE集成环境 / 111
9.6　Spark与其他语言 / 112
9.7　安全提示 / 113
9.8　邮件列表 / 113
9.9　链接和参考 / 113
9.10　小结 / 114

点击展开点击收起

— 没有更多了 —