消息首页搜索举报

Spark大数据分析

全新正版极速发货

36.93 5.4折 69 全新

仅1件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)穆罕默德·古勒(Mohammed Guller) 著;赵斌,马景,陈冠诚译

出版社机械工业出版社

ISBN9787111565611

出版时间2017-05

装帧平装

开本16开

定价69元

货号1201509028

上书时间2024-09-30

大智慧小美丽

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 17小时
好评率暂无

最新上架

历史的沸点 ¥18.01

轻松学中文 ¥48.41

中国城市竞争力报告 ¥51.44

国际汉语学报 ¥20.09

儿童语言表达训练方案 ¥0.10

长笛考级曲目大全 ¥17.99

幼儿启蒙认知全卡 ¥2.84

唐宋传奇集 ¥22.49

康熙原版芥子园画传 ¥22.30

商品详情

品相描述：全新

商品描述: 作者简介
穆罕默德·古勒，Glassbeam的首席架构师，主要负责不错分析和预测分析产品的开发。他是大数据和Spark专家，经常受邀在与大数据相关的会议上发表演讲。他对于新产品构建、大数据分析和机器学习充满热情。

目录
译者序
前言
致谢
章大数据技术一览1
1.1Hadoop2
1.1.1HDFS3
1.1.2MapReduce5
1.1.3Hive5
1.2数据序列化6
1.2.1Avro6
1.2.2Thrift6
1.2.3ProtocolBuffers7
1.2.4SequenceFile7
1.3列存储7
1.3.1RCFile8
1.3.2ORC8
1.3.3Parquet9
1.4消息系统9
1.4.1Kafka10
1.4.2ZeroMQ11
1.5NoSQL12
1.5.1Cassandra13
1.5.2HBase13
1.6分布式SQL查询引擎14
1.6.1Impala14
1.6.2Presto14
1.6.3ApacheDrill15
1.7总结15
第2章Scala编程16
2.1函数式编程16
2.1.1函数17
2.1.2不可变数据结构18
2.1.3一切皆表达式19
2.2Scala基础19
2.2.1起步20
2.2.2基础类型20
2.2.3变量21
2.2.4函数21
2.2.5类24
2.2.6单例24
2.2.7样本类25
2.2.8模式匹配25
2.2.9操作符26
2.2.10特质26
2.2.11元组27
2.2.12Option类型27
2.2.13集合28
2.3一个单独的Scala应用程序32
2.4总结32
第3章SparkCore33
3.1概述33
3.1.1主要特点33
3.1.2理想的应用程序36
3.2总体架构37
3.2.1worker37
3.2.2集群管理员38
3.2.3驱动程序38
3.2.4执行者38
3.2.5任务38
3.3应用运行38
3.3.1术语38
3.3.2应用运行过程39
3.4数据源39
3.5API40
3.5.1SparkContext40
3.5.2RDD41
3.5.3创建RDD42
3.5.4RDD操作43
3.5.5保存RDD52
3.6惰性操作53
3.7缓存54
3.7.1RDD的缓存方法55
3.7.2RDD缓存是可容错的56
3.7.3缓存内存管理56
3.8Spark作业56
3.9共享变量57
3.9.1广播变量57
3.9.2累加器58
3.10总结59
第4章使用Sparkshell进行交互式数据分析60
4.1起步60
4.1.1下载60
4.1.2解压61
4.1.3运行61
4.2REPL命令62
4.3把Sparkshell当成Scalashell使用62
4.4数值分析63
4.5日志分析64
4.6总结68
第5章编写Spark应用69
5.1Spark中的HelloWorld69
5.2编译并运行应用72
5.2.1sbt72
5.2.2编译代码73
5.2.3运行应用73
5.3监控应用75
5.4调试应用75
5.5总结76
第6章SparkStreaming77
6.1SparkStreaming简介78
6.1.1SparkStreaming是一个Spark类库78
6.1.2总体架构78
6.1.3数据流来源78
6.1.4接收器79
6.1.5目的地79
6.2API79
6.2.1StreamingContext80
6.2.2SparkStreaming应用基本结构82
6.2.3DStream82
6.2.4创建DStream83
6.2.5处理数据流84
6.2.6输出操作88
6.2.7窗口操作91
6.3一个完整的SparkStreaming应用93
6.4总结98
第7章SparkSQL99
7.1SparkSQL简介99
7.1.1和其他Spark库集成100
7.1.2可用性100
7.1.3数据源100
7.1.4数据处理接口100
7.1.5与Hive的互操作性101
7.2性能101
7.2.1磁盘I／O101
7.2.2分区102
7.2.3列存储102
7.2.4内存中的列式缓存102
7.2.5行跳过102
7.2.6谓词下推102
7.2.7查询优化103
7.3应用104
7.3.1ETL104
7.3.2数据可视化104
7.3.3分布式JDBC／ODBCSQL查询引擎105
7.3.4数据仓库105
7.4API106
7.4.1关键抽象106
7.4.2创建DataFrame109
7.4.3在程序中使用SQL／HiveQL处理数据114
7.4.4使用DataFrameAPI处理数据115
7.4.5保存DataFrame131
7.5内置函数133
7.5.1聚合操作134
7.5.2集合操作134
7.5.3日期／时间134
7.5.4数学135
7.5.5字符串135
7.5.6窗口135
7.6UDF和UDAF135
7.7一个交互式分析的例子135
7.8使用SparkSQLJDBC服务器进行交互式分析142
7.9总结145
第8章使用Spark进行机器学习146
8.1机器学习简介146
8.1.1特征147
8.1.2标签147
8.1.3模型148
8.1.4训练数据148
8.1.5测试数据149
8.1.6机器学习应用149
8.1.7机器学习算法151
8.1.8超参数160
8.1.9模型评价160
8.1.10机器学习的主要步骤162
8.2Spark机器学习库162
8.3MLlib概览163
8.3.1与其他Spark库集成163
8.3.2统计工具163
8.3.3机器学习算法163
8.4MLlibAPI164
8.4.1数据类型164
8.4.2算法和模型166
8.4.3模型评价181
8.5MLlib示例应用184
8.5.1数据集184
8.5.2目标184
8.5.3代码184
8.6SparkML186
8.6.1ML数据集187
8.6.2Transformer187
8.6.3Estimator187
8.6.4Pipeline188
8.6.5PipelineModel188
8.6.6Evaluator188
8.6.7网格搜索189
8.6.8CrossValidator189
8.7SparkML示例应用189
8.7.1数据集190
8.7.2目标190
8.7.3代码190
8.8总结195
第9章使用Spark进行图处理196
9.1图简介196
9.1.1无向图197
9.1.2有向图197
9.1.3有向多边图197
9.1.4属性图197
9.2GraphX简介198
9.3GraphXAPI199
9.3.1数据抽象199
9.3.2创建图200
9.3.3图属性202
9.3.4图操作符204
9.4总结217
0章集群管理员218
10.1独立集群管理员218
10.1.1架构219
10.1.2建立一个独立集群219
10.1.3在独立集群中运行Spark应用221
10.2ApacheMesos223
10.2.1架构223
10.2.2建立一个Mesos集群224
10.2.3在Mesos集群上运行Spark应用224
10.3YARN226
10.3.1架构226
10.3.2在YARN集群上运行Spark应用228
10.4总结”一228
1章监控229
11.1监控独立集群229
11.1.1监控Spark master229
11.1.2监控Spark worker232
11.2监控Spark应用233
11.2.1监控一个应用所运行的作业234
11.2.2监控一个作业的不同阶段235
11.2.3监控一个阶段中的任务236
11.2.4监控RDD存储238
11.2.5监控环境243
11.2.6监控执行者244
11.2.7监控Spark流应用244
11.2.8监控SparkSQL查询246
11.2.9监控SparkSQLJDBC／ODBC服务器246
11.3总结247
参考文献248

内容摘要
本书是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务，其中覆盖了高效利用Spark所需要知道的重要主题：如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍，包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。

精彩内容
前言 Preface本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。购买本书的好处之一就是：帮你高效学习Spark，节省你大量时间。本书所覆盖的主题在互联网上都可以找到，网上有很多关于Spark的博客、PPT和视频。事实上，Spark的资料浩如烟海，你可能需要在网络上不同地方花费数月来阅读关于Spark的点滴和碎片知识。本书提供了一个更好的选择：内容组织精妙，并以易懂的形式表现出来。本书的内容和材料的组织基于我在不同的大数据相关会议上所组织的Spark研讨会。与会者对于内容和流程方面的积极反馈激励我写了这本书。书和研讨会的区别之一在于后者具有交互性。然而，组织过几次Spark研讨会后，我了解到了人们普遍存在的问题，我把这些内容也收录在本书中。如果阅读本书时有问题，我鼓励你们通过LinkedIn或Twitter联系我。任何问题都可以问，不存在什么“愚蠢的问题”。本书没有覆盖Spark的每一个细节，而是包含了高效使用Spark所需要知道的重要主题。我的目标是帮你建立起坚实的基础。一旦基础牢固，就可以轻松学习一项新技术的所有细节。另外，我希望保持本书尽可能简单。如果读完本书后发现Spark看起来也挺简单的，那我的目的也就达到了。本书中的任何主题都不要求有先验知识。本书会一步步介绍关键概念，每一节建立在前一节的基础上。同样，每一章都是下一章的基石。如果当下不需要，你可以略过后面一些章节中讲解的不同的Spark库。不过我还是鼓励你阅读所有章节。即使可能和你当前的项目不相关，那些部分也可能会给你新的灵感。通过本书你会学到很多Spark及其相关技术的知识。然而，要充分利用本书，建议亲自运行书中所展示的例子：用代码示例做实验。当你写代码并执行时，很多事情就变得更加清晰。如果你一边阅读一边练习并用示例来实验，当读完本书时，你将成为一名基础扎实的Spark开发者。在我开发Spark应用时，我发现了一个有用的资源—Spark官方API文档，其访问地址为http://spark.apache.org/docs/latest/api/scala。初学者可能觉得它难以理解，不过一旦你学习了基本概念后，会发现它很有用。另一个有用的资源是Spark邮件列表。Spark社区很活跃、有用。不仅Spark开发者会回答问题，有经验的Spark用户也会志愿帮助新人。无论你遇到什么问题，很有可能Spark邮件列表中有人已经解决过这个问题了。而且，也可以联系我，我很乐意倾听，欢迎反馈、建议和提问。 —Mohammed GullerLinkedIn: www.linkedin.com/in/mohammedgullerTwitter: @MohammedGuller致谢 Acknowledgements许多人都直接地或间接地为本书作出了贡献。如果没有他们的支持、鼓励与帮助，我是无法完成本书的编写的。我想借此机会向他们表示感谢。首先，也是最重要的，我想要感谢我的妻子Tarannum和我的三个可爱的孩子Sarah、Soha、Sohail。写书是一项艰巨的任务。在从事全职工作的同时写书意味着我无法花费太多的时间在我的家人身上。上班时间我忙于工作，晚上和周末我则全身投入到本书的写作上。我对我家人给予的全方位的支持和鼓励表示感谢。有时候，Soha和Sohail会提出一些有意思的想法让我陪他们一起玩，但是在大部分时候，他们还是让我在本应该陪他们玩耍的时候专注于写书。接下来，感谢Matei Zaharia、Reynold Xin、Michael Armbrust、Tathagata Das、Patrick Wendell、Joseph Bradley、Xiangrui Meng、Joseph Gonzalez、Ankur Dave以及其他Spark开发者。他们不仅创造出了一项卓越的技术，还持续快速改进它。没有他们的发明，本书将不会存在。当我在Glassbeam公司提议使用Spark来解决当时困扰我们的一些问题时，Spark还是一项新技术且少有人了解。我想要感谢工程副总裁Ashok Agarwal和首席执行官Puneet Pandit允许我使用Spark。如果没有来自将Spark内置于产品中和日常使用的一手经验，要写出一本有关Spark的书是相当困难的。接下来，我想感谢技术审校者Sundar Rajan Raman和Heping Liu。他们认真检查了本书内容的准确性并运行了书中的例子以确保它们能正常运行，还提出了不少有帮助的建议。最后，我想感谢Apress参与本书出版的工作人员Chris Nelson、Jill Balzano、Kim Bur-ton-Weisman、Celestin John Suresh、Nikhil Chinnari、Dhaneesh Kumar等。Jill Balzano协调了与本书出版相关的所有工作。作为一个编辑，Chris Nelson为本书作出了卓越的贡献。我十分感谢他的建议与编辑，有了他的参与，本书变得更完美了。文字编辑Kim Burton-Weisman认真阅读了本书的每一句话以保证书写正确，同时也改正了不少书写错误。很荣幸能与Apress团队一起工作。 —Mohammed Guller

— 没有更多了 —

Spark大数据分析

大智慧小美丽

商品详情

相关推荐