• Spark大数据分析
21年品牌 40万+商家 超1.5亿件商品

Spark大数据分析

书籍均为精品二手图书品相85品以上,出库会经过高温消毒,书籍上架都会检测可保证正版!!

17.4 2.5折 69 九品

仅1件

天津宝坻
认证卖家担保交易快速发货售后保障

作者赵斌 马景 陈冠诚

出版社"机械工业出版社

ISBN9787111565611

出版时间2017

装帧平装

开本16开

纸张胶版纸

定价69元

货号969488178517901314

上书时间2024-11-16

粤读二手书店

七年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
商品描述
以下信息以网上匹配仅供参考,不支持以此为由退款
内容简介:

                                           本书是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。                                   
目录:

                                        Contents 目  录 

译者序 

前言 

致谢 

第1章 大数据技术一览1 

1.1 Hadoop2 

1.1.1 HDFS3 

1.1.2 MapReduce5 

1.1.3 Hive5 

1.2 数据序列化6 

1.2.1 Avro6 

1.2.2 Thrift6 

1.2.3 Protocol Buffers7 

1.2.4 SequenceFile7 

1.3 列存储7 

1.3.1 RCFile8 

1.3.2 ORC8 

1.3.3 Parquet9 

1.4 消息系统9 

1.4.1 Kafka10 

1.4.2 ZeroMQ11 

1.5 NoSQL12 

1.5.1 Cassandra13 

1.5.2 HBase13 

1.6 分布式SQL查询引擎14 

1.6.1 Impala14 

1.6.2 Presto14 

1.6.3 Apache Drill15 

1.7 总结15 

第2章 Scala编程16 

2.1 函数式编程16 

2.1.1 函数17 

2.1.2 不可变数据结构18 

2.1.3 一切皆表达式19 

2.2 Scala基础19 

2.2.1 起步20 

2.2.2 基础类型20 

2.2.3 变量21 

2.2.4 函数21 

2.2.5 类24 

2.2.6 单例24 

2.2.7 样本类25 

2.2.8 模式匹配25 

2.2.9 操作符26 

2.2.10 特质26 

2.2.11 元组27 

2.2.12 Option类型27 

2.2.13 集合28 

2.3 一个单独的Scala应用程序32 

2.4 总结32 

第3章 Spark Core33 

3.1 概述33 

3.1.1 主要特点33 

3.1.2 理想的应用程序36 

3.2 总体架构37 

3.2.1 worker37 

3.2.2 集群管理员38 

3.2.3 驱动程序38 

3.2.4 执行者38 

3.2.5 任务38 

3.3 应用运行38 

3.3.1 术语38 

3.3.2 应用运行过程39 

3.4 数据源39 

3.5 API40 

3.5.1 SparkContext40 

3.5.2 RDD41 

3.5.3 创建RDD42 

3.5.4 RDD操作43 

3.5.5 保存RDD52 

3.6 惰性操作53 

3.7 缓存54 

3.7.1 RDD的缓存方法55 

3.7.2 RDD缓存是可容错的56 

3.7.3 缓存内存管理56 

3.8 Spark作业56 

3.9 共享变量57 

3.9.1 广播变量57 

3.9.2 累加器58 

3.10 总结59 

第4章 使用Spark shell进行交互式数据分析60 

4.1 起步60 

4.1.1 下载60 

4.1.2 解压61 

4.1.3 运行61 

4.2 REPL命令62 

4.3 把Spark shell当成Scala shell使用62 

4.4 数值分析63 

4.5 日志分析64 

4.6 总结68 

第5章 编写Spark应用69 

5.1 Spark中的Hello World69 

5.2 编译并运行应用72 

5.2.1 sbt72 

5.2.2 编译代码73 

5.2.3 运行应用73 

5.3 监控应用75 

5.4 调试应用75 

5.5 总结76 

第6章 Spark Streaming77 

6.1 Spark Streaming简介78 

6.1.1 Spark Streaming是一个Spark类库78 

6.1.2 总体架构78 

6.1.3 数据流来源78 

6.1.4 接收器79 

6.1.5 目的地79 

6.2 API79 

6.2.1 StreamingContext80 

6.2.2 Spark Streaming应用基本结构82 

6.2.3 DStream82 

6.2.4 创建DStream83 

6.2.5 处理数据流84 

6.2.6 输出操作88 

6.2.7 窗口操作91 

6.3 一个完整的Spark Streaming应用93 

6.4 总结98 

第7章 Spark SQL99 

7.1 Spark SQL简介99 

7.1.1 和其他Spark库集成100 

7.1.2 可用性100 

7.1.3 数据源100 

7.1.4 数据处理接口100 

7.1.5 与Hive的互操作性101 

7.2 性能101 

7.2.1 磁盘I/O101 

7.2.2 分区102 

7.2.3 列存储102 

7.2.4 内存中的列式缓存102 

7.2.5 行跳过102 

7.2.6 谓词下推102 

7.2.7 查询优化103 

7.3 应用104 

7.3.1 ETL104 

7.3.2 数据可视化104 

7.3.3 分布式JDBC/ODBC SQL查询引擎105 

7.3.4 数据仓库105 

7.4 API106 

7.4.1 关键抽象106 

7.4.2 创建DataFrame109 

7.4.3 在程序中使用SQL/HiveQL处理数据114 

7.4.4 使用DataFrame API处理数据115 

7.4.5 保存DataFrame131 

7.5 内置函数133 

7.5.1 聚合操作134 

7.5.2 集合操作134 

7.5.3 日期/时间134 

7.5.4 数学135 

7.5.5 字符串135 

7.5.6 窗口135 

7.6 UDF和UDAF135 

7.7 一个交互式分析的例子135 

7.8 使用Spark SQL JDBC服务器进行交互式分析142 

7.9 总结145 

第8章 使用Spark进行机器学习146 

8.1 机器学习简介146 

8.1.1 特征147 

8.1.2 标签147 

8.1.3 模型148 

8.1.4 训练数据148 

8.1.5 测试数据149 

8.1.6 机器学习应用149 

8.1.7 机器学习算法151 

8.1.8 超参数160 

8.1.9 模型评价160 

8.1.10 机器学习的主要步骤162 

8.2 Spark机器学习库162 

8.3 MLlib概览163 

8.3.1 与其他Spark库集成163 

8.3.2 统计工具163 

8.3.3 机器学习算法163 

8.4 MLlib API164 

8.4.1 数据类型164 

8.4.2 算法和模型166 

8.4.3 模型评价181 

8.5 MLlib示例应用184 

8.5.1 数据集184 

8.5.2 目标184 

8.5.3 代码184 

8.6 Spark ML186 

8.6.1 ML数据集187 

8.6.2 Transformer187 

8.6.3 Estimator187 

8.6.4 Pipeline188 

8.6.5 PipelineModel188 

8.6.6 Evaluator188 

8.6.7 网格搜索189 

8.6.8 CrossValidator189 

8.7 Spark ML示例应用189 

8.7.1 数据集190 

8.7.2 目标190 

8.7.3 代码190 

8.8 总结195 

第9章 使用Spark进行图处理196 

9.1 图简介196 

9.1.1 无向图197 

9.1.2 有向图197 

9.1.3 有向多边图197 

9.1.4 属性图197 

9.2 GraphX简介198 

9.3 GraphX API199 

9.3.1 数据抽象199 

9.3.2 创建图200 

9.3.3 图属性202 

9.3.4 图操作符204 

9.4 总结217 

第10章 集群管理员218                                    

—  没有更多了  —

以下为对购买帮助不大的评价

本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP