Scala和Spark大数据分析.函数式编程.数据流和机器学习
书籍均为精品二手图书品相85品以上,出库会经过高温消毒,书籍上架都会检测可保证正版!!
¥
39
2.5折
¥
158
八品
仅1件
作者雷扎尔·卡里姆(Md. Rezaul Karim) (美) 斯里达尔·阿拉
出版社"清华大学出版社
ISBN9787302551966
出版时间2020
装帧其他
开本16开
纸张胶版纸
定价158元
货号1284352213090575862
上书时间2024-10-23
商品详情
- 品相描述:八品
-
本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
- 商品描述
-
以下信息以网上匹配仅供参考,不支持以此为由退款
内容简介:
本书介绍Spark应用开发的面向对象和函数式编程概念,讨论RDD和DataFrame基本抽象,讲述如何使用SparkSQL、GraphX和Spark来开发可扩展的、容错的流式应用程序,*后介绍监控、配置、调试、测试和开发等高级主题。通过本书的学习,你将能使用SparkR和PySpark API开发Spark应用程序,使用Zeppelin进行交互式数据分析,使用Alluxio进行内存数据处理,将透彻理解Spark,并能对海量数据执行全栈数据分析,*终成为数据科学家。
目录:
第1章 ?Scala简介 ? 1
1.1 ?Scala的历史与设计目标 ? 2
1.2 ?平台与编辑器 ? 2
1.3 ?安装与创建Scala ? 3
1.3.1 ?安装Java ? 3
1.3.2 ?Windows ? 4
1.3.3 ?macOS ? 6
1.4 ?Scala:可扩展的编程语言 ? 9
1.4.1 ?Scala是面向对象的 ? 9
1.4.2 ?Scala是函数式的 ? 9
1.4.3 ?Scala是静态类型的 ? 9
1.4.4 ?在JVM上运行Scala ? 10
1.4.5 ?Scala可以执行Java代码 ? 10
1.4.6 ?Scala可以完成并发与同步处理 ? 10
1.5 ?面向Java编程人员的Scala ? 10
1.5.1 ?一切类型都是对象 ? 10
1.5.2 ?类型推导 ? 11
1.5.3 ?Scala REPL ? 11
1.5.4 ?嵌套函数 ? 13
1.5.5 ?导入语句 ? 13
1.5.6 ?作为方法的操作符 ? 14
1.5.7 ?方法与参数列表 ? 15
1.5.8 ?方法内部的方法 ? 15
1.5.9 ?Scala中的构造器 ? 16
1.5.10 ?代替静态方法的对象 ? 16
1.5.11 ?特质 ? 17
1.6 ?面向初学者的Scala ? 19
1.6.1 ?你的第一行代码 ? 20
1.6.2 ?交互式运行Scala! ? 21
1.6.3 ?编译 ? 21
1.7 ?本章小结 ? 22
第2章 ?面向对象的Scala ? 23
2.1 ?Scala中的变量 ? 24
2.1.1 ?引用与值不可变性 ? 25
2.1.2 ?Scala中的数据类型 ? 26
2.2 ?Scala中的方法、类和对象 ? 28
2.2.1 ?Scala中的方法 ? 28
2.2.2 ?Scala中的类 ? 30
2.2.3 ?Scala中的对象 ? 30
2.3 ?包与包对象 ? 41
2.4 ?Java的互操作性 ? 42
2.5 ?模式匹配 ? 43
2.6 ?Scala中的隐式 ? 45
2.7 ?Scala中的泛型 ? 46
2.8 ?SBT与其他构建系统 ? 49
2.8.1 ?使用SBT进行构建 ? 49
2.8.2 ?Maven与Eclipse ? 50
2.8.3 ?Gradle与Eclipse ? 51
2.9 ?本章小结 ? 55
第3章 ?函数式编程概念 ? 56
3.1 ?函数式编程简介 ? 57
3.2 ?面向数据科学家的函数式Scala ? 59
3.3 ?学习Spark为何要掌握函数式编程和Scala ? 59
3.3.1 ?为何是Spark? ? 59
3.3.2 ?Scala与Spark编程模型 ? 60
3.3.3 ?Scala与Spark生态 ? 61
3.4 ?纯函数与高阶函数 ? 62
3.4.1 ?纯函数 ? 62
3.4.2 ?匿名函数 ? 64
3.4.3 ?高阶函数 ? 66
3.4.4 ?以函数作为返回值 ? 70
3.5 ?使用高阶函数 ? 71
3.6 ?函数式Scala中的错误处理 ? 72
3.6.1 ?Scala中的故障与异常 ? 73
3.6.2 ?抛出异常 ? 73
3.6.3 ?使用try和catch捕获异常 ? 73
3.6.4 ?finally ? 74
3.6.5 ?创建Either ? 75
3.6.6 ?Future ? 76
3.6.7 ?执行任务,而非代码块 ? 76
3.7 ?函数式编程与数据可变性 ? 76
3.8 ?本章小结 ? 77
第4章 ?集合API ? 78
4.1 ?Scala集合API ? 78
4.2 ?类型与层次 ? 79
4.2.1 ?Traversable ? 79
4.2.2 ?Iterable ? 80
4.2.3 ?Seq、LinearSeq和IndexedSeq ? 80
4.2.4 ?可变型与不可变型 ? 80
4.2.5 ?Array ? 82
4.2.6 ?List ? 85
4.2.7 ?Set ? 86
4.2.8 ?Tuple ? 88
4.2.9 ?Map ? 89
4.2.10 ?Option ? 91
4.2.11 ?exists ? 94
4.2.12 ?forall ? 96
4.2.13 ?filter ? 96
4.2.14 ?map ? 97
4.2.15 ?take ? 97
4.2.16 ?groupBy ? 98
4.2.17 ?init ? 98
4.2.18 ?drop ? 98
4.2.19 ?takeWhile ? 98
4.2.20 ?dropWhile ? 99
4.2.21 ?flatMap ? 99
4.3 ?性能特征 ? 100
4.3.1 ?集合对象的性能特征 ? 100
4.3.2 ?集合对象的内存使用 ? 102
4.4 ?Java互操作性 ? 103
4.5 ?Scala隐式的使用 ? 104
4.6 ?本章小结 ? 108
第5章 ?狙击大数据——Spark加入战团 ? 109
5.1 ?数据分析简介 ? 109
5.2 ?大数据简介 ? 114
5.3 ?使用Apache Hadoop进行分布式计算 ? 116
5.3.1 ?Hadoop分布式文件系统(HDFS) ? 117
5.3.2 ?MapReduce框架 ? 122
5.4 ?Apache Spark驾到 ? 125
5.4.1 ?Spark core ? 128
5.4.2 ?Spark SQL ? 128
5.4.3 ?Spark Streaming ? 128
5.4.4 ?Spark GraphX ? 129
5.4.5 ?Spark ML ? 129
5.4.6 ?PySpark ? 130
5.4.7 ?SparkR ? 130
5.5 ?本章小结 ? 131
第6章 ?开始使用Spark——REPL和RDD ? 132
6.1 ?深入理解Apache Spark ? 132
6.2 ?安装Apache Spark ? 136
6.2.1 ?Spark独立服务器模式 ? 136
6.2.2 ?基于YARN的Spark ? 140
6.2.3 ?基于Mesos的Spark ? 142
6.3 ?RDD简介 ? 142
6.4 ?使用Spark shell ? 147
6.5 ?action与transformation算子 ? 150
6.5.1 ?transformation算子 ? 151
6.5.2 ?action算子 ? 158
6.6 ?缓存 ? 162
6.7 ?加载和保存数据 ? 165
6.7.1 ?加载数据 ? 165
6.7.2 ?保存RDD ? 166
6.8 ?本章小结 ? 166
第7章 ?特殊RDD操作 ? 167
7.1 ?RDD的类型 ? 167
7.1.1 ?pairRDD ? 170
7.1.2 ?DoubleRDD ? 171
7.1.3 ?SequenceFileRDD ? 172
7.1.4 ?CoGroupedRDD ? 173
7.1.5 ?ShuffledRDD ? 174
7.1.6 ?UnionRDD ? 175
7.1.7 ?HadoopRDD ? 177
7.1.8 ?NewHadoopRDD ? 177
7.2 ?聚合操作 ? 178
7.2.1 ?groupByKey ? 180
7.2.2 ?reduceByKey ? 181
7.2.3 ?aggregateByKey ? 182
7.2.4 ?combineByKey ? 182
7.2.5 ?groupByKey、reduceByKey、combineByKey和aggregateByKey之间的对比 ? 184
7.3 ?分区与shuffle ? 187
7.3.1 ?分区器 ? 188
7.3.2 ?shuffle ? 190
7.4 ?广播变量 ? 193
7.4.1 ?创建广播变量 ? 194
7.4.2 ?移除广播变量 ? 195
7.4.3 ?销毁广播变量 ? 195
7.5 ?累加器 ? 196
7.6 ?本章小结 ? 199
第8章 ?介绍一个小结构——Spark SQL ? 200
8.1 ?Spark SQL与数据帧 ? 200
8.2 ?数据帧API与SQL API ? 203
8.2.1 ?pivot ? 208
8.2.2 ?filter ? 208
8.2.3 ?用户自定义函数(UDF) ? 209
8.2.4 ?结构化数据 ? 210
8.2.5 ?加载和保存数据集 ? 213
8.3 ?聚合操作 ? 214
8.3.1 ?聚合函数 ? 215
8.3.2 ?groupBy ? 222
8.3.3 ?rollup ? 223
8.3.4 ?cube ? 223
8.3.5 ?窗口函数 ? 224
8.4 ?连接 ? 226
8.4.1 ?内连接工作机制 ? 228
8.4.2 ?广播连接 ? 229
8.4.3 ?连接类型 ? 229
8.4.4 ?连接的性能启示 ? 236
8.5 ?本章小结 ? 237
第9章 ?让我流起来,Scotty——Spark Streaming ? 238
9.1 ?关于流的简要介绍 ? 238
9.1.1 ?至少处理一次 ? 240
9.1.2 ?至多处理一次 ? 241
9.1.3 ?精确处理一次 ? 242
9.2 ?Spark Streaming ? 243
9.2.1 ?StreamingContext ? 245
9.2.2 ?输入流 ? 246
9.2.3 ?textFileStream样例 ? 247
9.2.4 ?twitterStream样例 ? 248
9.3 ?离散流 ? 249
9.3.1 ?转换 ? 251
9.3.2 ?窗口操作 ? 253
9.4 ?有状态/无状态转换 ? 256
9.4.1 ?无状态转换 ? 256
9.4.2 ?有状态转换 ? 257
9.5 ?检查点 ? 257
9.5.1 ?元数据检查点 ? 258
9.5.2 ?数据检查点 ? 259
9.5.3 ?driver故障恢复 ? 259
9.6 ?与流处理平台(Apache Kafka)的互操作 ? 261
9.6.1 ?基于接收器的方法 ? 261
9.6.2 ?direct 流 ? 262
9.6.3 ?结构化流示例 ? 264
9.7 ?结构化流 ? 265
9.7.1 ?处理事件时间(event-time)和延迟数据 ? 268
9.7.2 ?容错语义 ? 269
9.8 ?本章小结 ? 269
第10章 ?万物互联——GraphX ? 270
10.1 ?关于图论的简要介绍 ? 270
10.2 ?GraphX ? 275
10.3 ?VertexRDD和EdgeRDD ? 277
10.3.1 ?VertexRDD ? 277
10.3.2 ?EdgeRDD ? 278
10.4 ?图操作 ? 280
10.4.1 ?filter ? 281
10.4.2 ?mapValues ? 281
10.4.3 ?aggregateMessages ? 282
10.4.4 ?triangleCount ? 282
10.5 ?Pregel API ? 284
10.5.1 ?connectedComponents ? 284
10.5.2 ?旅行商问题(TSP) ? 285
10.5.3 ?最短路径 ? 286
10.6 ?PageRank ? 290
10.7 ?本章小结 ? 291
第11章 ?掌握机器学习Spark MLlib
和ML ? 292
11.1 ?机器学习简介 ? 292
11.1.1 ?典型的机器学习工作流 ? 293
11.1.2 ?机器学习任务 ? 294
11.2 ?Spark机器学习API ? 298
11.3 ?特征提取与转换 ? 299
11.3.1 ?CountVectorizer ? 301
11.3.2 ?Tokenizer ? 302
11.3.3 ?StopWordsRemover ? 304
11.3.4 ?StringIndexer ? 304
11.3.5 ?OneHotEncoder ? 305
11.3.6 ?Spark ML pipeline ? 306
11.4 ?创建一个简单的pipeline ? 308
11.5 ?无监督机器学习 ? 309
11.5.1 ?降维 ? 309
11.5.2 ?PCA ? 309
11.6 ?分类 ? 314
11.6.1 ?性能度量 ? 314
11.6.2 ?使用逻辑回归的多元分类 ? 324
11.6.3 ?使用随机森林提升分类精度 ? 327
11.7 ?本章小结 ? 330
第12章 ?贝叶斯与朴素贝叶斯 ? 332
12.1 ?多元分类 ? 332
12.1.1 ?将多元分类转换为二元分类 ? 333
12.1.2 ?层次分类 ? 338
12.1.3 ?从二元分类进行扩展 ? 338
12.2 ?贝叶斯推理 ? 338
12.3 ?朴素贝叶斯 ? 339
12.3.1 ?贝叶斯理论概述 ? 340
12.3.2 ?贝叶斯与朴素贝叶斯 ? 341
12.3.3 ?使用朴素贝叶斯建立一个可扩展的分类器 ? 341
12.4 ?决策树 ? 349
12.5 ?本章小结 ? 354
第13章 ?使用Spark MLlib对数据进行聚类分析 ? 355
13.1 ?无监督学习 ? 355
13.2 ?聚类技术 ? 357
13.3 ?基于中心的聚类(CC) ? 358
13.3.1 ?CC算法面临的挑战 ? 358
13.3.2 ?K-均值算法是如何工作的 ? 358
13.4 ?分层聚类(HC) ? 366
13.5 ?基于分布的聚类(DC) ? 367
13.6 ?确定聚类的数量 ? 372
13.7 ?聚类算法之间的比较分析 ? 373
13.8 ?提交用于聚类分析的Spark作业 ? 374
13.9 ?本章小结 ? 374
第14章 ?使用Spark ML进行文本分析 ? 376
14.1 ?理解文本分析 ? 376
14.2 ?转换器与评估器 ? 378
14.2.1 ?标准转换器 ? 378
14.2.2 ?评估转换器 ? 379
14.3 ?分词 ? 381
14.4 ?StopWordsRemover ? 383
14.5 ?NGram ? 385
14.6 ?TF-IDF ? 386
14.6.1 ?HashingTF ? 387
14.6.2 ?逆文档频率(IDF) ? 388
14.7 ?Word2Vec ? 390
14.8 ?CountVectorizer ? 392
14.9 ?使用LDA进行主题建模 ? 393
14.10 ?文本分类实现 ? 395
14.11 ?本章小结 ? 400
第15章 ?Spark调优 ? 402
15.1 ?监控Spark作业 ? 402
15.1.1 ?Spark Web接口 ? 402
15.1.2 ?使用Web UI实现Spark应用的可视化 ? 412
15.2 ?Spark配置 ? 417
15.2.1 ?Spark属性 ? 418
15.2.2 ?环境变量 ? 419
15.2.3 ?日志 ? 420
15.3 ?Spark应用开发中的常见错误 ? 420
15.4 ?优化技术 ? 425
15.4.1 ?数据序列化 ? 425
15.4.2 ?内存优化 ? 428
15.5 ?本章小结 ? 434
第16章 ?该聊聊集群了——在集群环境中部署Spark ? 435
16.1 ?集群中的Spark架构 ? 435
16.1.1 ?Spark生态简述 ? 436
16.1.2 ?集群设计 ? 437
16.1.3 ?集群管理 ? 440
16.2 ?在集群中部署Spark应用 ? 444
16.2.1 ?提交Spark作业 ? 445
16.2.2 ?Hadoop YARN ? 450
16.2.3 ?Apache Mesos ? 457
16.2.4 ?在AWS上部署 ? 459
16.3 ?本章小结 ? 464
第17章 ?Spark测试与调试 ? 465
17.1 ?在分布式环境中进行测试 ? 465
17.2 ?测试Spark应用 ? 468
17.2.1 ?测试Scala方法 ? 468
17.2.2 ?单元测试 ? 472
17.2.3 ?测试Spark应用 ? 473
17.2.4 ?在Windows环境配置
Hadoop运行时 ? 481
17.3 ?调试Spark应用 ? 483
17.3.1 ?使用Spark r
— 没有更多了 —
本店所售书籍均精品二手正版书书籍,严格审核品相为85品以上,出库会经过高温消毒,由于成本增加,所售书籍价格略高,运费首本5元,每增加一本运费加2元,每天下午2点前订单一般当天发出,最迟48小时内发出,二手书不保证100%没有任何笔记,有时会出现缺货现象,我们会第一时间告知您,感谢理解与支持。
以下为对购买帮助不大的评价