• Spark机器学习(第2版)
21年品牌 40万+商家 超1.5亿件商品

Spark机器学习(第2版)

全新正版 假一赔十 可开发票

70.39 7.1折 99 全新

库存4件

北京东城
认证卖家担保交易快速发货售后保障

作者(印)拉结帝普·杜瓦(Rajdeep Dua),(印)曼普利特·辛格·古特拉(Manpreet Singh Ghotra),(南非)尼克·彭特里思(Nick Pentreath)

出版社人民邮电出版社

ISBN9787115497833

出版时间2018-11

装帧平装

开本16开

定价99元

货号1201789577

上书时间2024-09-03

轻阅书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
拉结帝普·杜瓦(Rajdeep Dua):Salesforce公司工程主管,致力于打造云计算和人工智能团队。曾参与Google的大数据分析工具BigQuery的宣传团队。在云计算、大数据分析和机器学习领域有近20年的经验。
曼普利特·辛格·古特拉(Manpreet Singh Ghotra):Salesforce公司软件工程主管,拥有十余年软件开发经验,目前致力于开发基于Apache Spark的机器学习平台。
尼克·彭特里思(Nick Pentreath):IBM开源数据及人工智能技术中心首席工程师,大数据及机器学习公司Graphflow联合创始人,Spark项目管理委员会成员。
蔡立宇:曾从事自然语言处理和图数据分析相关工作,现提供数据分析相关的独立咨询和开发服务。坐标深圳。

目录
章 Spark的环境搭建与运行 1
1.1Spark的本地安装与配置2
1.2Spark集群3
1.3Spark编程模型4
1.3.1SparkContext类与SparkConf类4
1.3.2SparkSession5
1.3.3Spark shell6
1.3.4弹性分布式数据集8
1.3.5广播变量和累加器12
1.4SchemaRDD13
1.5Spark data frame13
1.6Spark Scala编程入门14
1.7Spark Java编程入门17
1.8Spark Python编程入门19
1.9Spark R编程入门21
1.10在Amazon EC2上运行Spark23
1.11在Amazon Elastic Map Reduce上配置并运行Spark28
1.12Spark用户界面31
1.13Spark所支持的机器学习算法32
1.14Spark ML的优势36
1.15在Google Compute Engine上用Dataproc构建Spark集群38
1.15.1Hadoop和Spark版本38
1.15.2创建集群38
1.15.3提交任务41
1.16小结43
第2章 机器学习的数学基础44
2.1线性代数45
2.1.1配置IntelliJ Scala环境45
2.1.2配置命令行Scala环境47
2.1.3域48
2.1.4矩阵54
2.1.5函数64
2.2梯度下降68
2.3先验概率、似然和后验概率69
2.4微积分69
2.4.1可微微分69
2.4.2积分70
2.4.3拉格朗日乘子70
2.5可视化71
2.6小结72
第3章机器学习系统设计73
3.1机器学习是什么73
3.2MovieStream介绍74
3.3机器学习系统商业用例75
3.3.1个性化75
3.3.2目标营销和客户细分76
3.3.3预测建模与分析76
3.4机器学习模型的种类76
3.5数据驱动的机器学习系统的组成77
3.5.1数据获取与存储77
3.5.2数据清理与转换78
3.5.3模型训练与测试循环79
3.5.4模型部署与整合79
3.5.5模型监控与反馈80
3.5.6批处理或实时方案的选择80
3.5.7Spark数据管道81
3.6机器学习系统架构82
3.7Spark MLlib83
3.8Spark ML的性能提升83
3.9MLlib支持算法的比较85
3.9.1分类85
3.9.2聚类85
3.9.3回归85
3.10MLlib支持的函数和开发者API86
3.11MLlib愿景87
3.12MLlib版本的变迁87
3.13小结88
第4章Spark上数据的获取、处理与准备89
4.1获取公开数据集90
4.2探索与可视化数据92
4.2.1探索用户数据94
4.2.2探索电影数据102
4.2.3探索评级数据104
4.3数据的处理与转换109
4.4从数据中提取有用特征112
4.4.1数值特征112
4.4.2类别特征113
4.4.3派生特征114
4.4.4文本特征116
4.4.5正则化特征121
4.4.6用软件包提取特征123
4.5小结126
第5章Spark 构建推荐引擎127
5.1推荐模型的分类128
5.1.1基于内容的过滤128
5.1.2协同过滤128
5.1.3矩阵分解130
5.2提取有效特征139
5.3训练推荐模型140
5.3.1使用MovieLens 100k数据集训练模型141
5.3.2使用隐式反馈数据训练模型143
5.4使用推荐模型143
5.4.1ALS模型推荐144
5.4.2用户推荐145
5.4.3物品推荐148
5.5推荐模型效果的评估152
5.5.1ALS模型评估152
5.5.2均方差154
5.5.3K值平均准确率156
5.5.4使用MLlib内置的评估函数159
5.6FP-Growth算法161
5.6.1FP-Growth的基本例子161
5.6.2FP-Growth在MovieLens数据集上的实践163
5.7小结164
第6章Spark构建分类模型165
6.1分类模型的种类167
6.1.1线性模型167
6.1.2朴素贝叶斯模型177
6.1.3决策树180
6.1.4树集成模型183
6.2从数据中抽取合适的特征188
6.3训练分类模型189
6.4使用分类模型190
6.4.1在Kaggle/StumbleUpon evergreen数据集上进行预测191
6.4.2评估分类模型的性能191
6.4.3预测的正确率和错误率191
6.4.4准确率和召回率193
6.4.5ROC曲线和AUC194
6.5改进模型性能以及参数调优196
6.5.1特征标准化197
6.5.2其他特征199
6.5.3使用正确的数据格式202
6.5.4模型参数调优203
6.6小结211
第7章Spark构建回归模型212
7.1回归模型的种类212
7.1.1最小二乘回归213
7.1.2决策树回归214
7.2评估回归模型的性能215
7.2.1均方误差和均方根误差215
7.2.2平均绝对误差215
7.2.3均方根对数误差216
7.2.4R-平方系数216
7.3从数据中抽取合适的特征216
7.4回归模型的训练和应用220
7.4.1BikeSharingExecutor220
7.4.2在bike sharing数据集上训练回归模型221
7.4.3决策树集成229
7.5改进模型性能和参数调优235
7.5.1变换目标变量235
7.5.2模型参数调优242
7.6小结256
第8章Spark构建聚类模型257
8.1聚类模型的类型258
8.1.1K-均值聚类258
8.1.2混合模型262
8.1.3层次聚类262
8.2从数据中提取正确的特征262
8.3K-均值训练聚类模型265
8.3.1训练K-均值聚类模型266
8.3.2用聚类模型来预测267
8.3.3解读预测结果267
8.4评估聚类模型的性能271
8.4.1内部评估指标271
8.4.2外部评估指标272
8.4.3在MovieLens数据集上计算性能指标272
8.4.4迭代次数对WSSSE的影响272
8.5二分K-均值275
8.5.1二分K-均值——训练一个聚类模型276
8.5.2WSSSE和迭代次数280
8.6高斯混合模型283
8.6.1GMM聚类分析283
8.6.2可视化GMM类簇分布285
8.6.3迭代次数对类簇边界的影响286
8.7小结287
第9章Spark应用于数据降维288
9.1降维方法的种类289
9.1.1主成分分析289
9.1.2奇异值分解289
9.1.3和矩阵分解的关系290
9.1.4聚类作为降维的方法290
9.2从数据中抽取合适的特征291
9.3训练降维模型299
9.4使用降维模型302
9.4.1在LFW数据集上使用PCA投影数据302
9.4.2PCA和SVD模型的关系303
9.5评价降维模型304
9.6小结307
0章 Spark不错文本处理技术308
10.1文本数据处理的特别之处308
10.2从数据中抽取合适的特征309
10.2.1词加权表示309
10.2.2特征散列310
10.2.3从20 Newsgroups数据集中提取TF-IDF特征311
10.3使用TF-IDF 模型324
10.3.120 Newsgroups数据集的文本相似度和TF-IDF特征324
10.3.2基于20 Newsgroups数据集使用TF-IDF训练文本分类器326
10.4评估文本处理技术的作用328
10.5Spark 2.0上的文本分类329
10.6Word2Vec模型331
10.6.1借助Spark MLlib训练Word2Vec模型331
10.6.2借助Spark ML训练Word2Vec模型332
10.7小结334
1章 Spark Streaming实时机器学习335
11.1在线学习335
11.2流处理336
11.2.1Spark Streaming介绍337
11.2.2Spark Streaming缓存和容错机制339
11.3创建Spark Streaming应用340
11.3.1消息生成器341
11.3.2创建简单的流处理程序343
11.3.3流式分析346
11.3.4有状态的流计算348
11.4使用Spark Streaming进行在线学习349
11.4.1流回归350
11.4.2一个简单的流回归程序350
11.4.3流式K-均值354
11.5在线模型评估355
11.6结构化流358
11.7小结359
2章 Spark ML Pipeline API360
12.1Pipeline简介360
12.1.1DataFrame360
12.1.2Pipeline组件360
12.1.3转换器361
12.1.4评估器361
12.2Pipeline工作原理363
12.3Pipeline机器学习示例367
12.4小结375

内容摘要
本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵盖推荐系统、回归、聚类、降维等经典机器学习算法及其实际应用。第2版新增了有关机器学习数学基础以及Spark ML Pipeline API 的章节,内容更加系统、全面、与时俱进。

主编推荐
 

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP