微瑕Spark MLlib机器学习实践
¥
24.5
5.0折
¥
49
全新
库存4件
作者王晓华
出版社清华大学出版社
ISBN9787302465089
出版时间2017-03
版次1
装帧平装
开本16开
纸张胶版纸
页数191页
字数99999千字
定价49元
货号2170-9787302465089
上书时间2024-12-10
商品详情
- 品相描述:全新
- 商品描述
-
基本信息
书名:Spark MLlib机器学习实践
定价:49元
作者:王晓华
出版社:清华大学出版社
出版日期:2017-03-01
ISBN:9787302465089
字数:326000
页码:191
版次:2
装帧:平装
开本:128开
商品重量:
编辑推荐
MLlib是Apache Spark机器学习库。本书入门简单,实例丰富,详解协同过滤、线性回归、分类、决策树、保序回归、聚类、关联、数据降维、特征提取和转换等MLlib主要算法,用实例说明MLlib大数据机器学习算法的运用。
内容提要
Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富。本书分为13章,从Spark基础安装和配置开始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,最后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。海报:
目录
目 录章 星星之火 11.1 大数据时代 11.2 大数据分析时代 21.3 简单、优雅、有效——这就是Spark31.4 核心——MLlib 41.5 星星之火,可以燎原 61.6 小结 6第2章 Spark安装和开发环境配置 72.1Windows单机模式Spark安装和配置 72.1.1Windows 7安装Java 72.1.2Windows 7安装Scala 102.1.3Intellij IDEA下载和安装 132.1.4Intellij IDEA中Scala插件的安装 142.1.5HelloJava——使用Intellij IDEA创建Java程序 182.1.6HelloScala——使用Intellij IDEA创建Scala程序 212.1.7最后一脚——Spark单机版安装 262.2 经典的WordCount292.2.1Spark实现WordCount 292.2.2MapReduce实现WordCount 312.3 小结 34第3章 RDD详解 353.1RDD是什么 353.1.1RDD名称的秘密 353.1.2RDD特性 363.1.3与其他分布式共享内存的区别 373.1.4RDD缺陷 373.2RDD工作原理 383.2.1RDD工作原理图 383.2.2RDD的相互依赖 383.3RDD应用API详解 393.3.1使用aggregate方法对给定的数据集进行方法设定 393.3.2提前计算的cache方法 423.3.3笛卡尔操作的cartesian方法 433.3.4分片存储的coalesce方法 443.3.5以value计算的countByValue方法 453.3.6以key计算的countByKey方法 453.3.7除去数据集中重复项的distinct方法 463.3.8过滤数据的filter方法 473.3.9以行为单位操作数据的flatMap方法 473.3.10以单个数据为目标进行操作的map方法 483.3.11分组数据的groupBy方法 483.3.12生成键值对的keyBy方法 493.3.13同时对两个数据进行处理的reduce方法 503.3.14对数据进行重新排序的sortBy方法 513.3.15合并压缩的zip方法 523.4 小结 53第4章 MLlib基本概念 544.1MLlib基本数据类型 544.1.1多种数据类型 544.1.2从本地向量集起步 554.1.3向量标签的使用 564.1.4本地矩阵的使用 584.1.5分布式矩阵的使用 594.2MLlib数理统计基本概念 624.2.1基本统计量 624.2.2统计量基本数据 634.2.3距离计算 644.2.4两组数据相关系数计算 654.2.5分层抽样 674.2.6假设检验 694.2.7随机数 704.3 小结 71第5章 协同过滤算法 725.1 协同过滤 725.1.1协同过滤概述 725.1.2基于用户的推荐 735.1.3基于物品的推荐 745.1.4协同过滤算法的不足 755.2 相似度度量 755.2.1基于欧几里得距离的相似度计算 755.2.2基于余弦角度的相似度计算 765.2.3欧几里得相似度与余弦相似度的比较 775.2.4第一个例子——余弦相似度实战 775.3MLlib中的交替二乘法(ALS算法) 805.3.1二乘法(LS算法)详解 815.3.2MLlib中交替二乘法(ALS算法)详解 825.3.3ALS算法实战 835.4 小结 85第6章 MLlib线性回归理论与实战 866.1 随机梯度下降算法详解 866.1.1道士下山的故事 876.1.2随机梯度下降算法的理论基础 886.1.3随机梯度下降算法实战 886.2MLlib回归的过拟合 896.2.1过拟合产生的原因 906.2.2lasso回归与岭回归 916.3MLlib线性回归实战 916.3.1MLlib线性回归基本准备 916.3.2MLlib线性回归实战:商品价格与消费者收入之间的关系 946.3.3对拟合曲线的验证 956.4 小结 97第7章 MLlib分类实战 987.1 逻辑回归详解 987.1.1逻辑回归不是回归算法 987.1.2逻辑回归的数学基础 997.1.3一元逻辑回归示例 1007.1.4多元逻辑回归示例 1017.1.5MLlib逻辑回归验证 1037.1.6MLlib逻辑回归实例:肾癌的转移判断 1047.2 支持向量机详解 1067.2.1三角还是圆 1067.2.2支持向量机的数学基础 1087.2.3支持向量机使用示例 1097.2.4使用支持向量机分析肾癌转移 1107.3 朴素贝叶斯详解 1117.3.1穿裤子的男生or女生 1117.3.2贝叶斯定理的数学基础和意义 1127.3.3朴素贝叶斯定理 1137.3.4MLlib朴素贝叶斯使用示例 1147.3.5MLlib朴素贝叶斯实战:“僵尸粉”的鉴定 1157.4 小结 117第8章 决策树与保序回归 1188.1 决策树详解 1188.1.1水晶球的秘密 1198.1.2决策树的算法基础:信息熵 1198.1.3决策树的算法基础——ID3算法 1218.1.4MLlib中决策树的构建 1228.1.5MLlib中决策树示例 1238.1.6随机雨林与梯度提升算法(GBT) 1258.2 保序回归详解 1278.2.1何为保序回归 1288.2.2保序回归示例 1288.3 小结 129第9章 MLlib中聚类详解 1309.1 聚类与分类 1309.1.1什么是分类 1309.1.2什么是聚类 1319.2 MLlib中的Kmeans算法 1319.2.1什么是kmeans算法 1319.2.2MLlib中Kmeans算法示例 1339.2.3Kmeans算法中细节的讨论 1349.3 高斯混合聚类 1359.3.1从高斯分布聚类起步 1359.3.2混合高斯聚类 1379.3.3MLlib高斯混合模型使用示例 1379.4 快速迭代聚类 1389.4.1快速迭代聚类理论基础 1389.4.2快速迭代聚类示例 1399.5 小结 1400章 MLlib中关联规则 14110.1Apriori频繁项集算法 14110.1.1啤酒与尿布 14110.1.2经典的Apriori算法 14210.1.3Apriori算法示例 14410.2FP-growth算法 14510.2.1Apriori算法的局限性 14510.2.2FP-growth算法 14510.2.3FP树示例 14810.3小结 1491章 数据降维 15011.1奇异值分解(SVD) 15011.1.1行矩阵(RowMatrix)详解 15011.1.2奇异值分解算法基础 15111.1.3MLlib中奇异值分解示例 15211.2主成分分析(PCA) 15311.2.1主成分分析(PCA)的定义 15411.2.2主成分分析(PCA)的数学基础 15411.2.3MLlib中主成分分析(PCA)示例 15511.3小结 1562章 特征提取和转换 15712.1TF-IDF 15712.1.1如何查找所要的新闻 15712.1.2TF-IDF算法的数学计算 15812.1.3MLlib中TF-IDF示例 15912.2词向量化工具 16012.2.1词向量化基础 16012.2.2词向量化使用示例 16112.3基于卡方检验的特征选择 16212.3.1“吃货”的苦恼 16212.3.2MLlib中基于卡方检验的特征选择示例 16312.4小结 1643章 MLlib实战演练——鸢尾花分析16613.1建模说明 16613.1.1数据的描述与分析目标 16613.1.2建模说明 16813.2数据预处理和分析 17113.2.1微观分析——均值与方差的对比分析 17113.2.2宏观分析——不同种类特性的长度计算 17413.2.3去除重复项——相关系数的确定 17613.3长与宽之间的关系——数据集的回归分析 18013.3.1使用线性回归分析长与宽之间的关系 18013.3.2使用逻辑回归分析长与宽之间的关系 18313.4使用分类和聚类对鸢尾花数据集进行处理 18413.4.1使用聚类分析对数据集进行聚类处理 18413.4.2使用分类分析对数据集进行分类处理 18713.5最终的判定——决策树测试 18813.5.1决定数据集的归类——决策树 18813.5.2决定数据集归类的分布式方法——随机雨林 19013.6小结 191
作者介绍
王晓华,高校资深计算机专业讲师,主要研究方向为云计算、数据挖掘;曾主持和参与多项国家和省级科研课题,发表过多篇论文,有一项专利。
序言
— 没有更多了 —
以下为对购买帮助不大的评价