【正版9新】 Scala机器学习 9787111572152 【消毒塑封】
【消毒塑封 】 【正版9新】
¥
13
2.2折
¥
59
九五品
库存2件
作者(美)亚历克斯·科兹洛夫|译者:罗棻//刘波
出版社机械工业
ISBN9787111572152
出版时间2017-07
装帧其他
开本16开
定价59元
货号9787111572152
上书时间2024-12-13
商品详情
- 品相描述:九五品
- 商品描述
-
作者简介
亚历克斯·科兹洛夫是一名多学科的大数据科学家。自1991年来到硅谷起就创办了几家计算机和数据管理公司。期间,他师从DaphneKoller和JohnHennessy两位教授,于1998年获得斯坦福大学博士学位。他目前是企业安全初创公司E8Security的首席解决方案架构师,曾在Cloudera、HP公司的HPLabs工作。
目录
译者序
前言
第1章 探索数据分析
1.1 Scala入门
1.2 去除分类字段的重复值
1.3 数值字段概述
1.4 基本抽样、分层抽样和一致抽样
1.5 使用Scala和Spark的Note-book工作
1.6 相关性的基础
1.7 总结
第2章 数据管道和建模
2.1 影响图
2.2 序贯试验和风险处理
2.3 探索与利用问题
2.4 不知之不知
2.5 数据驱动系统的基本组件
2.5.1 数据收集
2.5.2 数据转换层
2.5.3 数据分析与机器学习
2.5.4 UI组件
2.5.5 动作引擎
2.5.6 关联引擎
2.5.7 监控
2.6 优化和交互
2.7 总结
第3章 使用Spark和MLlib
3.1 安装Spark
3.2 理解Spark的架构
3.2.1 任务调度
3.2.2 Spark的组件
3.2.3 MQTT、ZeroMQ、Flume和Kafka
3.2.4 HDFS、Cassandra、S3和Tachyon
3.2.5 Mesos、YARN和Standa-lone
3.3 应用
3.3.1 单词计数
3.3.2 基于流的单词计数
3.3.3 Spark SQL和数据框
3.4 机器学习库
3.4.1 SparkR
3.4.2 图算法:Graphx和Graph-Frames
3.5 Spark的性能调整
3.6 运行Hadoop的HDFS
3.7 总结
第4章 监督学习和无监督学习
4.1 记录和监督学习
4.1.1 Iirs数据集
4.1.2 类标签点
4.1.3 SVMWithSGD
4.1.4 logistic回归
4.1.5 决策树
4.1.6 bagging和boosting:集成学习方法
4.2 无监督学习
4.3 数据维度
4.4 总结
第5章 回归和分类
5.1 回归是什么
5.2 连续空间和度量
5.3 线性回归
5.4 logistic回归
5.5 正则化
5.6 多元回归
5.7 异方差
5.8 回归树
5.9 分类的度量
5.10 多分类问题
5.11 感知机
5.12 泛化误差和过拟合
5.13 总结
第6章 使用非结构化数据
6.1 嵌套数据
6.2 其他序列化格式
6.3 Hive和Impala
6.4 会话化
6.5 使用特质
6.6 使用模式匹配
6.7 非结构化数据的其他用途
6.8 概率结构
6.9 投影
6.10 总结
第7章 使用图算法
7.1 图简介
7.2 SBT
7.3 Scala的图项目
7.3.1 增加节点和边
7.3.2 图约束
7.3.3 JSON
7.4 GraphX
7.4.1 谁收到电子邮件
7.4.2 连通分量
7.4.3 三角形计数
7.4.4 强连通分量
7.4.5 PageRank
7.4.6 SVD++
7.5 总结
第8章 Scala与R和Python的集成
8.1 R的集成
8.1.1 R和SparkR的相关配置
8.1.2 数据框
8.1.3 线性模型
8.1.4 广义线性模型
8.1.5 在SparkR中读取JSON文件
8.1.6 在SparkR中写入Parquet文件
8.1.7 从R调用Scala
8.2 Python的集成
8.2.1 安装Python
8.2.2 PySpark
8.2.3 从Java/Scala调用Python
8.3 总结
第9章 Scala中的NLP
9.1 文本分析流程
9.2 Spark的MLlib库
9.2.1 TF-IDF
9.2.2 LDA
9.3 分词、标注和分块
9.4 POS标记
9.5 使用word2vec寻找词关系
9.6 总结
第10章 高级模型监控
10.1 系统监控
10.2 进程监控
10.3 模型监控
10.3.1 随时间变化的性能
10.3.2 模型停用标准
10.3.3 A/B测试
10.4 总结
内容摘要
亚历克斯·科兹洛夫著的《Scala机器学习》全面而系统地讲解怎么使用scala在Spark平台上实现机器学习算法,其中Scala的版本为2.11.7,Spark采用基于Hadoop2.6的版本,都是比较新的版本,并且书中还提供大量有针对性的编程实例,可以帮助你快速提高自己的工程实战能力。
全书共10章,第1章介绍数据分析师如何开始数据分析;第2章介绍数据驱动过程;第3章介绍Spark体系结构以及MLlib所支持几个算法;第4章介绍机器学习的基本原理,讨论两种不同的机器学习方法——监督学习和无监督学习;第5章通过具体的算法实例介绍回归和分类;第6章详细介绍显示、存储以及改进非结构化数据的方法;第7章深入介绍Scala的图(graph)库以及算法的实现;第8章探讨Scala与R和Python的集成;第9章介绍自然语言处理(NLP)的一些常用算法,同时介绍一些特别适合Scala编程的算法;第10章介绍现有Scala监控解决方案。
— 没有更多了 —
以下为对购买帮助不大的评价