消息首页搜索举报

基于Spark的下一代机器学习：XGBoost、LightGBM、Spark NLP与Keras分布式深度学习实例

24 2.4折 99 九品

仅1件

北京丰台

认证卖家担保交易快速发货售后保障

作者[美]布奇·昆托（Butch Quinto）

出版社机械工业出版社

出版时间2021-05

版次1

装帧其他

货号B55

上书时间2024-11-22

洪威书店

六年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 18小时
好评率暂无

最新上架

中国新闻政策体系研究（书内页干净） ¥8.00

中国电影意境论（书内页干净） ¥9.00

中国电影专业史研究 ¥33.00

伟大传统：诗经二十讲（书内页干净） ¥20.00

全球通史：从史前史到21世纪（第7版修订版）(下册) ¥5.00

体育赛事：电视公用信号制作标准指南（缺少光盘） ¥46.00

电影本体心理学：电影和无意识（书内页干净） ¥40.00

图解山海经：中国的创世史诗 ¥5.00

觅渡（修订版）书内页干净 ¥5.00

商品详情

品相描述：九品

图书标准信息

作者 [美]布奇·昆托（Butch Quinto）
出版社机械工业出版社
出版时间 2021-05
版次 1
ISBN 9787111681250
定价 99.00元
装帧其他
开本 16开
纸张胶版纸
页数 296页
字数 56千字

【内容简介】: 本书先简单介绍了Spark和Spark MLlib，然后介绍标准Spark MLlib库之外的更强大的第三方机器学习算法和库。通过阅读本书，你将能够通过几十个实际的例子和深刻的解释，将所学到的知识应用到真实世界的用例。
【作者简介】: 布奇昆托是intelvi ai这家人工智能公司的创始人兼首席人工智能官，该公司为国、和交通行业开发很好解决方案。作为首席人工智能官，butch负责战略、创新、研究和开发。此前，他曾在一家领先的技术公司担任人工智能主管，在一家人工智能初创公司担任首席数据官。
【目录】: 前言

致谢

关于作者

关于技术审校人员

第1章　机器学习介绍  1

1.1　人工智能和机器学习用例  2

1.1.1　零售业  2

1.1.2　交通运输  3

1.1.3　金融服务  3

1.1.4　医疗保健和生物技术  3

1.1.5　制造业  3

1.1.6　政府部门  4

1.2　机器学习与数据  4

1.3　机器学习方法  6

1.3.1　有监督学习  6

1.3.2　无监督学习  6

1.3.3　半监督学习  6

1.3.4　强化学习  6

1.4　深度学习  7

1.5　神经网络  7

1.6　卷积神经网络  7

1.7　特征工程  7

1.7.1　特征选择  8

1.7.2　特征重要性  9

1.7.3　特征提取  9

1.7.4　特征构建  9

1.8　模型评估  10

1.8.1　准确率  10

1.8.2　精度  10

1.8.3　召回率  11

1.8.4　F1度量  11

1.8.5　AUROC  11

1.9　过拟合与欠拟合  12

1.10　模型选择  12

1.11　总结  12

1.12　参考资料  13

第2章　Spark和Spark MLlib

介绍  16

2.1　概述  16

2.2　架构  17

2.3　执行Spark应用程序  19

2.3.1　集群模式  19

2.3.2　客户端模式  19

2.4　spark-shell介绍  19

2.4.1　SparkSession  20

2.4.2　弹性分布式数据集  21

2.5　Spark SQL、DataSet和DataFrame的 API  29

2.6　Spark数据源  31

2.6.1　CSV  31

2.6.2　XML  31

2.6.3　JSON  32

2.6.4　关系数据库和MPP数据库  33

2.6.5　Parquet  36

2.6.6　HBase  36

2.6.7　Amazon S3  41

2.6.8　Solr  42

2.6.9　Microsoft Excel  43

2.6.10　SFTP  44

2.7　Spark MLlib介绍  44

2.8　ML管道  46

2.8.1　管道  47

2.8.2　转换器  47

2.8.3　估计器  47

2.8.4　ParamGridBuilder  47

2.8.5　CrossValidator  47

2.8.6　评估器  47

2.9　特征提取、转换和选择  48

2.9.1　StringIndexer  48

2.9.2　Tokenizer  49

2.9.3　VectorAssembler  50

2.9.4　StandardScaler  51

2.9.5　StopWordsRemover  52

2.9.6　n-gram  52

2.9.7　OneHotEncoderEstimator  53

2.9.8　SQLTransformer  54

2.9.9　词频–逆文档频率  55

2.9.10　主成分分析  57

2.9.11　ChiSqSelector  57

2.9.12　Correlation  58

2.10　评估指标  60

2.10.1　AUROC  60

2.10.2　F1度量  61

2.10.3　均方根误差  61

2.11　模型持久化  62

2.12　Spark MLlib示例  62

2.13　图处理  66

2.14　超越Spark MLlib：第三方机器学习集成  66

2.15　利用Alluxio优化Spark和Spark MLlib  66

2.16　为什么使用Alluxio  68

2.16.1　显著提高大数据处理性能和可扩展性  68

2.16.2　多个框架和应用程序可以以读写内存的速度共享数据  69

2.17　在应用程序终止或失败时提供高可用性和持久性  71

2.18　优化总体内存使用并最小化垃圾收集  74

2.19　降低硬件要求  74

2.20　Apache Spark和Alluxio  75

2.21　总结  75

2.22　参考资料  76

第3章　有监督学习  79

3.1　分类  79

3.1.1　分类类型  79

3.1.2　Spark MLlib分类算法  80

3.1.3　第三方分类和回归算法  85

3.1.4　使用逻辑回归算法的多类别分类  86

3.1.5　使用随机森林算法进行流失预测  95

3.1.6　使用XGBoost4J-Spark的极端梯度提升算法  108

3.1.7　LightGBM：来自微软的快速梯度提升算法  118

3.1.8　使用朴素贝叶斯进行情感分析  127

3.2　回归  133

3.2.1　简单线性回归  134

3.2.2　使用XGBoost4J-Spark进行多元回归分析  137

3.2.3　使用LightGBM进行多元回归分析  143

3.3　总结  148

3.4　参考资料  149

第4章　无监督学习  154

4.1　k-means聚类算法  154

4.2　使用隐含狄利克雷分布进行主题建模  162

4.2.1　Stanford CoreNLP  163

4.2.2　John Snow实验室的Spark NLP  164

4.2.3　示例  170

4.3　使用孤立森林进行异常检测  182

4.3.1　参数  185

4.3.2　示例  186

4.4　使用主成分分析进行降维  188

4.5　总结  197

4.6　参考资料  197

第5章　推荐  200

5.1　推荐引擎的种类   201

5.1.1　使用交替最小二乘法的协同过滤  201

5.1.2　参数  203

5.1.3　示例  203

5.2　使用FP增长进行购物篮分析  209

5.2.1　示例  210

5.2.2　基于内容的过滤  217

5.3　总结  218

5.4　参考资料  218

第6章　图分析  221

6.1　图介绍  221

6.1.1　无向图  221

6.1.2　有向图  222

6.1.3　有向多重图  222

6.1.4　属性图  223

6.2　图分析用例  223

6.2.1　欺诈检测和反洗钱  224

6.2.2　数据治理和法规遵从性  224

6.2.3　风险管理  224

6.2.4　运输  225

6.2.5　社交网络  225

6.2.6　网络基础

点击展开点击收起

— 没有更多了 —