消息首页搜索举报

Spark机器学：技术与实践

15.23 2.2折 69 九品

仅1件

江苏盐城

认证卖家担保交易快速发货售后保障

作者亚历克斯·特列斯

出版社机械工业出版社

ISBN9787111598466

出版时间2018-06

装帧其他

开本16开

定价69元

货号9787111598466

上书时间2024-06-26

书友kw2869753的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 19小时
好评率暂无

最新上架

人工智能:智能驾驶 ¥15.33

企业境外及香港上市全程指引 ¥13.23

孩子过敏，自然疗法80种 ¥13.34

商业地产项目策划--范本·案例·策划·工具 ¥11.66

小小儿巧巧手奇妙彩泥 ¥8.72

企鹅杜比的自然课堂(全3册) ¥23.00

服务营销:服务价值链的卓越管理 ¥12.18

7天攻克500强面试英语 ¥11.76

疯狂Spring Cloud微服务架构实战 ¥13.70

商品详情

品相描述：九品

商品描述: 作者简介
Alex Tellez是一名终身的数据黑客/爱好者，对数据科学及其在商业问题上的应用充满了激情。他在多个行业拥有丰富的经验，包括银行业、医疗保健、在线约会、人力资源和在线游戏。Alex还在各种人工智能/机器学习会议上进行过多次演讲，同时也在大学讲授关于神经网络的课程。闲暇时间，Alex喜欢和家人在一起，骑自行车！
Max Pumperla是一名数据科学家和工程师，专注于深度学习及其应用。他目前在Skymind担任深度学习工程师，并且是aetros.com的联合创始人。Max是几个Python软件包的作者和维护者，包括elephas，一个使用Spark的分布式深度学习库。他的开源足迹包括对许多流行的机器学习库的贡献，如keras、deeplearning4j和hyperopt。他拥有汉堡大学的代数几何博士学位。
Michal Malohlava是Sparkling Water的创建者、极客和开发者，Java、Linux、编程语言爱好者，拥有10年以上的软件开发经验。他于2012年在布拉格的查尔斯大学获得博士学位，并在普渡大学攻读博士后。

目录
译者序
关于作者
前言
第1章  大规模机器学习和Spark入门
  1.1 数据科学
  1.2 数据科学家：21世纪最炫酷的职业
    1.2.1 数据科学家的一天
    1.2.2 大数据处理
    1.2.3 分布式环境下的机器学习算法
    1.2.4 将数据拆分到多台机器
    1.2.5 从Hadoop MapReduce到Spark
    1.2.6 什么是Databricks
    1.2.7 Spark包含的内容
  1.3 H2O.ai简介
  1.4 H2O和Spark MLlib的区别
  1.5 数据整理
  1.6 数据科学：一个迭代过程
  1.7 小结
第2章  探索暗物质：希格斯玻色子
  2.1 Ⅰ型错误与Ⅱ型错误
    2.1.1 寻找希格斯玻色子
    2.1.2 LHC和数据的创建
    2.1.3 希格斯玻色子背后的理论
    2.1.4 测量希格斯玻色子
    2.1.5 数据集
  2.2 启动Spark与加载数据
    2.2.1 标记点向量
    2.2.2 创建训练和测试集合
    2.2.3 第一个模型：决策树
    2.2.4 下一个模型：集合树
    2.2.5 最后一个模型：H2O深度学习
    2.2.6 构建一个3层DNN
  2.3 小结
第3章  多元分类的集成方法
  3.1 数据
  3.2 模型目标
    3.2.1 挑战
    3.2.2 机器学习工作流程
    3.2.3 使用随机森林建模
  3.3 小结
第4章  使用NLP和Spark Streaming预测电影评论
  4.1 NLP简介
  4.2 数据集
  4.3 特征提取
    4.3.1 特征提取方法：词袋模型
    4.3.2 文本标记
  4.4 特征化——特征哈希
  4.5 我们来做一些模型训练吧
    4.5.1 Spark决策树模型
    4.5.2 Spark朴素贝叶斯模型
    4.5.3 Spark随机森林模型
    4.5.4 Spark GBM模型
    4.5.5 超级学习器模型
  4.6 超级学习器
    4.6.1 集合所有的转换
    4.6.2 使用超级学习器模型
  4.7 小结
第5章  word2vec预测和聚类
  5.1 词向量的动机
  5.2 word2vec解释
    5.2.1 什么是单词向量
    5.2.2 CBOW模型
    5.2.3 skip-gram模型
    5.2.4 玩转词汇向量
    5.2.5 余弦相似性
  5.3 doc2vec解释
    5.3.1 分布式内存模型
    5.3.2 分布式词袋模型
  5.4 应用word2vec并用向量探索数据
  5.5 创建文档向量
  5.6 监督学习任务
  5.7 小结
第6章  从点击流数据中抽取模式
  6.1 频繁模式挖掘
  6.2 使用Spark MLlib进行模式挖掘
    6.2.1 使用FP-growth进行频繁模式挖掘
    6.2.2 关联规则挖掘
    6.2.3 使用prefix span进行序列模式挖掘
    6.2.4 在MSNBC点击流数据上进行模式挖掘
  6.3 部署模式挖掘应用
  6.4 小结
第7章  使用GraphX进行图分析
  7.1 基本的图理论
    7.1.1 图
    7.1.2 有向和无向图
    7.1.3 阶和度
    7.1.4 有向无环图
    7.1.5 连通分量
    7.1.6 树
    7.1.7 多重图
    7.1.8 属性图
  7.2 GraphX分布式图计算引擎
    7.2.1 GraphX中图的表示
    7.2.2 图的特性和操作
    7.2.3 构建和加载图
    7.2.4 使用Gephi可视化图结构
    7.2.5 图计算进阶
    7.2.6 GraphFrame
  7.3 图算法及其应用
    7.3.1 聚类
    7.3.2 顶点重要性
  7.4 GraphX在上下文中
  7.5 小结
第8章  Lending Club借贷预测
  8.1 动机
    8.1.1 目标
    8.1.2 数据
    8.1.3 数据字典
  8.2 环境准备
  8.3 数据加载
  8.4 探索——数据分析
    8.4.1 基本清理
    8.4.2 预测目标
    8.4.3 使用模型评分
    8.4.4 模型部署
  8.5 小结

内容摘要
作为一名具有机器学习和统计背景的开发人员，你是否感受到了当前缓慢的“小数据”机器学习工具的限制？那么亚历克斯·特列斯、马克斯·帕普拉、
迈克尔·马洛赫拉瓦著的《Spark机器学习(核心技术与实践)/大数据技术丛书》就是为你而写！在本书中，你将会使用Spark创建可扩展的机器学习应用，为现代的数据驱动业务提供支持。
本书从MLlib和H2O库定义的机器学习原语开始，你将学到如何使用二分类检测由CERN粒子对撞机产生
的大量数据中的希格斯波色子，并使用多元分类的集成方法对日常身体活动进行分类。接下来，你将解决一个涉及航班延误预测的典型回归问题，并编写复杂
的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。最后，你将会使用MLlib构建不同的模式挖掘模型，使用Spark和SparkSQL对DataFrame进行复杂的操作，并在Sparkstreaming环境中部署你的应用。

— 没有更多了 —