计算机科学丛书统计推荐系统 9787111635734
正版图书,可开发票,请放心购买。
¥
74.42
8.4折
¥
89
全新
库存7件
作者[美] 迪帕克·K. 阿加瓦尔(Deepak K. Agarwal) 陈必衷
出版社机械工业出版社
ISBN9787111635734
出版时间2019-09
装帧平装
开本16开
定价89元
货号27943319
上书时间2024-10-26
商品详情
- 品相描述:全新
- 商品描述
-
前言
这本书讲什么
推荐系统是一类自动化的计算机程序,能够在不同场景下将物品和用户进行匹配。推荐系统无处不在,已然成为我们日常生活的一部分。例如,亚马逊购物网站上的产品推荐,雅虎上的内容推荐,Netflix上的电影推荐,领英上的工作推荐等。匹配算法的构建需要用到大量高频数据,它们来源于用户与物品的历史交互行为。从本质上来看,推荐算法属于统计学范畴,在序贯决策过程、高维类别数据的建模以及开发可伸缩的统计方法等领域都面临着挑战。在推荐系统领域,算法的推陈出新依赖于计算机科学家、机器学习专家、统计学家、优化专家、系统专家,当然还有领域专家之间的密切合作。可以说,推荐系统是大数据领域振奋人心的应用之一。
我们为什么写这本书
虽然计算机科学、机器学习和统计学等领域已有大量关于推荐系统的书籍,但它们仅针对问题的某些特定方面,没有综合考虑所有的统计问题,也没有分析这些统计问题是如何相互关联的。而我们也是在雅虎和领英部署推荐系统时才意识到这个问题,例如,统计学和机器学习的重点在于小化样本外的预测误差,但达成这个目标并不意味着实践中的所有重要问题都得到了解决。从统计学意义上来说,推荐系统是一个高维序贯过程,研究实验设计类问题与开发精密的统计模型一样重要。事实上,这两者关系密切,高效的实验设计需要借助模型克服维数灾难。此外,大多数现有工作倾向于对单一反馈建模,例如电影评分、购买和点击率。但随着Facebook、领英和推特等社交媒体的兴起,多种反馈随之而来,例如,一个新闻推荐应用可能需要同时对用户的点击率、分享率和发文率这三类数据建模。这种面向多种反馈的建模是很有挑战性的。后的问题是,即便我们获得了能够实现这种多变量预测的方法,又该如何构建效用函数去完成推荐呢?优化分享率比优化点击率更重要吗?关于这些问题的解答,我们可以与多目标优化领域的专家密切合作,利用多目标优化来获得一些效用参数。
本书的目的是对推荐系统中的问题进行全面讨论,另外,也对当前的统计方法,如自适应序贯设计(多臂赌博机方法)、双线性随机效应模型(矩阵分解)以及现代的基于分布式计算框架的可伸缩模型,进行详细且深入的探讨。我们希望通过本书分享我们在工业界开发大规模推荐系统的丰富经验,也希望能够引起统计学、机器学习和计算机科学等领域相关人士的关注。我们相信,这对许多方面都是有益的。本书有助于推进高维大数据统计的研究,这类研究尤其有利于Web应用的发展。此类学术研究离不开处理海量数据的软件,为此,我们将本书用到的隐因子模型的代码公布在以下网址:https://github.com/beechung/Latent-Factor-Models。我们也相信本书能够成为连接理论研究与实际应用的桥梁。一方面,本书可以帮助对推荐有疑惑的学者理解推荐系统中的统计知识;另一方面,如果建模人员在实际应用中遇到复杂的统计问题,本书也能提供深入的解答。
章节组织结构
本书共分为三个部分。
在部分中,我们将介绍推荐系统问题、存在的挑战、应对挑战的主要思路以及所需的背景知识。在第2章中,我们将概述几种开发推荐系统的经典方法。这些方法将用户和物品表示为特征向量,然后通过一些相似度计算函数、标准监督学习或协同过滤来预测用户-物品的评分。这些经典方法通常会忽略推荐问题中探索与利用之间的权衡。因此,我们将在第3章论述在推荐系统中权衡探索与利用的重要性,并介绍用它解决后面章节中问题的主要思路。在深入研究技术性方案之前,我们将在第4章回顾一些用于评估不同推荐算法性能的方法。
在第二部分中,我们将提供针对常见问题设置的详细解决方案。在第5章中,我们将介绍不同的问题设置,并展示一个系统架构案例。接下来的三章分别对应三个常见的问题设置。第6章将为热门推荐问题提供几种解决方案,尤其注重探索和利用之间的权衡。第7章将基于特征回归解决个性化推荐问题,重点在于如何利用的用户-物品交互数据不断更新模型,使其快速收敛至。第8章将第7章中基于特征的回归模型扩展成因子模型(矩阵分解),同时还将为因子模型中的冷启动问题提供一个合适的解决方案。
在第三部分中,我们将讨论三个进阶主题。在第9章中,我们将介绍一个结合隐含狄利克雷分布(LDA)主题模型的矩阵分解模型,该模型可以同时确定物品蕴涵的主题和用户对不同主题的偏好度。在第10章中,我们将研究上下文相关推荐问题,即物品不仅需要与用户具有高度的关联性,还必须与上下文相关(例如,推荐与用户正在阅读的新闻相关的物品)。在第11章中,我们将讨论一个基于约束优化方法的多目标优化框架,试图在其他目标的有界损失范围内(例如,点击损失不超过5%)化某一特定目标(例如,收入)。
缺点
与其他书籍一样,本书也难免存在不足。首先,我们没有深入涉及现代计算框架,比如可以用来拟合一定规模模型的Spark框架。其次,如果用户构成了一个社交网络,那么传统的实验设计方法无法用于模型的在线评估,这就需要我们开发适用于社交图谱推理的新技术。以上这些进阶主题都不在本书的范围内。全书从始至终都将基于回归的
作者简介
---作者简介---
迪帕克·K. 阿加瓦尔(Deepak K. Agarwal) LinkedIn公司副总裁,领导人工智能/机器学习团队的研发工作。之前曾任Yahoo!研究院研究主管和首席研究员,以及AT&T公司研究员。20多年来,他致力于为Web应用开发、部署机器学习和统计方法,以及解决推荐系统和计算广告领域的大数据问题。
陈必衷(Bee-Chung Chen) LinkedIn公司首席主任工程师、应用研究员,曾任Yahoo!研究院研究员。作为核心开发者,他为LinkedIn和Yahoo!设计了前沿的推荐算法,此外,他还关注数据挖掘、机器学习和大数据分析技术。
---译者简介---
戴薇 深圳大学计算机与软件学院研究生,主要研究方向为迁移学习、推荐系统和机器学习。
潘微科 深圳大学计算机与软件学院副教授,主要研究方向为迁移学习和推荐系统。
明仲 深圳大学计算机与软件学院院长、教授,大数据系统计算技术国家工程实验室执行主任,主要研究方向为人工智能、软件工程和推荐系统。
目录
出版者的话
译者序
前言
部分 基础知识
第1章 简介2
1.1 面向网络应用的推荐系统概述3
1.1.1 算法3
1.1.2 优化指标5
1.1.3 探索与利用之间的权衡5
1.1.4 推荐系统的评估5
1.1.5 推荐和搜索:推送与拉取6
1.2 一个简单的评分模型:热门推荐7
1.3 练习10
第2章 经典推荐方法11
2.1 物品特征11
2.1.1 分类12
2.1.2 词袋模型13
2.1.3 主题建模15
2.1.4 其他物品特征16
2.2 用户特征16
2.2.1 声明的个人信息17
2.2.2 基于内容的画像17
2.2.3 其他用户特征18
2.3 基于特征的方法18
2.3.1 无监督方法18
2.3.2 有监督方法19
2.3.3 上下文信息22
2.4 协同过滤22
2.4.1 基于用户-用户相似度的方法23
2.4.2 基于物品-物品相似度的方法24
2.4.3 矩阵分解24
2.5 混合方法27
2.6 小结28
2.7 练习28
第3章 面向推荐问题的探索与利用29
3.1 探索与利用之间的权衡简介30
3.2 多臂赌博机问题31
3.2.1 贝叶斯方法31
3.2.2 极小化极大方法34
3.2.3 启发式赌博方案35
3.2.4 方法评价36
3.3 推荐系统中的探索与利用36
3.3.1 热门推荐36
3.3.2 个性化推荐36
3.3.3 数据稀疏性的挑战37
3.4 处理数据稀疏性的探索与利用37
3.4.1 降维方法37
3.4.2 降维中的探索与利用39
3.4.3 在线模型39
3.5 小结40
3.6 练习40
第4章 评估方法41
4.1 传统的离线评估方法41
4.1.1 数据划分方法42
4.1.2 准确度指标44
4.1.3 排序指标45
4.2 在线分桶测试49
4.2.1 设置分桶测试49
4.2.2 在线性能指标50
4.2.3 测试结果分析51
4.3 离线模拟52
4.4 离线回放54
4.4.1 基本回放估计55
4.4.2 回放的扩展57
4.5 小结58
4.6 练习58
第二部分 常见问题设置
第5章 问题设置与系统架构60
5.1 问题设置60
5.1.1 常见的推荐模块60
5.1.2 应用设置63
5.1.3 常见的统计方法65
5.2 系统架构66
5.2.1 主要组件66
5.2.2 示例系统67
第6章 热门推荐69
6.1 应用案例:雅虎“今日”模块69
6.2 问题定义71
6.3 贝叶斯方案72
6.3.1 2×2案例:两件物品,两个间隔73
6.3.2 K×2案例:K件物品,两个间隔75
6.3.3 一般解77
6.4 非贝叶斯方案79
6.5 实验评估81
6.5.1 比较分析81
6.5.2 方案刻画83
6.5.3 分段分析85
6.5.4 桶测试结果86
6.6 大规模内容池87
6.7 小结87
6.8 练习88
第7章 基于特征回归的个性化89
7.1 快速在线双线性因子模型90
7.1.1 FOBFM概述90
7.1.2 FOBFM详解91
7.2 离线训练93
7.2.1 EM算法94
7.2.2 E步骤95
7.2.3 M步骤96
7.2.4 可扩展性97
7.3 在线学习97
7.3.1 在线高斯模型97
7.3.2 在线逻辑模型98
7.3.3 探索与利用方案99
7.3.4 在线模型选择99
7.4 雅虎数据集上的效果展示100
7.4.1 My Yahoo!数据集101
7.4.2 雅虎首页数据集103
7.4.3 不包含离线双线性项的FOBFM105
7.5 小结105
7.6 练习106
第8章 基于因子模型的个性化107
8.1 面向回归的隐因子模型107
8.1.1 从矩阵分解到RLFM108
8.1.2 模型详解109
8.1.3 RLFM的随机过程112
8.2 拟合算法113
8.2.1 适用于高斯响应的EM算法114
8.2.2 适用于逻辑响应的基于ARS的EM算法118
8.2.3 适用于逻辑响应的变分EM算法121
8.3 冷启动效果展示124
8.4 时间敏感物品的大规模推荐127
8.4.1 在线学习127
8.4.2 并行拟合算法128
8.5 大规模问题效果展示130
8.5.1 MovieLens-1M数据131
8.5.2 小规模雅虎首页数据132
8.5.3 大规模雅虎首页数据134
8.5.4 结果讨论137
8.6 小结138
8.7 练习138
第三部分 进阶主题
第9章 基于隐含狄利克雷分布的分解140
9.1 简介140
9.2 模型141
9.2.1 模型概述141
9.2.2 模型详解142
9.3 训练和预测145
9.3.1 模型拟合145
9.3.2 预测150
9.4 实验150
9.4.1 MovieLens数据150
9.4.2 Yahoo! Buzz应用151
9.4.3 BookCrossing数据集153
9.5 相关工作154
9.6 小结155
第10章 上下文相关推荐156
10.1 张量分解模型157
10.1.1 建模157
10.1.2 模型拟合158
10.1.3 讨论159
10.2 层次收缩模型160
10.2.1 建模160
10.2.2 模型拟合161
10.2.3 局部增强张量模型164
10.3 多角度新闻文章推荐165
10.3.1 探索性数据分析166
10.3.2 实验评估171
10.4 相关物品推荐176
10.4.1 语义相关性177
10.4.2 响应预测177
10.4.3 预测响应和预测相关性的结合178
10.5 小结178
第11章 多目标优化179
11.1 应用设置179
11.2 分段方法180
11.2.1 问题设置180
11.2.2 目标优化181
11.3 个性化方法183
11.3.1 原始表示184
11.3.2 拉格朗日对偶185
11.4 近似方法188
11.4.1 聚类188
11.4.2 采样189
11.5 实验189
11.5.1 实验设置190
11.5.2 实验结果191
11.6 相关工作197
11.7 小结198
参考文献199
索引205
主编推荐
---作者简介---
迪帕克·K. 阿加瓦尔(Deepak K. Agarwal) LinkedIn公司副总裁,领导人工智能/机器学习团队的研发工作。之前曾任Yahoo!研究院研究主管和首席研究员,以及AT&T公司研究员。20多年来,他致力于为Web应用开发、部署机器学习和统计方法,以及解决推荐系统和计算广告领域的大数据问题。
陈必衷(Bee-Chung Chen) LinkedIn公司首席主任工程师、应用研究员,曾任Yahoo!研究院研究员。作为核心开发者,他为LinkedIn和Yahoo!设计了前沿的推荐算法,此外,他还关注数据挖掘、机器学习和大数据分析技术。
---译者简介---
戴薇 深圳大学计算机与软件学院研究生,主要研究方向为迁移学习、推荐系统和机器学习。
潘微科 深圳大学计算机与软件学院副教授,主要研究方向为迁移学习和推荐系统。
明仲 深圳大学计算机与软件学院院长、教授,大数据系统计算技术国家工程实验室执行主任,主要研究方向为人工智能、软件工程和推荐系统。
— 没有更多了 —
以下为对购买帮助不大的评价