内容摘要 第1 章引论 1.1 推荐系统概述 1.1.1 推荐系统:动机与现状 因特网的崛起和迅猛发展使人们获得了前所未有的自由信息空间,也使得世界范围内的信息处于大爆炸状态,造成信息量大、信息质量差、信息价值低等问题,用户难以从过量信息中获取对自己有用的部分,这就是所谓的信息过载(information overload)[1] 。正如文献[2]中所言,数据是广泛可用的,所缺乏的是从中提取出知识的能力。为应对信息过载问题,大量信息过滤网络工具应运而生,人们最常用的莫过于门户网站和搜索引擎,但这些工具都是以面向人们主流需求为主,且用户获取信息的方式是“被动”的。 显然,考虑个性化需求,将有用信息以“主动”方式推送(push) 给用户不仅能过滤信息,而且能增强用户体验,推送的信息也更符合用户个体的需求。简信息聚合(really simple syndication,RSS)是一种在主动信息推送服务方面的典型工具。RSS 是一种消息来源格式规范,能够将新闻标题、摘要、内容按照用户的要求“送”到用户桌面。但是,在RSS 中,用户兴趣通常是由用户预先给定的关键词来描述,但缺乏自动挖掘用户兴趣的功能。 推荐系统(recommender systems) 是一种为用户提供建议的智能化软件工具,是解决信息过载问题非常有潜力的方法[3] 。推荐系统的研究与开发始于20 世纪90 年代初期。第一个推荐系统是Tapestry[4] ,是针对电子邮件的推荐系统。该推荐系统通过分析用户阅读邮件的历史行为来对新邮件重新排序,试图将用户更感兴趣的新邮件推荐给他/她。更为重要的是,Tapestry 首次提出了协同过滤(collaborative filtering,CF)的概念[4] 。后续的推荐系统领域研究表明,协同过滤对推荐系统的发展产生了深远影响,成为关注最多、应用最广泛的方法之一。 推荐系统与以搜索引擎为代表的信息检索技术本质区别[5] 在于:①搜索注重结果之间的关系和排序,而推荐则需研究用户兴趣模型,即结合考虑用户与推荐对象的特征;②搜索由用户主导,包括输入查询词和选择结果,若结果不好,用户会修改查询再次搜索,而推荐则由系统主导用户的浏览顺序,主动引导用户发现需要的结果。 ·2·电子商务推荐系统导论 从20 世纪90 年代初期到现在,推荐系统受到学术界和工业界的长期关注,成为炙手可热的研究议题。推荐系统是一门典型的交叉学科,涵盖计算机科学、电子商务、人类社会学、物理学、经济学等诸多领域,图1.1 给出2013 年国际顶级会议ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 投稿数量的分布,可以看出,推荐系统在20 个领域中排名第三,其热度由此可见一斑。从2007 年开始,ACM 设立了专门讨论推荐系统的国际会议,ACM Recommender Systems Conference (RecSys) 至今已举办8 届,其知名度持续上升。从2006 年开始,美国密歇根大学Paul Resnick 教授开设了“推荐系统”课程。 图1.1 KDD 2013 年投稿数量领域分布 随着社会网络、物联网、大数据等新概念和新技术的出现和升温,信息过载问题将日益严重,同时,工业界的需求导致用户对信息获取方式的要求也变得越来越高。推荐系统作为既能应对信息过载,又能智能化地为用户主动推送信息的强有力手段,可以预计,在今后数十年内,推荐系统仍然将获得持续关注,更加有效和高效的推荐系统将在人类信息化进程中扮演越来越重要的角色。 1.1.2 电子商务:推荐系统最重要的应用领域 Companies need to shift from the old world of mass production where “standardized products, homogeneous markets, and long product life and development cycles were the rule” to the new world where “variety and customization supplant standardized products”. quoted from “Mass Customization”by Joe Pine[6] 第1 章引论·3· 以上内容引自Joe Pine 的著作“Mass Customization”,说明了企业由传统模式过渡到现代模式的法则,需要从传统标准化商品过渡到多样化的定制商品,其隐含意思就是充分考虑用户个性化需求。这段话恰当地说明了推荐系统为何在电子商务领域得到良好发展和应用的原因。用户的需求通常是模糊的,而商家期望能够把满足用户模糊需求的商品推荐给用户,把用户潜在需求转化为现实需求,从而达到提升商品销售量的目标。 电子商务将企业的销售行为从线下实体店销售搬到了在线销售,用户行为和商品信息的数字化更加促进推荐系统的应用。目前,几乎所有的大型电子商务网站都不同程度地采用了推荐系统[5] ,电子商务成为推荐系统最重要的应用领域,同时,电子商务企业的应用和研究也促进了推荐系统的发展,比如,Amazon 在10 年前提出了基于项目的协同过滤方法[7] ,并沿用至今。推荐系统为电子商务企业带来了新的营销观念,即“一对一营销”,正如Amazon CEO Jeff Bezos 所说,“如果我们有200 万个网络客户,我们就需要在线储备200 万种商品”。总的来说,推荐系统能为电子商务企业带来以下三方面的收益[8] 。 (1) 提升浏览到购买的转化率。网站访问者经常漫无目的地浏览网站,却不购买任何商品,推荐系统能帮助访问者发现其感兴趣的商品,从而促进访问者到购买者的转化。 (2) 提升交叉销售量。推荐系统通过向用户推荐与其已购买商品相关联的商品,用户在购买的最后步骤,网站会向用户推荐与购物车内商品极为相关的附属商品。 (3) 提升用户忠诚度。如何提升用户忠诚度或黏粘度是电子商务网站的核心商业策略之一,推荐系统建立起网站与用户之间的联系,为提升用户忠诚度提供附加值,用户往往会重复访问与其兴趣偏好相匹配的网站,甚至会将这些网站推荐给自己的朋友圈。 在竞争日趋激烈的环境下,电子商务推荐系统能够为电子商务网站有效保留用户,提高电子商务系统绩效,产生巨大的经济效益。构建一个推荐效率高、精度高而且UI 界面合理的商品推荐系统对于电子商务网站的发展十分重要,推荐系统也因此成为工业界的关注热点。 1.1.3 推荐系统:形式化建模 一般地,推荐系统包含两类实体:用户(user)和项目(item) 。用户是指被推荐对象,无需过多解释。而项目则是指推荐对象,推荐系统领域的所有英文文献都使用“item”一词来表达,本书统一将“item ”译为“项目”,泛指不同领域的推荐对象。比如,电子商务推荐系统中,项目表示商品或物品;音乐和电影推荐系统中,项目则表示CD 和DVD;新闻推荐系统中,项目又表示新闻网页,等等。尽管“项目”有可能与英语“project”一词相混淆,但是,将推荐实体“item ”译为“项目”在 ·4·电子商务推荐荐系统导论 推荐系统领域的中文文献中广广泛出现[5,9-12]]。 推荐系统输入数据的最简单形式是用户户对项目的评分分数据,称为用用户-项目评分矩阵(user-iteem rating matriix),大部分数据据集采用5 分制制(或5 星制)评评分,即5 分表示最满意,依依次递减。尽管管实际电子商务务系统提供了用用户对购买中不不同方面的评分,如图1.2 所所示的淘宝网评评分体系,就支持持“宝贝与描述述相符”、“卖家家服务态度”、“卖家发货速度度”3 种不同子子项。但是,在在推荐系统形式式化建模时却通通常只考虑综合评分。同时,用户-项目评评分矩阵不一定定都是显式给出出,也可以基于于隐含的用户和项目关系推测得到。如果用用户对某项目评评过分,其偏好好已经从用户--项目评分矩阵中反映出来,,已评分项目就就不作为推荐给给用户的候选对象象。因此,推荐荐系统工作时试图预测用户对对未评分项目的的偏好程度,由预测分值反映。。基于上述分析析,推荐系统 本质是基于已有 有的用户-项目评 : (评分矩阵称为训.
以下为对购买帮助不大的评价