评估协同过滤推荐系统外文翻译资料

 2023-08-31 09:53:45

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


推荐系统已经用许多通常无法比拟的方式进行了评估。在本文中,我们将回顾评估协同过滤推荐系统的关键决策:正在评估的用户任务,使用的分析和数据集类型,预测质量的测量方法,质量以外的预测属性评估,以及基于用户的系统评估整体。除了回顾先前研究人员使用的评估策略之外,我们还提供了对一个内容领域的各种准确度指标的分析的实证结果,其中所有测试的指标大致折叠为三个等价类。每个等价类中的度量标准是强相关的,而来自不同等价类的度量标准是不相关的。

类别和主题描述:H.3.4 [信息存储和检索]:系统和软件 - 性能评估(效率和有效性)

一般条款:实验,测量,性能

附加关键词和短语:协作过滤,推荐系统,指标,评估

1. 介绍

推荐系统使用用户社区的意见来帮助社区中的个人有效地从一系列潜在的压倒性选择中识别出感兴趣的内容[Resnick和Varian,1997年]。推荐系统最成功的技术之一,称为协同过滤,已经在过去的十年中发展和改进了各种各样的生成算法建议。每种算法方法都有追随者声称它在某些目的上优越。清楚地为某一特定目的确定最佳算法已被证明具有挑战性,部分原因是研究人员不同意应该测量哪些属性,每个属性应该使用哪些度量标准。研究者调查文献将发现十多个量化指标和额外的定性评估技术。

评估推荐系统及其算法本质上是不同的,原因有几个。首先,不同的算法在不同的数据集上可能更好或更差。许多协作过滤算法专门为用户数多于项目数的数据集而设计(例如,movielens数据集有65000个用户和5000部电影)。这样的算法可以在一个项目比用户多的领域是完全不合适的(例如,一个拥有数千个用户,但需要推荐数万或数十万篇文章的研究论文推荐者)。对于数据集的评级密度、评级尺度和其他属性,也存在类似的差异。.

评估困难的第二个原因是执行评估的目标可能不同。许多早期评估工作都专注于协作过滤算法在“预测”保留评级中的“准确性”。即使是早期研究人员也认识到,然而,当推荐者用于支持决策时,衡量系统引导用户选择错误的频率可能更有价值。 Shardanand和Maes [1995]测量了“逆转” - 预测和实际评级之间的大误差;我们使用了接收器工作特性曲线[Swets 1963]的信号处理测量来测量推荐者作为滤波器的潜力[Konstan et al。 1997年]。其他工作推测,有些属性与准确性不同,对用户满意度和性能影响较大。一系列的研究和系统已经考虑了一些措施,包括建议涵盖整个项目的程度[Mobasher et al。 2001年],建议的程度是非显而易见的[McNee et al。 2002],以及推荐人向用户解释他们建议的能力[Sinha和Swearingen 2002]。一些研究人员认为,这些问题都是细节,而且是推荐人的底线衡量标准

系统成功应该是用户满意度。商业系统通过购买(而不是退回!)产品的数量来衡量用户满意度,而非商业系统可能只是问用户他们是多么满意

最后,在决定在比较评价中采用哪种方法组合时,存在着重大的挑战。我们最近注意到了一个趋势——许多研究人员发现,他们最新的算法在电影评级数据集上产生的平均绝对误差为0.73(在五点评级尺度上)。尽管新算法通常比旧算法表现得更好,但我们发现,当每种算法都调整到最佳状态时,它们都会产生类似的质量度量。我们——以及其他人——推测我们可能正在达到某种“魔法屏障”,在那里,自然变异可能会阻止我们变得更加准确。为了支持这一点,Hill等人[1995]已经表明,当用户被要求在不同的时间对同一部电影进行评分时,他们提供的评分不一致。他们认为,对于同一个项目,一个算法不能比用户评分的方差更精确。

即使精度差异是可测量的,它们通常也是很小的。在五点评分量表中,用户对平均绝对误差0.01的变化是否敏感?这些观察表明,协同过滤系统的算法改进可能来自不同的方向,而不仅仅是平均绝对误差的持续改进。也许最好的算法应该根据它们与用户的推理交流得有多好,或者根据它们能给出准确建议的数据有多少来衡量。如果这是真的,将需要新的度量来评估这些新算法。

本文提出了对推荐系统评价的六个具体贡献。

(1) 我们引入一组推荐人任务,对特定推荐人系统的用户目标进行分类。.

(2) 我们讨论了选择合适的评估数据集。我们探讨了何时可以使用现有数据集离线完成评估,以及何时需要在线实验。我们将讨论合成数据集,并更广泛地回顾在选择用于评估的数据集时应考虑的数据集的特性。

(3) 我们调查了过去用于评估推荐系统的评估指标,从概念上分析了它们的优缺点。

(4) 我们报告了一组不同准确度评估指标对一个数据集的结果进行比较的实验结果。我们证明了度量标准大致可以分解为三个等价类。.

(5) 通过对数据集上的一组广泛的度量进行评估,我们表明,对于某些数据集,虽然许多不同的度量具有很强的相关性,但有一些度量类别是不相关的。

(6) 我们回顾了广泛的非准确性指标,包括建议涵盖项目集的程度、建议的新颖性和偶然性以及推荐系统中的用户满意度和行为的度量。.

在我们的讨论中,我们将对文献中所做的回顾与新任务和方法的介绍分开。

我们希望本文的主要读者将是协作过滤研究人员,他们希望对以前的研究和协作过滤从业者评估新算法,这些从业者在将它们部署到推荐系统之前正在评估算法。.

推荐系统的某些方面,我们已经特别排除在本文的范围之外。特别是,我们决定避免大范围的市场激励评估。在评估营销活动方面,有大量的工作是基于诸如接受报价和提升销售等措施[Rogers 2001]。虽然推荐人在这一领域得到了广泛的应用,但我们不能在这个话题的现有报道中增加太多内容。我们也不讨论接口的一般可用性评估。这一主题在研究和从业者文献(例:Helander[1988]和Nielsen[1994])中有很好的阐述,我们选择不讨论推荐算法的计算性能。这样的性能当然是很重要的,而且在未来,我们希望有关于时间限制和内存限制的建议的质量方面的工作。然而,这一领域才刚刚出现(例如,参见Miller等人关于推荐手持设备的最新研究[Miller等人2003年),目前还没有足够的研究来进行调查和综合。最后,我们不讨论推荐算法的健壮性和透明性这一新出现的问题。我们认识到,推荐系统对攻击操作的稳健性(以及公开系统操作员操作的透明性)很重要,但在评估此类稳健性和透明性之前,需要在这一领域开展更多的工作。

文章的其余部分安排如下:

— 第2节。我们确定了确定评估方法的关键用户任务,并建议了尚未广泛评估的新任务。

— 第3节。关于影响选择进行评估的数据集的因素的讨论。.

— 第4节。用于评估协同过滤预测和建议准确性的指标调查。Accu-racy是迄今为止最常见的协作过滤系统评估方法。本节还包括对度量之间相关性的实证研究的结果。

— 第5节。讨论评估除准确性以外的维度的度量。除了涵盖文献中使用的维度和方法之外,我们还引入了新的维度,我们认为应该对这些维度进行评估。

— 第6节。最后结论,包括我们认为未来工作特别有必要的领域列表。

第2-5节被要求大致按照我们期望评估员采取的顺序讨论评估步骤。因此,第2节描述了适当用户任务的选择,第3节讨论了数据集的选择,第4节和第5节讨论了可应用于所选数据集的可选度量。我们从讨论用户任务开始——用户任务为评估设置了整个上下文。

2. 推荐系统的用户任务

为了正确评估推荐系统,了解推荐系统的目标和任务是很重要的。在本文中,我们主要关注最终用户的目标和任务(而不是市场营销人员和其他系统参与者的目标)。我们从研究文献和部署的系统中得出这些任务。对于每项任务,我们将讨论其对评估的影响。虽然我们已经确定的任务是重要的,但根据我们在推荐系统研究方面的经验和我们对已发表研究的回顾,我们认识到这个列表是不完整的。随着研究人员和开发人员进入新的推荐领域,我们希望他们会发现补充这个列表和/或用特定领域的任务修改这些任务是有用的。我们的目标主要是识别与领域无关的任务描述,以帮助区分不同的评估度量。

我们已经在协作过滤文献中确定了两个已详细讨论过的用户任务:

上下文中的注释。最初的推荐方案是通过结构化的讨论帖子过滤,以决定哪些文章值得阅读。Tapestry[Goldberg等人1992]和Grouplens[Resnick等人1994年]两者都将其应用于已经结构化的消息数据库。此任务需要重新维护消息的顺序和上下文,并相应地使用预测来注释上下文中的消息。在某些情况下,过滤掉了“最坏”的消息。同样的场景,在现有的环境中使用推荐者,也被在现有链接上覆盖预测信息的网络推荐者使用[Wexelblat和Maes 1999]。用户使用显示的预测来决定要读取哪些消息(或要遵循哪些链接),因此,评估预测的最重要因素是预测如何成功帮助用户区分所需和不需要的内容。一个主要的因素是推荐者是否能够为用户正在查看的项目生成预测。

找到好项目。 在Tapestry和GroupLens之后不久,根据实际建议开发了多个系统,其焦点更加直接。Ringo[Shardannand and Maes 1995]和Bellcore视频推荐人[Hill等人1995]都提供了向用户推荐特定项目的界面,为用户提供推荐项目的排名列表,以及用户对其喜欢程度的预测。这是一个核心的推荐任务,它在各种各样的研究和商业系统中重复出现。在许多商业系统中,显示了“最佳匹配”建议,但预测的评级值没有。

虽然这两个任务可以在许多不同的域中相当普遍地被识别,但在每个域中,上述任务可能有许多专门化。我们介绍了影响第3.3节中这些专门化的一些领域特征。

尽管文献中最常见的评价任务是上下文注释和发现好的项目,但研究文献中还没有很好地描述其他重要的一般任务。下面我们将介绍在与用户的访谈以及与推荐系统设计师的讨论中遇到的其他几个用户任务。我们之所以提到这些任务,是因为我们认为应该对它们进行评估,但由于推荐系统文献中没有对它们进行讨论,因此我们不再进一步讨论它们。

找到所有好东西。大多数推荐人的任务集中在寻找一些好的物品上。这并不奇怪;导致推荐系统出现问题的原因之一是过载,大多数用户似乎愿意忽略一些好的项目以筛选出许多坏的项目。然而,我们与法律数据库行业的公司的讨论却指向相反的方向。寻找先例的律师认为不忽视一个可能的案件是非常重要的。事实上,他们愿意投入大量的时间(和客户的钱)来寻找这个案例。要在实践中使用推荐者,首先需要确保假阴性率足够低。与上下文中的注释一样,覆盖率在这个任务中变得特别重要。

推荐顺序。我们在使用个人广播网站Launch(launch.yahoo.com)时首先注意到了这个任务,它基于各种推荐算法流媒体音乐。发布有几个有趣的因素,包括推荐“已评级”项目的可取性,尽管不太常见。然而,让我们感兴趣的是从一次推荐一首歌到推荐一个整体上令人满意的序列的挑战。同样的任务也适用于推荐研究论文以了解某个领域(阅读本简介,然后阅读该调查hellip;).虽然数据挖掘研究已经探索了产品购买时间和顺序,但我们不知道有任何推荐应用程序或研究直接解决了这一任务。

只是浏览。推荐人通常是根据他们如何帮助用户做出消费决策来进行评估的。在与我们的movielens系统、amazon.com和其他几个网站的用户交谈时,我们发现,他们中的许多人甚至在没有即将购买的时候也会使用这个网站。他们觉得浏览很愉快。无论是将这项活动建模为学习或娱乐,似乎大量使用推荐人只是在没有其他动机的情况下使用推荐人。对于这些情况,算法的准确性可能比接口易用性以及所提供信息的级别和性质更不重要。

找到可信的推荐人。这是从与用户的讨论中收集到的另一项任务。用户不会自动信任推荐者,这并不奇怪。他们中的许多人会“玩”一会儿,看看推荐人是否符合他们的口味。我们已经听到很多用户抱怨他们在电影院里看自己最喜欢(或最不喜欢)的电影——他们不是为了了解电影,而是为了检查我们。一些用户甚至更进一步。尤其是在商业网站上,他们尝试更改他们的赞成的文件,以查看推荐的项目是如何更改的。他们探索这些建议,试图找到任何偏见的迹象。为产生“有用”建议而优化的推荐人(例如,对用户尚不知道的项目的推荐)可能无法看起来可信,因为它不推荐用户肯定喜欢但可能已经知道的电影。我们不知道如何让推荐人看起来可信的任何研究,尽管有更多关于让网站引起信任的普遍研究[贝利等人.2001]。

大多数推荐系统的评估都集中在推荐上;但是如果用户不评价项目,那么协作过滤推荐系统就不能提供推荐。因此,评估用户是否贡献评级以及为什么贡献评级可能对沟通推荐系统可能成功很重要。我们将简要介绍几个不同的评级任务。

改进配置文件。大多数推荐系统已经完成的评级任务。用户贡献评级是因为他们相信他们正在改善自己的形象,从而提高他们将收到的建议的质量。

表达自我。一些用户可能不关心这些建议-对他们来说重要的是允许他们贡献自己的评级。许多用户只是想要一个论坛来表达他们的意见。我们与“超级用户”的电影进行了互动,这些电影的评级超过了1000部(有些超过2000部)。我们了解到,这些用户并不是为了改进他们的建议而评分的。他们是因为感觉很好才评分的。我们在类似amazon.com这样的网站上特别看到了这种效果,在那里用户可以发布亚马逊销售商品的评论(评级)。对于具有此任务的用户,问题可能包括匿名级别(根据用户的不同,匿名级别可以是好的也可以是坏的)、贡献感以及贡献的容易程度。虽然推荐算法本身可能不会引起自我表达,但鼓励性的自我表达可以提供更多的数据,从而提高推荐的质量。

帮助其他人。一些用户乐于在推荐系统中提供评级,因为他们相信社区得益于他们的贡献。在许多情况下,他们也会输入评分来表达自己(参见前面的任务)。然而,这两个并不总是在一起。

影响他人。我们和其他基于网络的推荐系统的实施者遇到了一个不幸的事实,即推荐系统的用户的目标是明确地影响其他人查看或购买特定项目。例如,特定

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[609247],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。