英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
一种基于用户和作者共同作用影响的协同过滤音乐推荐方法1
Diego Sanchez-Moreno,Ana B.Gil Gonzalez,M.Dolores Munoz Vicente,Vivian F.Lopez Batista,Maria N.Moreno Garcia
摘要:随着数字音乐的蓬勃发展,音乐信息过载问题日益突出,音乐推荐系统成为研究热点。然而,为了实现有效的推荐,必须解决一些重要的问题;目前,相关学者提出很多方法来解决冷启动问题和新对象问题,但是为gray-sheep(孤独用户)提供推荐的研究相对较少。解决此问题的大多数方法都是基于内容的,因此需要获取项目信息,但这些信息往往难以获取。另一个显着的缺点是难以获得用户的反馈意见,这是建立推荐模型所必需的,这导致了众所周知的稀疏性问题。本文提出了一种基于播放系数的推荐方法,用于解决上述系统缺点。结果证明,该方案优于其他协同过滤方法,包括利用用户贡献的协同过滤方法。
关键词:协同过滤;音乐推荐;孤独用户问题
1.引言
目前的音乐平台可通过网站和移动应用为用户提供海量歌曲。这也导致了起源于信息检索的信息过载问题,用户难以找出喜欢的音乐。为了使发现音乐的过程更容易,许多平台都提供搜索服务,其中一些平台具有推荐机制。然而,在最后一种情况下,有必要解决推荐系统的一些常见问题。
协同过滤方法广泛应用于推荐系统中,根据用户对项目的评分进行推荐,协同过滤的推荐方法可以去的很好的效果。然而以用户的评分形式获取用户反馈是困难的,当项目评分数量小于某一定量时会发生的数据稀疏问题。这是影响该方法在众多系统中得到应用的主要缺点,解决这个问题的方法是从用户行为中导出隐含的评分。
协同过滤有两种方法:基于记忆和基于模型的算法。最早使用的基于记忆的算法,也称为最近邻方法。他们处理所有用户项目以找到具有相似偏好(邻居)的用户。这些算法的优点是快速引入最新的信息,但是由于大型数据库中的邻居搜索速度较慢,因此会带来可扩展性问题。基于模型的协同过滤算法通过使用来自用户的评级而非用户相似性来处理可扩展性问题,考虑到如果项目被相同用户喜欢/不喜欢,则认为项目是相似的。向用户提供推荐时,预计用户对类似项目具有类似的偏好。
协同过滤方法的其他缺点是早期评估者问题和冷启动问题。第一个是在系统中引入新产品时发生的。这些物品从未被评为过,因此不能作出推荐。由于新用户对产品没有任何评分,冷启动问题会影响对新用户提供推荐,
基于内容的算法作为协同推荐方法的替代方案,可以避免前文提到的的缺点。这些方法可用于通过利用其特征来推荐任何种类的物品。因此,可以根据用户对过去感兴趣的其他项目的相似性对新项目进行推荐。孤独用户问题也可以使用基于内容的方法取解决。这些用户有不寻常的偏好, 因此没有足够的邻居作为参照来提供相似推荐。
目前的推荐系统大多采用混合推荐技术,旨在利用两种方法的优势,并避免其缺点。这些方法考虑到其他用户的偏好以及项目和用户的特征(年龄,性别,职业...)。因此,可以根据其特点为新用户提供。
尽管大量文献中提出了很多关于改善推荐系统的建议,但是关于孤独用户问题的关注较少,主要通过基于内容的混合方法来解决,虽然可以取得较好的效果,但这些方法需要获取难以获得的项目和用户的信息。在音乐推荐系统的上下文中,基于内容的推荐算法使用音乐内容来引出模型,因此音乐特征的提取是十分必要的。本文提出的建议方法解决了上述缺点,即使有少量信息可用,只要采集用户和艺术家标识以及用户在平台中播放歌曲的次数,就可以将推荐过程并入任何音乐平台,而不需要收集评分数据。
本文的其余部分组织如下:第2节包括对特别关注协作过滤的推荐方法的现状进行描述。 第3节介绍了所提出的方法,第4节报告了对其验证进行的实证研究。最后,第5节给出了结论和展望。
2.相关工作
大多数当前的推荐系统使用基于协同过滤的方法。协同过滤的目的是预测目标用户对项目的评级,同时考虑到与此目标用户具有与先前评估的项目相似的偏好的用户。Usenet新闻集团研究系统(Resnick,Iacovou,Suchack,Bergstrom,&Riedl,1994)是第一个使用协同过滤推荐系统的平台,Ringo(Sarwar,Karypis,Konstan,&Riedl,2001)是最受欢迎的基于协同过滤的音乐推荐系统。
协同过滤的方法要求以用户评分形式获取对项目的个人偏好,这通常很难获得,这是这种方法的主要缺点之一,即稀疏性问题,当预测所需的数量大于从用户获得的数量时就会出现稀疏性问题。用户花费时间检查项目是获取隐式用户偏好的另一种方法(Sarwar,2001),但是它需要处理日志文件,并且关于用户偏好的隐含信息不如显式评级那样可靠。在音乐推荐方面,提出了几种处理这个问题的方法。用户的访问历史被视为在基于音乐和用户分组的音乐推荐系统中获取用户兴趣的隐式方式(Chen&Chen,2005)。在使用last.fm数据库的几个作品中,用户播放歌曲(播放次数)的时间将通过不同的功能(Lee&Lee,2015; Vargas&Castells,2011)转换为评分。评级(无论是隐含的还是隐性的)都被排列在用户项目评级矩阵中,矩阵的空元素表示未被相应用户评级的项目。
在基于记忆的协同过滤方法(Resnick,1994)中,邻居是与活跃用户具有相似偏好的用户,因为他们已经对相似得分进行了共同评分,这些方法需要使用整个评估矩阵来计算用户之间的相似度。因此,计算时间增长与客户数量和系统中的项目数量呈线性关系。这种性能下降(称为可扩展性问题)对用户响应时间有直接的影响,因为在推荐时间计算相似度。有不同的措施来获得相似性。然而,最广泛的是Pearson相关系数和余弦相似度(Breese,Heckerman,&Kadie,1998)。 Pearson相关通常提供比余弦相似性更好的结果,但其计算成本更高。在Sarwar等人提出了基于模型的协同过滤推荐。可扩展性问题(Schafer,Konstant,&Riedl,2001)与基于记忆的推荐通过预先计算项目之间的相似性,为用户提供推荐。因为对大评级数据库中的项目的新评级不会显示改变项目之间的相似性,特别是对于大多数评级的项目。相反,预先计算用户之间的相似性将不会有效,因为用户的邻域是从他的评级和其他用户的评级中获得的,这些用户不断的变化和增加(Ekstrand,Riedl,&Konstan,2010 )。计算项目相似度有几个程序,然而,余弦相似性是最广泛的方法,因为它的简单、有效,和比Pearson系数相比结果更加。基于项目的方法提供的推荐通常不及比基于记忆的方法,但适用于有可扩展性问题的大型系统。例如,它们已经在像亚马逊这样的流行系统中使用(Lucas,2013)。另一种基于模型的算法通过数据挖掘技术构建用户偏好的预测模型。在评级中,项目或用户的其他属性可用于引导模型,因此此过程还涉及基于内容的方法。数据挖掘方法通常在稀疏性表现更好,特别是基于关联的方法(Lucas,Lau,2000,Morenoamp;Teisseire),能够避免可扩展性问题,因为当用户需要推荐时已经建立了预测模型。因此,计算时间对用户的响应时间没有影响。这些技术的主要不足之处在于需要频繁更新模型,以便整合用户生成的最新信息。更重要的是,数据挖掘方法需要比简单的评级数据更多的信息。
基于用户和基于项目的协同过滤的常见缺点是上一节所述的冷启动和早期(第一评分)问题。在这些情况下,如果不能向新用户提供建议或不能推荐新产品,则可以采用基于内容的方法。他们首先用于通过比较其内容和与用户个人资料相关的其他文件的内容来推荐文本文档,但不考虑其他用户的意见(Lee,Kim,&Rhee,2001)。目前,他们已经通过将项目的其他特征替换文档内容来扩展到其他领域(Billsus&Pazzani,1999; Krulwich&Burkey,1996)。他们还利用项目之间的相似性,但是他们不需要评级数据,因为它们利用项目的其他特征来计算相似度。一些基于内容的方法使用距离度量,例如余弦相似度,而其他方法则采用数据挖掘方法。在音乐领域,诸如标题,艺术家,流派和歌词之类的项目的元数据可以被用作内容属性,而且可以被利用为诸如音色,旋律,节奏或和声的音频特征。在Tzanetakis(2002)中,从和弦结构(谱,节奏和和声)确定相似性。旋律风格是Kuo and Shan(2002)使用音乐特色进行音乐推荐。提出了一种基于内容的方法,其中通过从用户的音乐访问行为挖掘旋律模式来学习旋律样式中的对象的分类,并且学习用户的音乐喜好。在Cataltepe(2007)中,对音频内容的不同特征进行了类似歌曲的聚类,以便向用户提供来自适当群集的音乐的建议。采取用户的收听行为来确定该人的最佳群集。Chen and Chen(2005)在音乐推荐的基础上,根据音调,节奏,响度和功能特征对音乐对象进行分类,使用的内容是数据项的元数据,其包括音乐作品的标题,作者,流派和歌词。虽然这些方法对于解决冷启动和早期问题很有帮助,但是由于内容相似性不能很好地反映用户偏好,因此它的推荐效果不如协同过滤方法。
目前,混合技术是推荐系统中最广泛实现的技术,旨在解决基于协同过滤和基于内容的方法的局限性。这些方法将不同类别的协同过滤方法与其他推荐技术(如基于内容的方案)相结合(Su&Khoshgoftaar,2009)。基于记忆的和基于模型的协同过滤方法的组合是构建混合协同过滤出方法的常见方式,通常比单独应用的单一方法产生更好的建议(Yu,Schwaighofer,Tresp,Xu,&Kriegel,2004)。此外,已经提出了许多协同过滤和基于内容的混合方法的建议,目的是提高预测性能(Melville,Mooney,&Nagarajan,2002)以及处理稀疏性和冷启动问题(Lucas et al,2013; Moreno,Segrera,Loacute;pez,&Muntilde;oz,2016; Su,Greiner,Khoshgoftaar,&Zhu,2007)。音乐推荐系统的发展也采用了混合策略。在Yoshi,Goto,Komatani,Ogata和Okuno(2006)中,使用直接描述不可观察的用户偏好的潜在变量将评级和内容数据进行关联。不可观察的用户偏好被表示为在贝叶斯网络中统计估计和引入的一组初始变量。卢和津(2009)提出了另一种混合音乐推荐系统。其作者提出了一种基于内容的方案,用于推荐未分级音乐,基于其他用户建议的推荐协作算法和基于情绪的推荐过程,通过计算用户兴趣和音乐情感之间的差异来确定用户感兴趣的音乐。使用基于用户监听行为的加权系统来组合三种方法。该提案要求用户填写问卷,以便发现他们的兴趣,这种方法并不总是可行的。最近,许多混合推荐系统利用社交媒体和其他网络资源,收集在推荐过程中有用的信息(邓,王,李,徐,2015; Hyung,Lee,&Lee,2014)。
上文所描述的推荐方法类别没有专门应对孤独用户问题的策略。具有不寻常偏好的用户通常由于没有相似用户而不能受到满意的推荐,(Claypool,1999)。此外,孤独用户不仅受到这个问题的影响,大量孤独用户的存在可能对整个社区的推荐质量有重要的影响(Ghazanfar&Pruuml;gel -Bennett,2014)。基于内容的方法可以缓解这个问题,但它们不是最终的解决方案。语义挖掘是另一种可用于解决孤独用户问题的方法。语义信息按顺序添加到可用数据中,以这种方式,它能够生成更可靠的基于内容的模型,可以与其他方法相结合,以改进建议(Kim,Alkhaldi,El Saddik,&Jo,2011; Moreno,2016)。在Cantador,Bellogiacute;n和Castells(2008)中,作者利用领域本体在相似度计算之前对多层次兴趣社区中的用户和项目进行分类。这些类型的方法不容易扩展,因为每个应用程序域都将涉及定义特定本体的耗时任务。现有文献中提出的解决孤独用户问题的方法大多非常复杂,有时需要不可用的附加信息。然而,针对孤独用户问题,更为广泛和简单的方法是聚类方法的应用(Ghorbani&Novin,2016)。Ghazanfar和Pruuml;gel-Bennett(2014)进行了关于在推荐系统中使用多样化聚类技术的综合评估。此外,这些作者提供自己的建议来解决孤独用户问题。他们使用k-均值算法来生成群集,以便检测孤独用户,并根据其画像为他们提供建议,而通过基于聚类的协同过滤算法获得剩余用户的建议,他们还分析了不同距离度量对建议质量的影响。在一些作品中,聚类技术同时用于解决稀疏和孤独用户问题,有些作者认为这两个问题是相关的。在卢卡斯等人从先前聚类数据引出模糊类关联规则,以便为具有不同归属度的每个用户分配多个集群。孤独用户的模拟场景证明了该方法的有效性。将该方法在旅游系统中实施的过程是困难的,需要了解用户和项目信息。Shepitsen,Gemmell,Mobasher和Burke(2008)使用last.fm数据集,以验证一种层次聚类聚类方法,用于为用户推荐资源。据我们所知,用于处理孤独用户问题所提出的所有方法都需要使用用户或项目属性。
3.推荐方法
本文提出的推荐程序旨在当基于内容和评分信息不可用时提供可靠的推荐,这些改进建议主要是针对孤独用户,因为他们的存在对其建议以及对其他用户的建议有负面影响。然而,与文献中的大多数方法相比,既不把孤独用户与其他用户对待同样对待,也不将其分为不同的组,我们的策略包括确定每个用户的系数,表示孤独用户的程度。我们的建议是基于使用隐含信息来获取用户偏好以及表征用户和要推荐的项目。具体来说,我们通过使用从last.fm数据库获取的信息,设计了一种推荐作者的算法。播放次数,即每个用户收听特定作者的次数,被视为了解用户偏好的隐含信息。戏剧的数量也用作输入,以计算作者的听力系数,以表示他们的受欢迎程度。听众系统和用户对他们喜欢的作者都是根据他们偏好程度来表示的。以这种方式,孤独用户通过考虑他们听的作者来识别,与一些
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28008],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。