结合基于内容和协同过滤的工作推荐系统:一种成本敏感的统计关系学习方法
关键词:推荐系统,基于内容的过滤,协同过滤,统计关系学习
摘要:
推荐系统通常涉及利用描述项目的已知特征和内容之间的关系(基于内容的过滤)或与目标项目交互或评价目标项目的相似用户的重叠(协作过滤)。为了结合这两种过滤方法,当前基于模型的混合推荐系统通常需要大量的特征工程来构建用户配置文件。统计关系学习 (SRL) 通过直接表示相关对象属性之间的概率依赖关系的能力,提供了一种将这两种方法结合起来的直接方法。然而,由于现实世界推荐系统中使用的数据规模庞大,很少有研究将 SRL 模型应用于混合推荐系统,而且基本上没有一项研究应用于真正的大数据规模系统。在本文中,我们提出了一种方法来调整 SRL 方法中的最新技术来构建真正的混合工作推荐系统。此外,为了满足推荐系统中的一个常见要求(即误报更不受欢迎,因此应该比漏报更严厉地惩罚),我们的方法还可以允许在系统的精度和召回率之间进行权衡有原则的方式。我们的实验结果证明了我们提出的方法的效率以及它在推荐精度方面的改进性能。
- 介绍
随着推荐系统的兴起,推荐系统通过为音乐、电影、书籍、住房、工作等无数产品提供个性化建议,极大地减轻了用户的信息过载。自 1990 年代中期以来,不仅推荐系统的新理论已经提出,但他们的应用软件也已经开发出来,涉及各个领域,包括电子政务、电子商务、电子商务/电子购物、电子学习等[1]。我们考虑了一个特定的推荐系统领域,即工作推荐领域,并为该领域提出了一种使用统计关系学习的新方法。这个域很容易扩展到数十亿个项目,包括用户简历和职位发布,以及这些项目之间用户交互形式的更多数据。 CareerBuilder 是我们实验数据的来源,它运营着世界上最大的求职委员会之一。它有数百万个职位发布,超过 6000 万份可主动搜索的简历,超过 10 亿份可搜索文档,并且每小时接收数百万次搜索 [2]。数据的规模并不是这个领域唯一有趣的方面,然而。工作推荐用例本质上是关系型的,很容易允许使用图挖掘和关系学习算法。如图 1 所示,在同一用户申请的工作之间以及在具有相似偏好的用户之间存在非常相似的关系。如果我们将每个职位或用户视为具有各种属性的对象,则目标之间匹配的概率用户和作业不仅取决于这两个目标对象的属性(即目标用户和目标作业),还取决于相关对象的属性,例如用户的模式以前申请的工作,居住在同一城市或具有相同教育水平的用户的行为。正如我们在这项工作中所展示的,可以使用更丰富的建模技术来忠实地确定这些关系。然而,由于大多数统计关系学习方法都涉及与相关对象数量成指数关系的搜索空间,因此如何在如此大规模的现实问题中有效地构建具有统计关系学习的混合推荐系统仍然是该领域的挑战。
最流行的推荐方法之一是基于内容的过滤[3],它利用(历史上)应用于工作的关系和新工作机会中的相似特征之间的关系(特征通常来自文本信息)。 另一种推荐方法是基于协同过滤[4],它利用了对同一项目感兴趣的用户通常对其他项目也有相似的偏好这一事实。 显然,同时使用这两种类型的信息可能会产生更强大的推荐系统,这就是开发基于模型的混合推荐系统的原因 [5]。 虽然成功,但这些系统通常需要广泛的特征工程才能使组合实用。
我们试图通过经验验证的假设是,机器学习和人工智能领域的最新进展可能会导致强大且可部署的推荐系统。特别是,我们评估了利用统计关系学习(SRL)[6],它将丰富形式的表示能力(如一阶逻辑或关系逻辑)与概率论模拟不确定性的能力。我们采用最先进的 SRL 形式来结合基于内容的过滤和协同过滤。 SRL 可以直接表示来自不同对象的属性之间的概率依赖关系,这些对象通过一定的联系(在我们的域,例如,同一用户申请的工作或具有相同技能或雇主的用户)。 SRL 模型消除了广泛的特征工程过程的必要性,并且它们不需要为每个单独的项目或用户集群学习单独的推荐模型,这是许多标准基于模型的推荐系统的要求 [4,7]
我们提出了一种结合基于内容的过滤和协同过滤的混合模型,该模型通过有效的统计关系学习方法-关系函数梯度提升 (RFGB) [8] 来学习。具体来说,我们将目标关系定义为 Match(User, Job),这表明当基础关系为真时,用户-工作对是匹配的,因此应该向目标用户推荐该工作。任务是根据职位发布信息、用户个人资料、申请历史以及具有相似偏好或个人资料作为目标用户。 RFGB 是一个增强模型,它包含多个关系回归树,在每条路径的汇节点处具有加性回归值。我们的假设是,这些树可以捕获目标用户与他/她匹配的工作之间存在的许多弱关系。
此外,该领域具有必须考虑的实际要求。 例如,我们宁愿忽略一些可能与用户匹配的职位(误报),也不愿向用户发送大量带有不适当职位推荐的垃圾邮件(误报)。 因此,成本矩阵不包含统一的成本值,而是需要为误报的用户-作业对表示与误报相比更高的成本,即精度优于召回率。 为了将这些领域知识纳入成本矩阵,我们改编了 [9] 中的先前工作,该工作通过在 RFGB 的目标函数中引入惩罚项来扩展 RFGB,以便在准确率和召回率之间的权衡可以在 学习过程。
总之,我们考虑了将用户与工作匹配的问题,并开发了一种混合的基于内容的过滤和协同过滤方法。我们采用了一种成功的 SRL 算法来学习特征和权重,并且是第一个在现实世界的大数据环境中实现这种系统的人。我们的算法能够处理误报和误报的不同成本,使其在部署时极具吸引力多种推荐系统,包括我们测试过的领域内的推荐系统。我们提出的方法具有三个主要创新:1.它是第一个使用概率逻辑模型构建现实世界的大规模工作推荐系统的工作; 2. 这是第一个允许推荐者将不平衡成本矩阵的特殊领域要求纳入模型学习过程的工作; 3. 首次证明了统计关系学习将协同过滤和基于内容的过滤与现实世界的工作推荐系统数据相结合的有效性
- 相关工作
推荐系统通常根据有关目标用户-项目对以及其他相关项目和用户的信息来处理为某些用户估计项目的相关性或评级的任务。 推荐问题通常表述为 f:U times; I→R 其中 U 是所有用户的空间,I 是所有可能项目的空间,f 是将用户-项目对的所有组合投影到一组预测的效用函数 由非负整数组成的评级 R。 对于某个用户 u,推荐的项目将是具有最佳效用值的项目,即 ulowast;i = argMaxiisin;I f(u, i)。 用户空间 U 包含所有用户的信息,例如他们的人口统计特征,而项目空间 I 包含所有项目的特征信息,例如音乐的流派、电影的导演或作者的一本书。
一般而言,基于内容的过滤的目标是根据正在考虑的项目与用户之前认为有趣的项目之间的特征相似性来定义推荐 [10],即目标用户项目评分 f(u^, ^i ),基于内容的过滤将基于 f(u^, Ih) 的效用函数预测最优推荐,f(u^, Ih) 是用户 u^ 对与 i^i 相似的项目 (Ih) 的历史评分信息。鉴于它们起源于信息检索和信息过滤领域,大多数基于内容的过滤系统都应用于文本信息丰富的项目。从这些文本信息中,项目特征 I 被提取并表示为关键字,并通过某些机制计算出相应的权重度量,例如词频/逆文档频率 (TF/IDF) 度量 [11]。然后,用户 U 的特征空间是从该用户之前通过各种关键字分析技术(如平均方法 [12]、贝叶斯分类器 [7] 等)评价过的项目的特征空间构建的。最后,效用函数目标用户-项目对 f(u^, ^i) 是通过一些评分启发式计算的,例如用户配置文件向量和项目特征向量之间的余弦相似度 [11] 或一些传统的机器学习模型 [7]。过度专业化是基于内容的过滤的问题之一,其中包括用户获得的推荐与他们之前评价的项目过于相似或从未获得与他们已经看到的项目足够多样化的推荐的情况。此外,由于基于模型的基于内容的过滤是基于目标用户之前的评分项目构建其推荐模型,因此需要提前对大量项目进行评分才能给出准确的推荐,尤其是对于概率机器学习需要在特征空间维度的指数尺度上训练示例数量的模型。
另一方面,协同过滤的目标是通过向具有相似偏好的用户学习来推荐项目 [10,13-15],即对于目标用户项目评分 f(u^, ^i),协同过滤建立了它的信念通过学习 f(Us, ^i) 的效用函数得到最佳推荐,f(Us, ^i) 是与目标用户 u^ 具有相似偏好的用户集 Us 的评分信息。常用的方法分为两类:基于内存(或基于启发式)和基于模型的系统。基于启发式的方法通常通过聚合最相似用户对同一项目的评分来预测目标用户-项目对的评分,这些评分具有各种聚合函数,例如均值、相似度加权平均值、调整相似度加权平均值(使用相对评分)可以通过计算相关性(例如 Pearson Correlation Coefficient [16])或距离(例如目标用户和候选用户对共同项目的评分向量之间的余弦[4]或均方差)。而基于模型的算法用于通过训练某些机器学习模型 [4,17-19] 来构建推荐系统,该模型基于与目标用户属于同一集群或类别的用户的评分。因此,先前的研究集中在将统计关系模型应用于协同过滤系统[20-23]。虽然协同过滤系统可以解决基于内容的过滤方法中存在的过度专业化问题,但它也有自己的问题,例如新用户。
有一些混合方法将协同过滤和基于内容的过滤结合到一个统一的系统中 [5,25,26]。 例如 Basilico 等人。 [5] 通过基于各种核函数设计特征来统一基于内容和协同过滤,然后在这个设计的特征空间中训练一个简单的线性分类器(感知器)。
有一些研究专注于工作推荐系统。然而,它们中的大多数只利用基于内容的过滤技术[27-31]。洪等人。 [32] 提出了一种混合工作推荐系统,根据历史申请工作和求职者的行为对用户进行分析。卢等人。 [33] 提出了一个有向加权图,它表示具有有向或双向边的用户、工作和雇主之间基于内容和基于交互的关系。它计算任意两个对象配置文件(用户、雇主或工作)之间基于内容的相似性。我们的模型与他们的主要区别在于,他们使用的图不是从历史数据训练出来的机器学习模型,而是基于目标对象的已知事实构建的,而我们的模型是经过训练的一阶逻辑概率模型历史数据,并且仅在需要对目标对象进行推断时与相关对象部分接地。帕库克等人。 [34] 还利用了梯度提升。但他们只是使用标准的梯度提升构建了一个基于内容的过滤推荐器。我们构建了一个具有关系函数梯度提升的混合推荐器,它不仅可以捕获来自目标用户-项目对的特征之间的依赖关系,还可以捕获来自相似用户的特征之间的依赖关系。此外,我们的模型是一种成本敏感的学习方法,它允许以有原则的方式调整精度和召回率。
与我们最相关的工作是[35],他们提出使用马尔可夫逻辑网络来构建结合基于内容的过滤和协同过滤的混合模型。 他们的工作仅使用了一种概率逻辑模型,本文稍后将证明这不是最好的。 此外,它没有考虑许多推荐系统的特殊要求,即精度应该优先于召回(或者至少两者的相对权重应该是可配置的)。
- 使用SRL模型构建混合工作推荐系统
传统的机器学习算法对其尝试建模的数据做出基本假设
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[596140],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。