英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
基于K-way谱聚类的作者引文姓名消歧方法
摘要
一个作者可能有多个名称和多个作者可以共享相同的名称,只是由于名称的缩写,相同的名称,或在出版物书目1名称拼写错误。这可以产生不明确的名称,它可以影响性能的文献检索,网络搜索,与数据库的集成,以及信贷可能会导致不正确的归因。提出了一种利用K-way谱聚类义作者引用的无监督学习方法。该方法利用三种类型的引用属性:作者姓名,文章标题,出版地点职称2。该方法与16名的数据集从DBLP数据库书目和作者的主页引用说明收集表明人名消歧可以实现利用这些引用属性。
关键词
姓名消歧,特征选择,无监督学习,谱聚类
1、介绍
名字消歧可能有几个原因。因为名字变体、相同名称、名称拼写错误或假名,研究论文和书目中的两种名称歧义(引文)可以被观察到。第一种类型是作者多个名称标签。例如,作者“David S. Johnson”可能出现在不同名称缩写的多个出版物中比如“大卫庄臣”、“D. Johnson”或“D.S.约翰逊”,或拼写错误的名字,如“Davad Johnson”。第二类是多个作者可以共享相同的名称标签。例如,“D. Johnson”可以指Rice的“David B. Johnson”大学,来自ATamp;amp;T研究实验室的“David S. Johnson”,或“戴维”E. Johnson:来自犹他大学(假设作者仍有这些联系)。名称歧义可能影响科学数据收集的质量,可以降低信息检索和Web的性能搜索,甚至可能导致错误的识别和信用作者的归属。Web DBLP(数字目录学库项目)(1),例如,我们发现作者页面DBLP中的“Yu Chen”包含三种不同的引文同名的人:加利福尼亚大学的Yu Chen,洛杉矶,微软在北京分公司的Yu Chen,Yu Chen,中国人民大学高级教授。DBLP错误的另一个例子是作者页。来自宾夕法尼亚统计部门的“李佳”州立大学。然而,她的“主页”链接作者页错误地指向部门的教员。阿拉巴马大学数学科学研究所名字相同的亨茨维尔。在另一个著名的网站,CITSEEL(23),我们也观察到几个错误。例如,“D. Johnson”被列为计算机科学中被引用最多的作者。根据CITSEER在3 2003年6月的统计数据。然而,《D. Johnson》统计中获得的“引文数”实际上是几个不同作者的总和,例如“David B.”约翰逊,“David S. Johnson”,甚至“Joel T. Johnson”。给定一组具有相同名称标签的引用,怎么做?如果名称标签指的是单个作者,则对作者进行歧义消除。还是不同作者的名字相同?我们考虑两个方法:有监督和无监督的机器学习。在监督中学习,可以考虑每个规范作者姓名4。作为分类和名称消歧,然后将引用分类为他们的作者类〔26〕。然而,有监督的学习方法需要标记的数据,并不总是有作者的前引用或识别信息来训练分类器。
使用无监督学习方法,我们不需要标记的数据进行训练。名称消歧问题可以制定为分区的引用集合到集群,每个集群只包含由同一作者创作的引文,从而消除作者的引用引诱作者姓名身份。
我们建议使用K路谱聚类[52 ],已经成功地应用于数据挖掘和聚类分析的图模型,用于在引文中的名称消歧,如在第3节中详细描述的。表1示出了部分引文聚类的例子,其结果是由我们的算法消除歧义的作者。由于空间的限制,没有显示完整的引文聚类。
本文的其余部分被组织如下:第2节讨论先前的工作;第3节介绍K-方式谱聚类方法;第4节报告实验和结果;第5节总结和讨论未来的工作。
2、前人的工作
名称歧义是身份不确定性的一般问题的特殊情况,其中对象没有用唯一标识符标记[37 ]。已经做了很多研究来解决身份不确定性问题,使用不同的方法,如记录链接[21 ],重复记录检测和消除[10, 31, 35 ],合并/清除(27),数据关联[8 ],数据库硬化[13 ],引文匹配[34, 34 ],名称匹配[9, 45, 11 ],图书馆文献编目实践中的名称等价识别〔20〕、地址匹配〔15〕和姓名权限控制〔48, 17, 24〕。在概念层面上,这些方法包括词义消歧[47, 30 ]。名称权威控制、名称匹配和名称等价识别是与我们最相似的工作。名称权威控制旨在找到权威的名称形式,即对个人的明确引用(17)。GETTY的ULAN(UNIONGART成本函数)可以被重新表述为与数据向量的Gram矩阵相关的迹最大化问题。它们表明,GM矩阵的部分本征分解获得了一个松弛版本的迹最大化问题的全局最优解。因此,可以通过计算特征向量矩阵的旋转QR分解来找到每个数据向量的簇分配。QR分解的K方向谱聚类在实验中显示优于k-均值算法〔52〕。
作为我们工作的动机,我们尝试了k-均值算法。
我们的Web收集发布列表数据集(在第4.1节中详细描述),以及LSI降维和特征权重分配的变化。与谱聚类相比,使用k-均值算法在这些数据集上取得的较差性能符合先前的实践[50, 52 ]。
接下来,我们描述了实验的谱聚类方法。用相同的名称标签,但不同的作者聚类引用。
我们将每个引文建模为无向图中的一个节点。图中的每个边(i,j)被赋值,反映了两个引文I和j之间的相似性。作者引文的名称消歧问题被定义为图的分区,以便彼此更相似的引文,例如由同一作者创作的引文。到同一个集群。
3.1引文矩阵与特征设计
我们观察到,作者的引用通常揭示他或她的身份信息,如作者的研究领域,和他或她的个人创作模式。我们使用三种类型的引用属性来设计名称消歧的特征:合著者姓名、论文标题和出版物地点标题。一个特征是引文属性的一个组成部分,例如,一个合著者的名字或一个预先处理的词在一个论文或出版地点的标题。应该注意的是,我们的技术也可以扩展到使用其他信息,例如作者的联系和地址。
我们构建了每个名称数据集的引用向量。在名称数据集中具有M特征,每个引文可以表示为M维向量,即。如果第i个特征在引文m中出现的数据集中,i是特征i的权重。否则,i=0。我们研究了两种类型的特征权重分配,通常的“TFIDF”和归一化的“TF”(“NTF”),其中NTF(i;d)=FRQ(i;d)=max(Frq(i;d))FRQ(i;d)是指引文d中的特征i的频率。用“NTF”方案,不同特征的权重值范围被归一化。归一化的“TF”方案已被证明改善分类性能[25 ]。使用完全无监督的学习方法,我们没有训练数据来学习不同类型的特征的权重。然而,我们提出了结合监督学习方法在我们的未来工作的自动特征权重分配。引文向量的GM矩阵表示引文之间的成对余弦相似性。我们将K路谱聚类算法应用于GM矩阵,如以下两个子段中所描述的。
3.2光谱弛豫
给定一组m维引文向量i,i=1;我们形成n引文矩阵a=(1;n)。一个分区引文向量可以写成以下形式AE=[A1;;Ak ];AI=1(i);Si(i);(1)其中E是置换矩阵,Ai是M—SI,即聚类包含Ai中的引文向量。对于给定分区方程1,定义了相关平方和的代价函数。
也就是说,MI是引文向量在群I中的平均向量。在[52 ]中显示了上述平方和的最小化。成本函数可表述为松弛最大化问题。
其中xtx=ik和x可以是任意的正交矩阵。结果表明,上述迹最大化问题有一个封闭的形式。
解决方案定理(Ky Fan)设H是具有特征值的对称矩阵1 2 N及其对应的特征向量
u=[u1;un]。然后
根据上述定理,我们需要计算GM矩阵ATA的最大K特征向量。让XK成为由ATA的最大特征向量组成的ntimes;k矩阵。各XK行对应于引文向量,以及上述过程可以被认为是将原始引文向量转换为k维中新维引文向量的m维空间空间。然而,这里的目标不是重建引文矩阵。
使用低秩逼近,而不是捕获它的簇结构,如下一节所示。
3.3集群分配使用枢轴QR分解
假设引用向量的最佳划分为最小化SS-()由A= [A1;;AK]给出,其中每个子矩阵ai对应于一个聚类。A的GM矩阵写成
当子矩阵表示的簇之间重叠时AI很小,E的范数会比块小上述方程中的对角线矩阵B。设最大特征向量,Ai是yi,
然后矩阵的列
4、引文数据集实验
4.1使用的数据集
我们收集了两种不同类型的引文进行实验,第一种引文是从DBLP计算机科学书目中下载的,它包含了超过400000条引用的XML格式的引文记录,我们在每个CIT中形成了三个属性。作为字符串,然后用相同的名字名字和相同的姓氏聚集作者姓名。每个名称都与引用出现的引用相关联。我们通过所包含的名称变化的数量来排序所形成的名称集群。名列前茅的模糊名字是来自亚洲的流行名字,如“J. Lee”、“S. Lee”、“Y. Chen”和“C. Chen”。除了这四个名称数据集之外,我们还使用了10个DBLP目录学中的歧义名称,如表2所示。另一种类型的引用数据库已经从从“J Anderson”和“J史米斯”查询到搜索引擎的研究者主页中的出版物列表中手动提取。这类引文包含两个名称集:229引文15个“J Anderson”和338个引文中的11个“J Smith”。这些作者有不同的研究领域,可能比在DBLP目录学中的典型作者更多。16个名称的完整数据集可根据要求提供。
4.2实验设计
对于每个名称数据集,我们改变两个不同的数据集的大小。方法。第一个选择与至少一个相关联的作者。引用次数最少(如表2列所示)。第二个随机选择一个百分比(从10%到100%,每个作者的引文的步长为10%)。包含至少10引文的作者的数据集。我们比较在每个尺寸变化中实现的消歧精度数据集研究数据集大小对名字消歧的影响。在数据集的每个大小变化中,我们采用K方式。谱聚类算法及两种特征方案的比较加权:“TFIDF”和“NTF”方案。我们也学习每个引文属性对姓名消歧的贡献单独使用合著者姓名、论文标题词和出版地点名称分别为单词。然后我们调查姓名信息量对消歧效果的影响用第一个名字和第三个名字代表第一个名字名字的字符,分别。作为数字的选择集群可能是一个重要而独立的研究课题,不是我们当前工作的重点,我们预定义了数字簇的标记。也就是说,如果有N个正确的簇,数据集被聚类成N个簇。
4.3评价方法
我们根据混淆矩阵对实验结果进行评估,其中[ i;j ]代表作者“I”的预测为“作者”的数目。在矩阵A中,A [ i;i ]表示正确预测的数目。“作者J”的名字。我们定义了消歧精度。作为对角线元素之和除以总数矩阵中的元素。
4.4DBLP引文中的姓名消歧
4.4.1数据集大小对姓名消歧的影响
消歧精度如图1所示,两种类型的数据集大小变化,如第4.2节所述。为了
每个数据集从第二种类型的大小变化,我们报告10次实验的平均准确度,在每个实验中我们随机选择一定百分比的引文,每个作者。结果表明,作者引文的增加。一般改善消歧性能。例如,“J. Martin”消歧的准确率从82%提高到96.8%当我们增加了每个“J”的引文百分比。马丁:从10%岁到100%岁。然而,对“J·鲁滨孙”数据集显示出相反的趋势。我们观察到两个“J·鲁滨孙”。引用次数最多的两篇论文均发表“数据库”的主题。这两个“J·鲁滨孙”总是聚集在一起的。
在这种情况下,引文的数量似乎增加了。引入错误,降低消歧精度。解决这个问题,我们可能需要更多的特征,如作者的联系。总体而言,实验消除“M. Jones”、“D. Johnson”、“M. Brown”和“M”的歧义。Miller获得了比其他名字更高的准确度,比如四个流行的亚洲名字,“J. Lee”,“S. Lee”,“C.Chen”,以及“Y. Chen”。表3显示了每个名称数据集的详细结果。
4.4.2“TFIDF”对比“NTF”
包含至少10引文的作者的数据集。实验在其他大小的数据集的变化显示类似的结果。“TFIDF”优于“NTF”,因为加权的性质。计划。“TFIDF”不仅考虑了特征的频率在引文中,还分布在所有的特征中。名称数据集的引用。“NTF”只考虑特征频率在一个引文中,受事实的限制很少引用一个重复的词。像这样的,“TFIDF”方案更好地捕捉特定于作者的特征。而不是“NTF”。这表明良好的特征加权是
对名字消歧的性能很重要。改进可以使用更好的特征加权技术来实现,如对数熵。
4.4.3姓名信息量对歧义消除的影响
用名字的名字和姓氏简化每个名字介绍名称歧义。例如,“Sung Jin”的名字
基姆和Seon Kyu Kim被简化为同名标签“S. Kim”。为了研究这一效果,我们做了另一组实验,用它的前三个字符表示第一个名字。我们注意从DBLP数据库中的大多数名称都有完整的名字信息,而Web收集的发布列表包含许多名字是以名字的形式最初和最后姓名。这种不一致的名称格式导致一个作者被代表。通过两个不同的特点,并引入名称歧义。因此,我们只报告收集到的所有引用的实验结果。从DBLP数据库书目中我们改变了名字的表示。引文向量的构造只有合作作者的名字,我们不考虑案件时作者没有合著者。图3显示了关于包含所有作者引文的数据集。代表第一名称前三个字符提高消歧精度对于大多数名字,例如“A. Gupta”,“C. Chen”,“J. Lee”,“J.Smith”,“M. Jones”和“Y. Chen”。我们观察到许多不同的合著者。在这些数据集中,同名标签在简化中具有相同的名称标签。
姓名、姓名和姓氏的格式,例如18.7%个不同的合著者在“C. Chen”数据集中,“J. Lee”中有29.5%位合著者。数据集,以及“Y. Chen”数据集中的12%个合著者。因此,添加附加名称信息可以减少名称歧义,提高了消歧的准确性。然而,我们注意到分类准确度下降的具体名称数据集“A. Kum
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23514],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。