英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
RAW-C:歧义词的关联性——在语境中(一种新的英语词汇资源)
Sean Trott Benjamin Bergen
加州大学圣地亚哥分校 加州大学圣地亚哥分校
摘要
大多数单词都是模糊的——它们在不同的上下文中表达不同的意思——甚至明确的单词的意思也是依赖于上下文的。这两种现象都对NLP提出了挑战。最近,语境化单词嵌入的出现已经促成了涉及词汇歧义的任务的成功,例如词义消歧。然而,很少有任务直接评估这些嵌入在多大程度上适应了词义的连续、动态性质——特别是以符合人类直觉的方式。我们引入RAW-C,一个对上下文中112个歧义词(总共672个句子对)进行分级的人类相关性判断的数据集,以及人类对意义优势的估计。注释者之间对于相关度标准的平均一致度(使用保留一个注释者的方法评估)是0.79。然后,我们表明,使用BERT和ELMo的语境化嵌入计算的余弦距离度量与人类判断相关,但余弦距离也系统地低估了相似人类如何找到相同词义的用法,并系统地高估了相似人类如何找到不同词义同音异义词的用法。最后,我们提出心理词汇的心理语言学理论和词汇语义学的计算模型之间的综合。
1 介绍
单词在不同的上下文中有不同的意思。有时这些意思看起来截然不同,这种现象被称为词汇歧义。在英语中,大约7%的词形是同音异义的,也就是说,它们有多个不相关的意思(例如,“树皮”对“狗皮”),以及同样的多达84%的词汇形式是多义词,(例如,“宠物鸡”和“烤鸡”)(Rodd et al.,2004).但是,即使是明确的单词,也会根据使用的上下文引起微妙的不同解释,即,它们的含义是动态的并且依赖于上下文(Yee and Thompson-Schill,2016;Li and Joanisse,2021).虽然在“男孩奔跑”和“猎豹奔跑”中奔跑的使用可能不被认为是不同的含义,但是人类理解者在处理每个句子时可能会激活不同的心理图像(Elman,2009)。
这些事实对词汇语义的计算模型提出了挑战。任何涉及意义的下游任务都需要能够在给定上下文中从一个多义词的多种可能意义中消除歧义的模型。此外,人类感官表征的分级性质会影响理解者如何理解事件以及事件中的参与者(Elman,2009;Li and Joanisse,2021)。反过来,许多自然语言处理(NLP)任务可以受益于上下文敏感的表示,这种表示超越了离散的感觉表示,并捕捉人类解释事件的方式,包括情感分析、偏见检测、机器翻译等等(Trott et al.,2020).如果NLP的最终目标是类似人类的语言理解,那么模型必须配备足够灵活的语义表示,以适应词义的动态、依赖于上下文的性质——就像人类想要做的那样(Elman,2009;Li and Joanisse,2021)。
然而,开发更好的模型的一个至关重要的先决条件是沿着性能的相关维度评估那些模型。因此,我们至少需要沿着两个关键维度评估模型的指标:
1.歧义消除:模型区分一个词的不同含义的能力。
2.上下文层次:模型在上下文中调整给定含义的能力,以反映人类判断的连续性。
近年来一个有希望的发展是使用诸如BERT(De-vlin et al.,2018),ELMo(Peters et al.,2018),XL- Net(Yang et al.,2019),还有更多。这些模型的进步提高了许多任务的性能,包括词义消歧(WSD)(Boleda et al.,2019;Loureiroet al.,2020).
词义消歧满足上述消歧标准,但不满足语境等级标准。事实上,仍然缺乏评估语境化表征与人类对语境塑造意义的方式的判断相匹配程度的指标。
在第2节中,我们描述了几个相关的数据集,至少满足其中一个标准。在第3节中,我们介绍并描述了在上下文中歧义词的相关度的数据集构造过程。在第4节中,我们描述了为每个句子对收集人类相关度规范所遵循的程序。在第5节中,我们报告了几个分析的结果,这些分析探讨了来自两个神经语言模型(BERT和ELMo)的情境化嵌入如何很好地预测这些规范。最后,在第6节中,我们探讨了当前模型中可能存在的缺点,并提出了未来工作的方向。
2 相关著作
大多数现有数据集满足歧义性或上下文分级标准,但很少有数据集同时满足这两个标准(参见Haber and Poesio(2020a)为例外)。
一些数据集包含单独的不同单词的人类相关性和相似性判断(见第2.1节)。另一些用于词义消歧,包含不同句子上下文中的歧义词,以及带注释的词义标签(参见第2.2节);正如引言中所指出的,词义消歧符合消歧标准,但不符合语境等级标准。几个最近的数据集包含不同上下文中单词的分级相关度判断(参见第2.3节)。然而,没有一个专门关注模糊词的等级关系判断,控制目标词的词形变化和词性。最后,一个数据集(Haberand Poesio,2020a)包含对上下文中多义词的相似性判断,但是在大小上更受限制,并且与两种用法中的句子框架不匹配(参见2.4)。
2.1 去语境化的词语相似性和关联性
一些数据集包含人类对(主要是英语)单词对的相似性或相关性的独立判断(见Taieb等人(2020年)的综述)。这包括SimLex-999(Hill et al.,2015),SimVerb-3500(Gerz et al.,2016),WordSim-353(Finkelstein et al.,2001),MTurk-771(Halawi et al.,2012),男性(Bruni et al.,2014),还有更多。这些数据集主要用于评估静态语义表示的质量,包括分布式语义模型,如GloVe (Pennington等人,2014),以及使用知识库的表示,如WordNet (Faruqui和Dell,2015)
然而,这些资源(根据定义,作为脱离上下文的判断)不能直接用于评估模型将上下文结合到给定单词的语义表示中的情况。
2.2 词义消歧
在词义消歧(WSD)中,分类器通常使用上下文嵌入来预测给定上下文中歧义词的“含义”。WSD依赖于带注释的词义标签,这反过来需要确定任何给定的词用法对是否属于相同或不同的词义,即,是“合并”还是“分离”。有相当多的争论是关于如何细化词义库存(Hanks,2000;Brown,2008a);3 资源的粒度范围从字网(Fellbaum,1998)到粗略意义上的详细清单,或CSI(Lacerra et al.,2020).最近使用粗粒度感觉目录的工作已经取得了85%和更高的成功率(Lacerra et al., 资料编号:[589769],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。