基于自注意的条件随机场潜变量模型用于序列标记外文翻译资料

 2023-04-12 18:35:57

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


基于自注意的条件随机场潜变量模型用于序列标记

Yinan Shaoa , Jerry Chun-Wei Linb,lowast; , Gautam Srivastavac,d, Alireza Jolfaei e , Dongdong Guoa , Yi Hua

a 阿里巴巴股份有限公司,中国浙江杭州

b 挪威卑尔根,挪威西部应用科技大学,计算机科学、电气工程和数学科学系

c 加拿大布兰登,布兰登大学,数学与计算机科学系

d 台湾台中,中国医科大学神经计算研究中心

e 澳大利亚悉尼,麦考瑞大学计算机系

摘要

为了处理文本和语音等数据,自然语言处理(NLP)是一个有价值的工具。在NLP的上游任务中,通过文本分类、机器翻译和情感分析来序列标签的技术成为NLP的重要组成部分。在本文中,我们的重点是序列标签,我们在输入序列中标记语义标签。我们提出了两个新框架,即SA-CRFLV-I 和 SA-CRFLV-II,这会在随机场中使用潜在变量,这些变量利用潜在变量形式的编码模式来捕捉观察数据中的潜在结构。SA-CRFLV-I 在句子层面表现最好,而 SA-CRFLV-II 在单词层面表现最好。在我们深入实验结果中,我们将我们的框架与 4 种众所周知的序列预测方法进行了比较,其中包括 NER、引用解析、分块以及 POS 标记。我们所提出的框架在许多众所周知的指标方面表现出更好的性能。

copy; 2021 作者。由 Elsevier B.V. 出版 这是 CC BY 许可下的开放获取文献 (http://creativecommons.org/licenses/by/4.0/)

  1. 引言

文本处理(即自然语言处理,NLP)的第一步通常是序列标记(SL)。正如定义所示,序列标签是识别语义标签的任务并被分配给输入序列中的每个单元。SL也是广泛应用于视觉问答(VQA)[2],它考虑了视觉上下文向量和语义信息,通过预测序列的标签来生成句子。常见的标签包括块标签、命名实体标签、部分速度标签。这样的标签可以帮助模型理解语义问题的结构,并产生一个流畅和连贯的在VQA中回答。通过依赖下游任务,序列化标记方法最近在学术研究和工业界都变得非常流行。大多数现有模型将基于CNN的架构和条件随机场 (CRF)与潜在变量相结合,以分析图像内容以获得解决方案在VQA中。此外,SL可以帮助为组件提供上下文以更好地理解其含义,并且也被认为是主要的 VQA中的研究问题。

从历史上看,SL通常是使用实体识别来实现通过的:

1. 实体名称(人名、公司等)的提取

2. 分块查找句子的一部分(动词、名词、形容词)

3. 可以提取信息的参考解析(作者、期刊、 标题)

条件随机场 (CRF),以及最大熵模型(MEM)是研究输入序列的条件概率的传统序列标记模型的类型。相比之下,像半马尔可夫随机场(semi CRF)这样的分割模型用于表示输入序列的文本跨度。Ratinov等人表明大多数编码模式受到模型性能的强烈影响[3]。 不同的编码方案如图1所示。在这里,可以看到不同部分的BILOU被选中。

常规序列标记模型的性能很大程度上取决于编码模式和特征工程[4]。编码模式和特征工程的差异将进而导致在不同的序列标注任务和数据集上表现不同。找到最好的是很费时间的 。每个序列标记任务和数据集的设置,在这项工作中,我们提出了2个端到端的基于自我注意的CRF,具有潜在的变量(分别命名为SA-CRFLV-1和SA-CRFLV-2),其中可以自动提取特征并选择最佳编码,用于不同自然语言任务的一组输入的模式和数据集。所提出的模型利用基于自我注意的神经网络来提取输入句子的神经特征[5,6]。提取的神经特征与手工特征相结合,并在CRF中计算。CRF将编码模式作为训练期间的潜在变量和调整。第一个提出称为 SA-CRFLV-I的模型可以同时使用2种编码方案标记输入,同时仍然优化参数。在第二个设计的SA-CRFLV-II模型中,它可以选择编码单词级别的模式而不是句子级别的模式,跨2个编码模式的混合体。我们的贡献总结如下:

bull; 设计的 SA-CRFLV-I 和 SA-CRFLV-II 是端到端的序列标记框架。

bull; 编码模式以潜在变量的形式进行管理能够捕获隐藏变量的结构作为观测数据。

bull; 基于自注意力的模型用于自动提取最先进的 CRFLV-I 和 CRFLV-II 在不同场景中的功能。

bull; 我们的实验结果表明我们的模式成立针对BIO或BILOU 编码模式有着强大的性能。

  1. 文献综述

我们总结了所谓的“传统”模型,包括(HMM - 隐马尔可夫模型)[7-9],条件随机场模型(CRF)[10]、半马尔可夫随机场模型(semi CRF)[11],以及最大熵模型(MEM)[12]。全部上述模型是线性的,已知可以捕获彼此相邻的标签之间的相关性以创建最好的标签链。

CRF 模型 [10] 是最常用的序列标记模型。这些著名的模型举例说明了一个很好用的用于建模的统计方法类,已被证明可用于解决序列预测问题的十种方法。与使用磨坊式HMM 以及随机语法相比,有几个优点,其中包括放松对这些模型做出的强独立假设的能力是在这些模型上制作的。Tseng [13] 定义了一个完全基于条件随机场模型的中文分词(CWS)系统。Zhao[14]考虑了中文分词问题,并在严格使用条件随机场的情况下将其简化为字符标注问题。这些作者将特征模板与标签集选择相结合,以提高模型性能。Cuong等人。[15] 提出了有效的推理算法来处理标签或片段之间的高阶依赖关系。他们证明了利用高阶依赖可以有效地提高模型性能。

Muis等人。[16] 设计了一个弱半马尔可夫CRF,用于基于名词短语的分块。在经典的半 CRF中,已知该模型可以同时直观地决定下一段的长度和类型。 然而在弱半CRF中,该模型试图给出一个较弱的变体,通过限制仅连接到其他节点的每个节点或下一段中具有相同标签的节点或下一句话。弱半CRF模型显示出与经典半CRF相似的性能,但是运行时明显更好。Linet[17] 提出了LVCRF-I和LVCRF-II,它们利用编码模式作为潜在变量来捕获隐藏变量的潜在结构和观察到的数据。这两个模型的性能很大程度上取决于手工特征,这导致对不同序列标记任务和数据集的健壮性较差。

当专注于基于深度学习的模型时,在考虑序列标记任务时已经显示出优势 [18]。Zhang 等人。 [19] 对将多模式融合应用于临床诊断和神经科学研究进行了综述。神经影像融合可以实现更高的时空分辨率,增强对比度,纠正影像失真,并弥合生理和认知信息。 Wang 和 Zhang [20] 提出了一种新的基于迁移学习的方法来更准确地识别多发性硬化症。他们使用复合学习因子(CLF)将不同的学习因子分配给三种类型的层。进一步测试和比较了四种迁移学习设置。使用预计算方法来减少存储负担并加速程序。在 Huang [21] 的初步工作中,作者收集了可用于序列标记的基于长短期记忆 (LSTM) 的模型,包括 LSTM、双向 LSTM、带有 CRF 层的 LSTM、双向 LSTM分别具有 CRF 层、LSTM、Bi-LSTM、LSTM-CRF 和 Bi-LSTM-CRF。这些基于神经的模型(尤其是 Bi-LSTM-CRF)与传统模型相比具有良好的鲁棒性。卡内尔等人。 [22] 提出了一个带有分支的端到端对象检测网络,通过单个前馈步骤在页面级别执行手写文本检测、转录和命名实体识别。所提出的网络可以在不同任务之间共享特征。结果表明,该模型能够通过同时解决相互依赖的任务来受益于共享特征。克沃布等人。 [23] 使用音节二元向量表示进行韩语音节级命名实体识别。他们还提出了一种新颖的模型来制作音节bi-gram和韩国Eojeols位置信息的联合向量表示。实验表明,音节级命名实体识别不仅具有良好的鲁棒性,而且通过消除形态分析过程,比传统的形态级命名实体识别速度更快。李等人。 [24] 然后提出了一种集成神经网络模型,该模型由两层双向门控循环单元模型和条件随机场层组成,以同时执行形态分析和命名实体识别。他们使用两阶段训练模式来训练整个框架。所提出的模型可以有效缓解流水线架构中经常出现的错误传播问题。

  1. 预备知识和问题陈述

在本节中,我们简要概述了一些背景信息,并给出了与本文工作相关的问题陈述。

    1. 具有潜在变量的条件随机场

让我们首先考虑一个已知的观测序列 x = (x1, . . ., xn)。 在 CRF 中处理变量(潜在)时,我们的模型首先确定分配来自单个有限标签集 Y 的标签序列 y = (y1, . . ., yn) 的方法。代替建模 P (y|x) 以直接的方式,传统的条件随机场集潜在变量具有一个“插入”集,该集在 x 和 y 之间,利用众所周知的概率链规则,如公式(1)所示:

其中 Z(x) 可以用来表示归一化因子,h 可以用来表示变量(潜在),x 可以用来表示观察的序列,最后 y 可以用来表示标签的序列 [ 25]。 虽然我们看到这个模型将允许捕获存在于观察/标签之间的潜在结构,但它在其他方面也更好。 我们的模型可以在计算机视觉领域找到强大的应用,同时考虑到来自序列标签和音频/视频流的手势识别 [26]

    1. 编码架构

BIO 和 BILOU 编码都可以清楚地表示当今最流行的编码模式。BIO 清楚地显示在图 2 中,其中 B 开头,I 在里面,最后 O 表示给定的单词,即不属于任何细分市场。在图 2 中,我们描述了“Michel”代表人的开头,标记为 B-P。 “乔丹”在标记为 I-P 的人体内。接下来,“将”这个词不是任何实体的一部分,因此用 O 标记。此外,我们展示了一个更复杂的方案,称为 BILOU,如图 3 所示。

通过图 3,我们可以表示 B作为开始,I 作为内部段,不包括结束词,L 是最后一个词,最后,O 是不属于任何段的任何词。作为我们的示例,我们看到“Michel”表示一个人的开头,标记为 B-P。 “乔丹”是一个人的最后一句话,当时标记为 L-P。此外,“would”不属于任何实体,因此标有 O。最后,“Bush”显示为单位长度的人实体,因此标有 U-P 表示单位人。如果我们比较不使用编码模式的序列模型,我们会发现使用编码模式可以捕获更多特征,因此显然可以对模型的性能产生明确的积极影响。

    1. 问题陈述

我们的问题陈述可以正式定义为首先考虑给定的输入序列 x = (x1, . . ., xk),其长度为 k,以及 x 的标签可以定义为元组 (u, y )。 这被定义为与标签 y 关联的第 u 个输入词。 那么 x 的给定标签序列可以定义为等式(2)。

我们看到 s j = (uj, yj)。 我们在这里清楚地注意到输入序列 x 以及标签序列 s 具有相同的长度。 因此,如果我们注意到一个输入序列 x,那么我们可以将序列标注问题定义为寻找 x 的最高概率的标签序列 s

  1. 基于自我注意的条件随机场和潜变量模型的提出

在本节中,我们将介绍处理潜在变量的神经 CRF 模型。序列标记模型通常通过监督学习进行训练。序列标记数据集通常很小。因此,研究如何在没有额外手工数据和标签的情况下提高模型性能非常重要。在本文中,我们将编码模式作为模型训练的潜在变量。为了确保解释清楚,我们简要介绍了传统的 CRF,并展示了我们提出的神经潜在变量 CRF。最后,我们解释了模型之间的主要区别。如前所述,我们的第一个模型是 SA-CRFLV-I,它可以定义为可以自动确定用于序列标记的最佳编码的句子级模式。其次,我们的 SA-CRFLV-II 模型可以定义为单词级别的模型,混合了前面介绍的 BIO 和 BILOU 编码方案。第二种模式的混合性质提高了预测准确性,这将在我们的实验工作中展示。

    1. 常规的CRF

CRF 是一种流行的序列标记模型。 当直接与其他知名模型(如 MEM)进行比较时,CRF 可以包含许多灵活的功能,并且能够在 MEM 模型中处理标签偏差,并获得强大的结果。 当查看没有任何编码模式的传统 CRF 的结构时,我们可以看到图 4 所示的内容。这里,P 节点用于表示实体节点的人名,O 节点用于表示非 -实体节点。 从图 4 中,我们使用虚线对任何给定输入序列的每一个可能的标记路径进行编码。 通过设计模型内的监督训练,我们在 CRF 模型中看到了一条标记的路径(红线)。

对应一个不同的标签。 在训练期间,模型参数被进一步优化以最大化标记路径的概率。 CRF 模型可以为 x 给定的输入序列提供潜在输出序列 s 的条件概率,如方程式(3)所示:

其中 G(x, s) 用于表示特征函数,W 用于表示权重向量,最后 Z(x) 用于表示归一化因子。 为了能够在 CRF 中找到最佳标签序列,我们可以让 sigma;j 用于表示第 j 个输入的最佳标

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589771],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。