基于转换的全局归一化神经网络
Daniel Andor, Chris Alberti, David Weiss, Aliaksei Severyn,
Alessandro Presta, Kuzman Ganchev, Slav Petrov and Michael Collins lowast;
Google Inc
New York, NY
摘要
我们介绍一个基于转换的全局归一化神经网络模型,该模型可以实现最先进的词性标注,依存句法分析和文本压缩结果。我们的模型是一个简单的前馈神经网络,它在特定任务转换系统中运行,但在实现可比性或更好的准确度方面高于循环模型。对比局部归一化方法,我们将讨论全局归一化方法的重要性:一个重要观点是标注偏差问题说明全局归一化模型可以比局部归一化模型执行的更严格。
1 简介
神经网络方法已经迅速广泛地应用在自然语言处理(NPL)领域。特别地,长期短期记忆(LSTM)网络的一些变体(Hochreiter and Schmidhuber,1997)已经在诸如词性标注(Ling et al., 2015)、句法分析(Vinyals et al., 2015)和语义角色标注(Zhou and Xu, 2015)这些典型的自然语言处理任务上取得突出成果。有人可能会推测是这些模型的循环特性才得到这些成果。
在这项工作中,我们阐明了只要是通过全局归一化,简单无循环前馈网络可以比长期短期记忆网络达到可比性和更好的准确度。我们的模型使用过渡系统(Nivre, 2006)和Chen and Manning引入的功能嵌入(2014),这将在第2节中详细阐述。我们不使用任何循环,但执行集束搜索,多重假设,并引入了条件随机场(CRF)目标的全局归一化(Bottou et al., 1997; Le Cun et al., 1998;Lafferty et al., 2001; Collobert et al., 2011)来克服了局部归一化模型存在的标注偏差问题。由于我们使用集束推理方法,我们通过对集束中的元素求和来近似分区函数,并使用早期的更新资料(Collins and Roark, 2004;Zhou et al., 2015)。我们基于这个近似的全局归一化计算梯度,基于CRF丢失的参数对所有神经网络进行全反向传播训练。
在第3节,我们重新审视标注偏差问题,全局归一化模型的应用可以比局部归一化模型更严格的执行。前瞻性功能可以部分缓解这种差异,但不能完全弥补这一差距 - 我们之后将返回的这个点。 为了有理地证明全局归一化的有效性,我们评估了我们的词性标注,句法依存分析和文本压缩的相关模型(Section 4)。 我们的模型在所有这些任务中获得了最好的精度,与LSTMs相同甚至超过LSTMs,同时也显着更快一些。特别是在《华尔街日报》的依存分析中,我们取得了已发布的未标记附录中的最佳得分94.61%。
如第5节更详细地讨论的,我们也胜过先前的结构化培训用于基于神经网络转换的解析的方法。我们的消融实验表明我们优于Weiss等(2015)和Alberti等(2015),因为我们对所有模型参数进行全球反向传播训练,同时在训练模型的全局部分时修复神经网络参数。尽管使用较小的集束,Wealso等人的结果要优于周某等人(2015)。为了说明标注偏差问题,我们提供了一个文本压缩示例,其中局部模型完全失败。然后我们证明,没有任何前瞻性特征的全球规范解析模型几乎与我们最好的模型一样准确,而局部归一化模型的在准确度上的精度绝对值超过10%,这是因为它在可用时不能有效地纳入证据。
最后,我们提供了一个关于我们方法的开源实现,这称为SyntaxNet,我们已经将他集成到流行的TensorFlow 2框架中。我们还提供了一个预先训练的,最先进的英语语法依赖分析器,名为“Parsey McParseface”,我们调整了它的速度,简洁性和准确性之间的平衡。
2 模型
我们的模型的核心是一种基于过渡的增量解析器(Nivre,2006)。要将其应用于不同的任务,我们只需要调整过渡系统和输入特征。
2.1过渡系统
给一个输入为x,这个输入信号一般是一个语句,我们定义:
1.一组状态S(x);
2.一个特殊的开始状态s dagger;isin;S(x);
3.一组所有s isin;S(x)的允许判决A(s,x);
4.转移函数t(s,d,x)为任何判决disin;A(s,x)返回新的状态s。
我们将使用函数rho;(s,d,x;theta;)来计算输入x的状态s中的判定d的分数。 矢量theta;包含模型参数,我们假设rho;(s,d,x;theta;)相对于theta;是可以区分的。
在本节中,为了简洁起见,我们将放弃上述给出的函数的依赖关系,简单地写出S,A(s),t(s,d)和rho;(s,d;theta;)。
在这项工作中,我们将使用过渡系统,其中输入x相同的所有完整结构具有相同数量的判决n(x)(或为简洁起见)。例如,在依赖性分析中,弧光标准和弧跃转换系统(Nivre,2006)也是如此,对于长度为m的句子x,任何完整分析的判决数为n(x)= 2times;m。 一个完整的结构是判决/状态对(s 1,d 1)...(sn,dn)的序列,使得对于i = 1 ... n和 = t(,),= sdagger;,diisin;S()。 我们使用符号来表示判决序列hellip;。
我们假设在判决序列和状态之间存在一对一的映射:也就是说,我们基本上假设状态对整个判决过程进行编码。因此,我们可以通过来自sdagger;的唯一判决序列来达到每个状态。我们将使用判决序列和可互换的状态:在将符号轻微的代用后,我们将rho;(,d;theta;)定义为等于rho;(s,d;theta;),其中s是判决序列达到的状态。
计数函数rho;(s,d;theta;)可以用多种方式定义。在这项工作中,同Chen和Manning(2014),Weiss(2015),Zhou等(2015)一样,我们通过前馈神经网络来定义它
rho;(s,d;theta;) = Ф(s;) ·
这里,是神经网络的参数,它包括最终层的参数。是判决d的最终层参数。Ф(s;)是神经网络在参数下计算的状态s的表示。注意分数在参数中是线性的。 接下来我们将介绍如何在局部或全局层面执行softmax风格的归一化。
2.2局部归一化和全局归一化处理的比较
在Chen和Manning(2014)的贪心神经网络分析中,给定上下文的判决的条件概率分布被定义为
p( | ;theta;) = , (1)
这里
=
每个 是局部归一化项,判决序列的概率为
(2)
集束搜索可用于尝试找到方程(2)相对于的最大值。集束搜索中使用的加法计数是每个判决的对数 - 软最大值lnp(;theta;),而不是原始计数rho;(,;theta;)。
相反,条件随机场(CRF)定义如下的分布p G():
(3)
这里
D n是长度为n的所有有效的判决序列的集合。 Z G(theta;)是一个全局归一化项。 现在推理的问题是发现:
这说明集束搜索可以再次用于粗略地找到argmax。
2.3训练
训练数据包括与黄金判决序列配对的输入x。 我们使用随机梯度下降对模型下数据的负对数似然。 在局部归一化模型下,负对数似然是
(4)
而在全局归一化的模式下
(5)
方程(4)中局部归一化的一个显著的实用优点是通常可以有效地计算局部分割函数及其导数。 相反,方程式(5)中的项包含在isin;Dn上的和,这在许多情况下是难以处理的。
为了使全局归一化模型易于学习使用,我们使用集束搜索和早期更新资料(Collins and Roark,2004; Zhou et al.2015)。随着训练序列被解码,我们跟踪集束中黄金路径的位置。如果黄金路径在步骤j处脱离集束,则采用随机梯度步骤进行以下目标:
(6)
这里,集合包含在步骤j的集束中的所有路径,以及黄金路径前缀。直接导出等式(6)中的损耗的梯度,导出定义了rho;(s,d;theta;)的神经网络中所有层次的后向传播梯度。如果黄金路径在整个解码过程中保留在集束中,则使用(解码结束时的集束)执行梯度步长。
3标注误差问题
直观地,当后来的证据排除先前的判决是不正确的时候,我们希望这个模型能够修改之前搜索中作出的判决。乍看起来,与集束搜索或精确搜索结合使用的局部归一化模型似乎能够修改早期的决策。 然而,标注偏差问题(参见Bottou(1991),Collins(1999)第222-226页,Lafferty等人 (2001),Bottou和LeCun(2005),Smith和Johnson(2007))意味着通常局部归一化模型修改先前判决的能力比较弱。
本节通过证明全局归一化模型比局部标准化模型更具表达力,给出了标注偏差问题的正式观点。 这个定理最初由Smith和Johnson(2007)证明。证明的基础示例清楚地说明了标注偏差问题。
全局模型可以比本地模型更严格地表达 考虑一个标记问题,其中任务是将输入序列映射决定序列。 首先,考虑本地归一化模型,其中当评分判决为时,我们限定评分函数仅访问第一个i输入符号。我们很快就会回到这个限定。评分函数rho;可以是元组lt;gt;之外的任意函数:
其次,考虑一个全局归一化的模型
当评分判决为,这个模型再次利用计分函数rho;(,,,)限于第一个输入符号。
将定义为随着分数rho;变化而获得的局部模型下的所有可能分布( | )的集合。类似地,定义是全局模型下所有可能分布( | )的集合。这里的“分配”是一个从一对(,)到概率p( | )函数。我们的主要结果如下:
定理3.1 是的严格子集,即sube;。
为了证明这一点,我们将首先证明sube;。这一步很简单。 然后我们显示 ; 也就是说,在中存在不属于的分布。 证明 清楚地说明了标注偏差问题。
证明sube;:我们需要表明,对于任何局部归一化分布,我们可以构建全局归一化模型,使得 = 。考虑具有分数rho;(,,)的局部归一化模型。用以下分数定义全局模型
这样对所有,,容易证明:
在证明 时,我们将使用一个简单的问题,训练或测试数据中看到的每个例子都是以下两个标注的句子之一:
= a b c, = A B C
= a b e, = A D E (7)
请注意,输入 = b是不确定的:它可以取代码B或D。当观察到下一个输入符号c或e时,解析该模糊度。
现在考虑一个全局归一化模型,其中分数rho;(,,)定义如下。将T定义为在数据中看到的双标注转换的集合{(A,B),(B,C),(A,D),(D,E)}。类似地,将E定义为数据中看到的(字,标注)对的集合{(a,A),(b,B),(c,C),(b,D),(e,E)}。我们定义
(8)
其中alpha;是模型的单个标量参数,如果pi;为真,则[pi;] = 1,否则为0。
证明 :我们将构造全局归一化模型,使得没有局部归一化模型 =。
从等式(8)中可以直接得到:
相反,在rho;(,,)的任何定义下,我们必须有
(9)
这是因为和。 不等式即意味着等式 (9)成立。
因此,对于足够大的alpha;值,我们具有,并且给定等式 (9)不可能用)=和)=定义局部归一化模型。
在分数rho;(,,)仅取决于第一个i输入符号的限制下,全局归一化模型仍然能够模拟等式(7)中的数据,而局部归一化模型却失效(参见等式9)。当观察到下一个符号(c或e)时,输入符号b的模糊度自然得到解决,而局部归一化模型无法修改其预测。
对于等式(7)允许计数函数 rho;(,,)考虑输入符号的示例,这样很容易确定局部归一化模型。 更一般地,我们可以有一个形式为rho;(,,)的模型,其中整数k指定模型中的前瞻量。这样的前瞻在实践中是常见的,但是一般不足对于每个前瞻k,我们可以通过在等式(7)k 1次复制中间输入b来构造不能用局部归一化模型建模的示例。只有具有分数rho;(,,),考虑整个输入可以捕获任何分布p():在这种情况下,定义()= 不作独立性假设。
然而,增加用作输入的上下文的数量是需要成本的,即需要更强大的学习算法,并且可能需要更多的训练数据。详细分析CRF中的结构特征之间的权衡强大的局部分类器没有结构限制,见Liang et al.(2008);在这些实验中,局部分类器无法达到CRF对结构约束很重要的解析和命名实体识别等问题的性能。注意,没有什么可以排除利用全局规范化和更强大的计分函数rho;(,,)的方法,获得两个全局的最佳效果。下面的实验使用了两者。
4实验
为了展示我们的方法的灵活性和建模能力,我们提供了多种结构化预测任务的实验结果。 我们应用我们的方法进行POS标记,句法依赖解析和语句压缩。
在通过等式(5)定义直接优化的全局模型的,实验工作得很好,我们发现在两个步骤中对模型进行训练的速度也快得多:我们首先使用等式(4)给出的局部目标来预先训练网络,然后使用等式(6)给出的全局目标执行附加的训练步骤。除了这个softmax层之外,我们预先训练所有层。我们的目的是完全避免复杂的手工工程的输入功能,这可能会进一步提高性能(Durrett and Klein,2015)。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[141321],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。