RECURRENT NEURAL NETWORK REGULARIZATION
ABSTRACT
We present a simple regularization technique for Recurrent Neural Networks (RNNs) with Long Short-Term Memory (LSTM) units. Dropout, the most successful technique for regularizing neural networks, does not work well with RNNs and LSTMs. In this paper, we show how to correctly apply dropout to LSTMs, and show that it substantially reduces overfitting on a variety of tasks. These tasks include language modeling, speech recognition, image caption generation, and machine translation.
1 INTRODUCTION
The Recurrent Neural Network (RNN) is neural sequence model that achieves state of the art performance on important tasks that include language modeling Mikolov (2012), speech recognition Graves et al. (2013), and machine translation Kalchbrenner amp; Blunsom (2013). It is known that successful applications of neural networks require good regularization. Unfortunately, dropout Srivastava (2013), the most powerful regularization method for feedforward neural networks, does not work well with RNNs. As a result, practical applications of RNNs often use models that are too small because large RNNs tend to overfit. Existing regularization methods give relatively small improvements for RNNs Graves (2013). In this work, we show that dropout, when correctly used, greatly reduces overfitting in LSTMs, and evaluate it on three different problems.
2 RELATED WORK
Dropout Srivastava (2013) is a recently introduced regularization method that has been very successful with feed-forward neural networks. While much work has extended dropout in various ways Wang amp; Manning (2013); Wan et al. (2013), there has been relatively little research in applying it to RNNs. The only paper on this topic is by Bayer et al. (2013), who focuses on “marginalized dropout” Wang amp; Manning (2013), a noiseless deterministic approximation to standard dropout. Bayer et al. (2013) claim that conventional dropout does not work well with RNNs because the recurrence amplifies noise, which in turn hurts learning. In this work, we show that this problem can be fixed by applying dropout to a certain subset of the RNNsrsquo; connections. As a result, RNNs can now also benefit from dropout.
Independently of our work, Pham et al. (2013) developed the very same RNN regularization method and applied it to handwriting recognition. We rediscovered this method and demonstrated strong empirical results over a wide range of problems. Other work that applied dropout to LSTMs is Pachitariu amp; Sahani (2013).
There have been a number of architectural variants of the RNN that perform better on problems with long term dependencies Hochreiter amp; Schmidhuber (1997); Graves et al. (2009); Cho et al. (2014); Jaeger et al. (2007); Koutnacute;ık et al. (2014); Sundermeyer et al. (2012). In this work, we show how to correctly apply dropout to LSTMs, the most commonly-used RNN variant; this way of applying dropout is likely to work well with other RNN architectures as well.
In this paper, we consider the following tasks: language modeling, speech recognition, and machine translation. Language modeling is the first task where RNNs have achieved substantial success Mikolov et al. (2010; 2011); Pascanu et al. (2013). RNNs have also been successfully used for speech recognition Robinson et al. (1996); Graves et al. (2013) and have recently been applied to machine translation, where they are used for language modeling, re-ranking, or phrase modeling Devlin et al. (2014); Kalchbrenner amp; Blunsom (2013); Cho et al. (2014); Chow et al. (1987); Mikolov et al. (2013).
3 REGULARIZING RNNS WITH LSTM CELLS
In this section we describe the deep LSTM (Section 3.1). Next, we show how to regularize them (Section 3.2), and explain why our regularization scheme works.
We let subscripts denote timesteps and superscripts denote layers. All our states are n-dimensional. Let be a hidden state in layer l in timestep t. Moreover, let : → be an affine transform (W x b for some W and b). Let be element-wise multiplication and let be an input word vector at timestep k. We use the activations to predict , since L is the number of layers in our deep LSTM.
3.1 LONG-SHORT TERM MEMORY UNITS The RNN
dynamics can be described using deterministic transitions from previous to current hidden states. The deterministic state transition is a function
RNN:,
For classical RNNs, this function is given by
=f( ),where f
The LSTM has complicated dynamics that allow it to easily “memorize” information for an extended number of timesteps. The “long term” memory is stored in a vector of memory cells isin;. Although many LSTM architectures that differ in their connectivity structure and activation functions, all LSTM architectures have explicit memory cells for storing information for long periods of time. The LSTM can decide to overwrite the memory cell, retrieve it, or keep it for the next time step. The LSTM architecture used in our experiments is given by the following equations Graves et al. (2013):
LSTM:,,,
=
=f⊙ i⊙g
=o⊙tanh()
In these equations, sigm and tanh are applied element-wise. Figure 1 illustrates the LSTM equations.
3.2 REGULARIZATION WITH DROPOUT
The main contribution of this paper is a recipe for applying dropout to LSTMs in a way that successfully reduces overfitting. The main idea is to apply the dropout operator only to the non-recurrent
Figure 1: A graphical representation of LSTM memory cells used in this paper (there are minor differences in comparison to Graves (2013)).
Figure 2: Regularized multilayer RNN. The dashed arrows indicate connections where dropout is applied, and the solid lines indicate connections where dropout is
剩余内容已隐藏,支付完成后下载完整资料
递归神经网络正则化
摘要
我们提出了一种简单的正则化技术,用于具有长短时记忆(LSTM)的递归神经网络(RNNs)。在神经网络中,最成功的方法是丢弃,它对于RNN和LSTM来说效果不佳。在本文中,我们展示了如何正确地应用到LSTMs,并表明它大大减少了对各种任务的过度拟合。这些任务包括语言建模、语音识别、图像标题生成和机器翻译。
1引言
递归神经网络(RNN)是一种神经序列模型,在包括语言建模Mikolov(2012)、语音识别Graves et al.(2013)、机器翻译Kalchbrenner amp; Blunsom(2013)等重要任务中实现了最先进的性能状态。众所周知,神经网络的成功应用需要良好的正则化。不幸的是,丢弃Srivastava(2013)是前馈神经网络最强大的正则化方法,在RNNs中效果不佳。因此,RNNs的实际应用常常使用的模型太小,因为大型RNN模型倾向于过度拟合。现有的正则化方法对RNNs Graves(2013)的改进相对较小。在这一工作中,我们证明了在正确使用时,丢弃大大减少了对LSTMs的过度拟合,并在三个不同的问题上进行了评价。
2相关工作
丢弃法Srivastava(2013)是一种最近引入的正则化方法,它在前馈神经网络中非常成功。虽然很多工作以不同的方式扩展了丢弃,Wang amp; Manning;Wan等人(2013)对RNNs的应用研究相对较少。关于这个话题的唯一论文是Bayer et al.(2013),他关注的是“边缘化的丢弃”Wang amp; Manning(2013),这是一种对标准丢弃的无噪声的确定性近似。Bayer et al.(2013)认为传统的丢弃不能很好地使用RNNs,因为复发会放大噪音,进而影响学习。在这项工作中,我们证明了这个问题可以通过应用于RNNs连接的某个子集来解决。因此,RNNs现在也能从丢弃中获益。
Pham等人(2013)独立于我们的工作,开发了非常相同的RNN正则化方法,并将其应用于手写识别。我们重新发现了这种方法,并在许多问题上表现出了强有力的实证结果。其他应用于LSTMs的工作是Pachitariu amp; Sahani(2013)。
有许多RNN的体系结构变体在长期依赖于Hochreiter amp; Schmidhuber(1997)的问题上表现得更好; Graves et al. (2009); Cho et al. (2014); Jaeger et al. (2007); Koutnacute;ık et al. (2014); Sundermeyer et al。(2012)。在此工作中,我们展示了如何正确地应用到LSTMs,这是最常用的RNN变体;这种应用辍学的方法也很可能与其他RNN架构很好地合作。
在本文中,我们考虑了以下任务:语言建模、语音识别和机器翻译。语言建模是RNNs取得巨大成功的第一个任务,Mikolov等人(2010;2011);Pascanu et al。(2013)。RNNs也已成功用于语音识别Robinson等人(1996);Graves et al.(2013)最近被应用于机器翻译,用于语言建模,重新排名,或短语建模Devlin et al. (2014);Kalchbrenner amp; Blunsom(2013); Cho et al. (2014); Chow et al.(1987);Mikolov et al.(2013)。
3用LSTM细胞调节RNNS
在本节中,我们将描述深层LSTM(第3.1节)。接下来,我们展示如何正则化它们(第3.2节),并解释为什么我们的正则化方案有效。
我们让下标表示时间步长,上标表示层次。我们所有的变量都是n维的。令在时间步t中成为第l层的隐藏状态。而且,令 : → 是仿射变换(对于一些W和b,W x b)。令⊙为元素乘法,并让为时间步k处的输入字向量。我们使用激活来预测,因为L是我们深层LSTM中的层数。
3.1长短期存储器单元RNN
动态可以使用从先前到当前隐藏状态的确定性转换来描述。确定性状态转换是一个函数
RNN:,
对于经典的RNN,这个函数由下式给出
=f( ),where f
LSTM具有复杂的动态特性,可以轻松“记忆”信息以获得更多的时间步长。“长期”存储器存储在存储器单元的向量isin;中。尽管许多LSTM体系结构的连接结构和激活功能不同,但所有LSTM体系结构都有明确的存储单元用于长时间存储信息。LSTM可以决定覆盖存储单元,检索它,或者保留下一个时间步。在我们的实验中使用的LSTM架构由以下等式给出:Graves et al。(2013年):
LSTM:,,,
=
=f⊙ i⊙g
=o⊙tanh()
在这些方程中,sigm 和tanh按照元素的方式应用。上图显示了LSTM方程。
3.2规范与丢弃
本白皮书的主要贡献是将失落信号应用于LSTM,以成功减少过拟合的方式。主要的想法是仅将拒绝运营商应用于非经常性运营商
图1:本文中使用的LSTM存储单元的图形表示(与Graves(2013)相比存在细微差异)。
图2:正则化多层RNN。虚线箭头表示应用了压差的连接,实线表示未应用压降的连接。连接(图2)。下面的等式更准确地描述了这一点,其中D是将其参数的随机子集设置为零的丢失操作符:
=
=f⊙ i⊙g
=o⊙tanh()
我们的方法工作如下。丢失操作符破坏了单元所携带的信息,迫使它们更强健地执行其中间计算。同时,我们不想删除单位的所有信息。单位记住过去发生过很多次事件的事件尤其重要。图3显示了信息如何从时间步t-2发生的事件流到我们实施失落时的时间步t 2的预测。我们可以看到,信息被丢失操作符完全L 1次损坏,
图3:粗线显示了LSTM中信息流的典型路径。信息受丢弃L 1次影响,其中L是网络深度。
生命的意义在于,只有当一个目标是整个供应商的时候。普遍的规则被认为是拒绝交付的公司。在国家的信息和贷款增长与运营商节约相关的增长正在放缓种子和商业票据的过程中。
生命的意义几乎是在政府开始实施国家总统和首席执行官之前的几个月之前,从国家对遏制理由的承诺开始。同时政府投资产能过剩批评和小城镇美国的外部逆转。
图4:从一个以“生命的意义”为条件的大规模正规化模型中抽取的一些有趣样本。我们已经从允许的单词集合中删除了“unk”,“N”,“$”。
并且这个数字与信息所遍历的时间步数无关。标准丢失扰乱了经常性连接,这使得LSTM很难学习长时间存储信息。通过在复发连接上不使用丢失,LSTM可以从丢失正则化中获益,而不会牺牲其有价值的记忆能力。
4实验
我们将结果呈现在三个领域:语言建模(第4.1节),语音识别(第4.2节),机器翻译(第4.3节)和图像标题生成(第4.4节)。
4.1语言模型
我们在Penn Tree Bank(PTB)数据集Marcus等人的基础上进行了单词级预测实验。 (1993),其中包含929k训练单词,73k验证单词和82k测试单词。 它的词汇量有10k字。 我们从托马斯米科洛夫的网页下载它。 我们训练了两种尺寸的正规化LSTMs; 这些被称为中等LSTM和大LSTM。 两个LSTM都有两层,并展开35个步骤。 我们将隐藏状态初始化为零。 然后,我们使用当前小批次的最终隐藏状态作为随后小批次的初始隐藏状态(连续小小步骤顺序遍历训练集)。 每个小批次的大小是20。
介质LSTM每层有650个单元,其参数在[-0.05,0.05]中均匀初始化。如前所述,我们对非经常性连接应用50%的压降。 我们对LSTM进行了39个时期的训练,学习率为1,经过6个时代后,我们在每个时代将其降低了1.2倍。 我们将梯度的标准(小标签尺寸标准化)限制在NVIDIA K20 GPU上训练此网络大约需要半天时间。
大型LSTM每层有1500个单元,其参数在[-0.04,0.04]中均匀初始化。 我们对非经常性连接应用65%的丢弃率。 我们训练模型为55个时期,学习率为1; 经过14个时代后,我们开始在每个时代后将学习率降低1.15倍。 我们在Mikolov等人的文章中剪切了梯度的规范(用小批量规格化)(2010年)。 培训此网络需要花费一整天的时间在NVIDIA K20 GPU上。
为了比较,我们训练了一个非正规化网络。 我们对参数进行了优化,以获得最佳验证性能。 正则化的缺乏有效地限制了网络的规模,迫使我们使用小型网络,因为大型网络过度适应。 我们表现最好的非正规化LSTM具有两层隐藏层,每层200个单位,其权重均匀初始化
在[-0.1,0.1]中,我们训练4个时期,学习率为1,然后在每个时期后,我们将学习率降低2倍,共计13个训练时期。 每个minibatch的大小是20,我们展开网络20个步骤。 在NVIDIA K20 GPU上训练此网络需要2-3个小时。
4.2语音识别
超过半个世纪以来,深度神经网络已被用于声学建模(参见Bourlard &Morgan(1993))。声学建模是将声音信号映射到单词序列的关键部分,因为它模拟p(st | X),其中st是时间t的语音状态,X是声学观察。最近的工作表明,LSTM可以在声学建模方面取得优异的性能Sak等人。(2014年),但相对较小的LSTM(参数数量)可轻易过度训练集。用于测量声学模型的性能的有用的度量是帧精度,这是在每个测量日的所有时间步长。通常,此度量与感兴趣的实际度量Word错误率(WER)相关。
由于计算WER涉及到使用语言模型和调整声学模型中每个变化的解码参数,因此我们决定在这些实验中关注帧精度。我们在内部的Google Icelandic Speech数据集上报告LSTM表
现,这个数据集相对较小(93k话语),所以过度拟合是一个非常值得关注的问题。
4.3机器翻译
我们将机器翻译问题作为语言建模任务来制定,其中LSTM被训练为将高概率分配给源句子的正确翻译。因此,LSTM在源句子和他们的翻译Sutskeveretal。(2014)(另见Cho等(2014))。我们通过使用简单波束搜索来近似最可能的单词序列来计算翻译,其中使用具有12个波束的简单波束搜索。我们在来自Schwenk(2014)的“所选”子集上对WMT14英语至法语数据集运行LSTM,其中有340M法文单词和304M英文单词。我们的LSTM有4个隐藏层,它的图层和文字嵌入有1000个单位。它的英语词汇有160,000个单词,其法语词汇有80,000个单词。最佳的丢失概率是0.2。表3显示了训练有素和无辍学的LSTM的表现。虽然我们LSTM不打基于短语的LIUM SMT系统施文克等人。(2011),我们的研究结果表明,辍学率提高了LSTM的翻译绩效。
4.4图像字幕生成
我们将失落变体应用于Vinyals等人的图像标题生成模型(2014)。图像标题生成类似于Sutskever等人的序列 - 序列模型(2014),但输入图像被映射到具有高度准确的预先训练的卷积神经网络(Szegedy等,2014)的矢量,该网络被转换成带有单层LSTM的字(参见Vinyals 等人。(2014)的架构细节)。我们在LSTM上测试了我们的丢失方案,因为卷积神经网络没有在图像标题数据集上训练,因为它不是很大(MSCOCO(Lin 2014))。我们的结果总结在下面的表4中。简而言之,退出有助于相对于不使用退出,但使用整体消除退出所获得的收益。因此,在这种情况下,退出的主要作用是产生一个与整体一样好的单一模型,考虑到该技术的简单性,这是一个合理的改进。
5结论
我们提出了一种简单的方法将丢弃法应用于LSTM,从而导致不同领域的若干问题性能大幅提高。我们的工作使得丢弃法对RNN有用,我们的结果表明我们的方案实施可以提高各种应用的性能。
6致谢
我们希望感谢Tomas Mikolov对本文第一版的有用评论。引用了 Bayer, Justin, Osendorfer, Christian, Chen, Nutan, Urban, Sebastian, and van der Smagt, Patrick的文章。
参考文献
Bayer, Justin, Osendorfer, Christian, Chen, Nutan, Urban, Sebastian, and van der Smagt, Patrick. On fast dropout and its applicability to recurrent networks. arXiv preprint arXiv:1311.0701, 2013.
Bourlard, H. and Morgan, N. Connectionist Speech Recognition: A Hybrid Approach. Kluwer Academic Publishers, 1993.
Cheng, Wei-Chen, Kok, Stanley, Pham, Hoai Vu, Chieu, Hai Leong, and Chai, Kian Ming A. Language modeling with sum-product networks. Cho, Kyunghyun, van Merrienboer, Bart, Gulcehre, Caglar, Bougares, Fethi, Schwenk, Holger, and Bengio, Yoshua. Learni
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[21773],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。