神经网络在神经程序语言学应用程序中怎么迁移外文翻译资料

 2022-11-06 14:50:14

神经网络在神经程序语言学应用程序中怎么迁移

摘要

迁移学习的目的是利用 在源域中的有价值的知识 帮助模型在目标域中的性能。这对于神经网络尤其重要,这很可能是过度拟合。在一些领域如图像处理,显示了神经的有效性基于网络的转移学习。神经 NLP,然而,现有研究只有自适应迁移学习,结论是不一致的。在本文中,管道系统案例研究并提供照明图片上的可迁移性神经网络1

1简介

迁移学习,有时称为域适应2,在各种自然语言处理(NLP)应用,当我们没有足够大的数据集时用于感兴趣的任务(称为目标任务T)。在这种情况下,我们想转移或适应来自其他领域的知识(称为源域/任务S),以便减轻问题 过度拟合和提高模型性能T。对于传统的功能丰富或基于内核的模型,研究人员开发了各种优秀的域适应的方法; 示例包括易适应,实例加权和结构对应学习。

最近,深层神经网络正在兴起几乎所有的技术解决方案字段。虽然能力很高 非线性特征,深层神经网络非常倾向于过度拟合方法。 转移学习因此变得更加重要。幸运的是,神经网络可以以可转移的方式通过他们的增量训练学习性:我们可以直接使用训练(调整)参数从源任务初始化网络工作在目标任务; 或者,我们也可以训练两个任务同时与一些参数共享。但是他们的表现应该验证通过实验。

现有研究已经显示,神经特征的可转移性的神经。对于例如,在图像处理中, 类似于Gabor滤波器或颜色块; 他们可以很好地转移到不同的任务。Donahue建议高层次也可在一般视觉识别中转移; Yosinski进一步研究可迁移神经在不同水平的抽象。

虽然转移学习是有希望的图像处理,结论似乎不太清楚NLP应用程序。图像像素是低级信号其通常是连续的并且相关性较低到语义。相比之下,自然语言标记是离散的。每个词很好地反映了思想的人,但邻近的词不共享许多信息作为图像中的像素。早期神经NLP研究随机应用迁移技术,但其结果不一致。 Collobert和Weston应用多任务学习到SRL,NER,POS和CHK,但仅获得 0.04-0.21%误差减少4(出基本误差率 的16-18%)。恰恰相反,Bowman提出改进自然语言推理任务精度为71.3%〜80.8%具有550,000个样品的附加数据集。因此,需要进行更系统的研究阐明了在现场转移神经网络的NLP。

我们的贡献

在本文中,我们调查的问题“神经网络在NLP应用中如何迁移?”

我们区分两种转移方案:(1)将知识传递给语义模拟相似/等效任务,但具有不同的数据集;(2)将知识传递给一个任务模拟不同但共享相同的神经拓扑 /架构,使得神经参数可以 - 契约转移。 我们进一步区分两个 转移方法:(1)使用参数训练 在S上初始化T(INIT),(2)多任务学习(MULT),即同时训练S和T. (请参阅第2和4节)。 我们的研究主要是关注以下研究问题:

RQ1:神经网络如何可转移间两个任务具有相似或不同的语义NLP应用中的?

RQ2:NLP的不同层如何可转移神经模型?

RQ3:INIT和MULT的可传输方式,明显?什么是组合的效果这两种方法?

我们进行了六个广泛的实验分类句子和句子对的数据集。我们利用广泛使用的卷积神经网络(CNN)和长期短期记忆(LSTM)为基础的复发神经网络(RNN)我们的模型。

基于我们的实验结果,我们有根据主要不可预期。

bull;神经网络是否可转移NLP在很大程度上取决于语义类似的任务是,这是不同的 在图像处理中的共识。

bull;输出层主要特定于数据集和不可转移。 词嵌入可能转移到语义理论上不同的任务。

bull;MULT和INIT似乎一般是相互比喻; 结合这两个 方法不会导致我们的进一步收益 研究。

本文的其余部分安排如下。第2节介绍神经模型的数据集 转移; 第三部分 构造和实验设置。我们描述两个方法(INIT和MULT)来转移学习第四部分,我们提出实验结果部分5-6节,并在第7节有结论性意见。

2数据集

在我们的研究中,我们进行了两个系列的实验,使用六个开放数据集如下。

bull;实验I:句子分类

- IMDB。 二进制情绪的大数据集分类(阳性vs.阴性)。

- MR。 一个小数据集的二进制情绪分类。

- QC。 一个(小)数据集的6路问题 分类(例如位置,时间和数)。

表1:数据集的统计数据和示例。

bull;实验二:句子对分类

- SNLI。一个大数据集,识别。分类对象事实是蕴涵,矛盾,和中性。

- SICK。一个小数据集具有完全相同分类目标为SNLI。

- MSRP。一个(小)数据集,连接。目标是二进制分类:判断两个句子是否相同含义。

在每个实验中,大数据集用作 源域和小域是目标电源。表1列出了上述的统计数据数据集。

我们区分两种转移方案, 语义相似性:(1)语义等同转移(IMDB→MR,SNLI→SICK),即S和T的任务由相同的含义定义,和(2)语义上不同的传送(IMDB→QC, SNLI→MSRP)。 实施例也在表 1来展示语义相关性。

应当注意,在图像或语音预处理中,神经网络的输入相当多原始信号的信号; 因此,低级特征检测,躯干几乎总是可转移的,即使手动区分人工对象 和在图像分类任务中的自然。

区分语义相关性 出现从非常低层的词植入或连续隐藏层是特定的 到NLP,也是我们论文的新见解。 如我们将在第5和6节看到可转移性的神经网络在NLP是更敏感的语义比图像处理。

3神经模型和设置

在每个组中,我们使用单个神经模型以统一的方式解决三个问题。 那是说,神经结构是相同的三个数据集,这使得门转移学习无论是否任务在语义上是等价的。 具体来说,神经模型如下。

bull;实验I:LSTM-RNN。 分类a 句子根据其情感或问题我们使用循环神经网络 (RNN,图1a),具有长短期记忆(LSTM)单元。软件最高层被添加到最后字的隐藏状态进行分类。

bull;实验II:CNN对。在这个组,我们使用“暹罗”架构对两句话的关系进行分类。我们首先应用卷积神经网络 (CNN,图1b),窗口大小为5至模型局部上下文和最大池层将信息收集到固定大小的向量然后连接和馈送句子向量到软件最高输出之前的隐藏层。

在我们的实验中,嵌入被预训练由word2vec; 所有嵌入和隐藏层是100维的。我们应用随机梯度下降法,批量大小为50进行优化。在每个设置,我们调整超参数如下:学习率从{3,1,0,3,0.1,0.03},学习的功率衰减速率从{快,中,低}(由如何定义很多,在一个时期之后,学习速率残差是:0.1x,0.3x,0.9x)。我们正规化了我们的网络通过从{0,0.1,0.2,0.3}的费率的下降。注意我们可能不会运行无意义的设置,例如,a 如果网络已经存在较大的遗漏率(即,精度已经下降了退出率增加)。我们报告测试与最高验证相关联的准确度。

为了建立一个基线,我们训练我们的模型没有输出5次由不同的随机参数初始化(表2)。我们已经实现理性,能够与类似的模型文献中报道了所有六个数据集。因此,我们的实施是公平合适的进一步研究转移学习。

应该提到的是本文的目标 是优于最先进的结果; 代替我们想比较不同转移学习的方法和设置 NLP。

表2:无转移的精度(%)。我们还包括:用于比较表明我们已经取得了可比的结果,因此是准备调查转移学习。 模型运行一个在源域中只有一次,因为我们只能转移一次特定模型,而不是几个模型的平均值。

图1:我们的研究中的模型。(a)实验Ⅰ:RNN与LSTM单位的句子分类。(b)实验Ⅱ:cnn用于句对建模。

4转移方法

转移学习的目的是在源头中使用知识域来辅助目标域。作为神经网络,工程通常用梯度(或变体),它是直接使用在源和目标电源进行优化,边缘转移。取决于源中的样本和目标域被调度,有两个基于神经网络的转移的主要方法学习:

bull;参数初始化(INIT)。 INIT方法首先在S上训练网络,然后,直接使用调谐的参数来初始化网络为T。转移后,我们可以fix(锁)在靶结构域中的参数,即没有对T执行训练。 但当标记数据在T中可用时,它将是更好地微调(开锁)参数。

INIT也与无监督预训练有关 例如词嵌入学习和自动编码器在 这些方法,(pre)训练的参数以无监督的方式传送到初始为受监督任务的模型。然而,我们的论文集中在“监督预训练”,这意味着,来自标记的源域的迁移知识。

bull;多任务学习(MULT)。MULT,另一方面同时在两个领域。总成本函数由下式给出J =lambda;JT (1-lambda;)J S。其中J T和J S是单个成本函数的每个域。(J T 和J S 被归一化乘以训练样本的数量。)lambda;isin;(0,1)是超平衡两个域的超参数。

在实践中优化等式1是非平凡通过基于梯度的方法。可以采取参数J的导数,因此lambda;去学习,但是这种模式是可疑,因为它很可能爆炸与大学习率(乘以lambda;或1-lambda;)和陷入局部最优与小的。

Collobert和Weston选择来自任一域的数据样本概率(由lambda;控制)特定数据样本。这样,主转移是独立的学习率,但是我们可能无法完全使用整个数据集,如果lambda;大。我们采用后一种方法在我们的实验中为简单。(更深入分析可能需要在未来的工作。)正式地,我们的多任务学习策略如下。

1使用prob.1和 T。lambda;或S 概率和1-lambda;。

2计算下一个数据样本的梯度在特定领域。

此外,可以组合INIT和MULT 直接,我们获得第三设置:

bull;组合(MULT INIT)。我们首先预习用于参数初始化的源域S,然后同时训练S和T。

从理论的角度来看,INIT和MULT 工作在不同的方式。在MULT方法中,源域通过“别名”将模型正则化目标域的误差表面; 因此神经网络不易过度拟合。 在INIT中,T的误差表面保持不变。训练前目标数据集,参数在中初始化这种有意义的方式,它们包含额外知识在源域。然而,极端情况下,T的误差表面是凸的,INIT 是无效的,因为参数可以达到全局最优,与其初始化无关。在实践中,深层神经网络通常具有高度的复杂,非凸的误差面。通过适当用知识初始化参数 S,我们可以合理地期望参数是在更好的“集水盆地”,并且INIT方法可以将知识从S转移到T。

5 INIT转移的结果

我们首先分析INIT在NLP中的行为转移学习。除了两种不同的反式 - 关于语义相关性的方案,在第2节中,我们进一步评估了两个设置:(1)微调参数开锁,和(2)冻结转移后的参数锁。现有证据显示冻结参数通常会受损性能,但这个设置提供了一个更直接的理解,迁移的特征是(因为目标的因素域优化被排除)。 因此,我们包括在我们的实验。另外,逐层参数逐层回答我们的第二研究问题。

通过第5.1-5.3节,我们初始化了参数T与对应S的最高验证精度。在分段5.4,我们进一步调查,在训练期间准备好转移在S。

5.1总体性能

表3显示了INIT的主要结果。一个快观察结果表明,在两组中,语义等价任务(IMDB→MR, SNLI→SICK)似乎是成功的,证明〜6%。结果并不奇怪并且还在Bowman等人。

然而,对于IMDB→QC和SNLI→MSRP, 但是,(嵌入排除),即LSTM-RNN 单位和CNN特征图。E H O设置产生0.2-0.4%的轻微劣化,~.5x std。转移不能也是通过锁定嵌入和隐藏层证明(E H O)。我们看到在这个设置,形态在QC中非常低,甚至比QC差多数类猜测在MSRP。通过进一步检查,其训练准确率为48.2%和65.5%,我们分别得出结论提取的特征LSTM-RNN和CNN模型几乎是不相关的,最终任务T(QC和MSRP)。

虽然在以前的研究,研究人员主要得出有关转移的积极结论学习,我们发现一个类似于我们的负面结果仔细检查Collobert和Weston,不幸的是,他们的结果可能是有点曲解。在那篇文章中,作者报告转移NER,POS,CHK和预训练字嵌入改进SRL任务由1.91- 3.90%的准确性(出错率为16.54-18.40%),但他们的增益主要是由于字嵌入。在使用预训练词嵌入的设置(在NLP中是常见的),NER,POS和CHK 一起提高SRL的精度只有0.04- 0.21%。

上述结果令人沮丧,对于RQ1,神经网络可能不是迁移适用于不同语义的NLP任务。 迁移对于NLP的学习更倾向于语义学比图像处理域,高可迁移电平特征检测器几乎总是可转移的。

5.2逐层分析

为了回答RQ2,我们接下来分析每层的可迁移性。首先,我们冻结两个嵌入和隐藏层(EH)。 甚至在语义上等效设置,如果我们进一步冻结输出层(O),性能在IMDB→MR和 SNLI→SICK下降,但通过随机初始化输出层的参数(O),我们可以得到a 与基线相比相似或更高的结果(EHO)。这个发现提示输出层主要特定于数据集。转移输出层的参数产生很小(如果有的话)增益。

关于嵌入和隐藏层设置EHO / EHO与EHO),IMDB→MR实验表明,床上用品和隐藏层发挥重要作用作用,每个提高3%的精度。在然而,SNLI→SICK的主要改进在于在隐藏层。一个合理的解释是在情感分类任务(IMDB和MR)形成从原始投入,即情绪出现词典和嵌入,但自然语言推理任务(SNLI和SICK)地址更多的是语义的组成性,因此隐藏层更重要。

此外,对于语义不同的任务 (IMDB→QC和SNLI→MSRP),嵌入是唯一被观察到的参数 是可转让的,稍微有益于目标任务 2.7x和1.8x std。

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139420],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。