英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
生成对抗网络
摘要
我们提出了一个通过对抗过程来估计生成模型的新框架,在该网络中,我们需要同时训练两个模型:捕获数据分布的生成模型G和估计样本来自训练数据还是生成模型G的概率的判别模型D.网络对G的训练过程是最大化D犯错的概率。 这个框架对应于一个极小型双人游戏。在任意函数G和D的空间中,存在唯一的解决方案,其中当D的判别概率为1/2时,G感知出训练数据的分布。在G和D由多层感知器定义的情况下,整个系统可以通过反向传播进行训练。在训练或生成样本期间,不需要任何马尔可夫链或展开的近似推理网络。 实验通过定性和定量评估生成的样本来证明框架的潜力。
1、引言
深度学习的目标是发现丰富的分层模型[2],它们表示人工智能应用中遇到的各种数据的概率分布,如自然图像,包含语音的音频波形和自然语言语料库中的符号。到目前为止,深度学习中最引人注目的成功涉及辨别模型,通常是那些将高维度,丰富的感官输入映射到类标签的模型[14,22]。这些惊人的成功主要基于反向传播和dropout算法,使用分段线性单元[19,9,10]具有特别良好的梯度。由于深度学习难以逼近极大似然估计和相关策略中出现的许多棘手的概率计算,以及难以在生成环境中利用分段线性单元。我们提出了一种新的生成模型来避开这些困难。
在设计的对抗网络框架中,生成模型与样本进行比较:一种判别模型,用于确定样本是来自模型分布还是来自数据分布。生成模型可以被认为与假冒伪钞组相似,试图产生假货币而不加检测地使用它,而判别模型与警察类似,试图检测假币。在这场比赛中的竞争促使两支队伍不断改进他们的方法,直到伪造品和真正的物品无法分辨。
该框架可以产生针对多种模型和优化算法的特定训练算法。在本文中,我们探讨了生成模型通过将随机噪声通过多层感知器产生样本,然后经过判别模型(多层感知机)进行判别,我们把这个网络框架成为生成对抗网。在这种网络框架中,我们可以仅使用非常成功的反向传播和dropout算法[17]来训练这两个模型,并仅使用前向传播从生成模型中抽样,不需要近似推理或马尔可夫链。
2、相关工作
带有潜在变量的定向图形模型的替代方法是具有潜在变量的无向图形模型,如限制玻尔兹曼机(RBMs)[27,16],深度玻尔兹曼机(DBMs)[26]及其众多变体。这些模型中的相互作用表示为未标准化的势函数的乘积,通过对随机变量的所有状态进行全局求和/积分进行标准化。虽然它们可以用马尔可夫链蒙特卡罗(MCMC)方法估计,但是除了分区函数外,它的梯度是难以处理的。依赖于MCMC的学习算法的混合构成是一个重要问题[3,5]。
深度信念网络(DBN)[16]是包含单个无向层和多个有向层的混合模型。虽然存在快速近似分层训练标准,但DBN会产生与无向和有向模型相关的计算困难。
也提出了不接近或限制对数似然的替代标准,如分数匹配[18]和噪声对比估计(NCE)[13]。这两种方法都要求将学习概率密度分析指定为归一化常数。要注意的是,在许多具有多层潜在变量(如DBN和DBM)的生成模型中,甚至不可能推导出易处理的非标准化概率密度。一些模型,如去噪自动编码器[30]和压缩自动编码器的学习规则与RBM的分数匹配非常相似。在NCE中,正如在这项工作中一样,采用判别性训练标准来拟合生成模型。但是,生成模型本身不是用来拟合单独的判别模型,而是用来区分生成的数据与固定噪声分布的样本。因为NCE使用固定的噪声分布,所以只模型学习了大致正确的观察变量的一小部分。
最后,该技术不涉及显式定义概率分布,而是训练生成模型从所需分布中抽取样本。这种方法的优点是这种模型可以设计成通过反向传播来训练。该领域最近的重要工作包括生成随机网络(GSN)框架[5],该框架扩展了广义降噪自动编码器[4]:两者都可以被看作是定义参数化马尔可夫链,即学习模型的参数是执行生成马尔可夫链的一个步骤。与GSN相比,对抗网络框架不需要马尔可夫链进行抽样。由于对抗网络在生成过程中不需要反馈循环,因此它们能够更好地利用分段线性单元[19,9,10],这可以提高反向传播的性能,但在反馈环路中使用时会遇到无限激活的问题。最近一些通过向后传播训练生成模型的例子包括关于自动编码变分贝叶斯[20]和随机后向传播[24]的研究。
3、生成网络
当模型都是多层感知器时,对抗模型框架最适用。为使生成模型学习到数据的分布,我们定义了一个先验输入噪声变量,然后将一个数据空间的映射表示为,其中是由多层感知器表示的可微分函数,参数为。我们还定义了第二个多层感知器输出单个标量。表示来自数据而非的概率。 我们训以最大化将正确标签分配给训练样本和来自的样本的概率。我们同时训练以最小化
。换句话说,和发挥以下双值球员的极大极小游戏的价值函数:
在下一节中,我们将对对抗网络进行理论分析,基本上表明训练准则可以感知数据生成分布,因为和被给予足够的容量,即在非参数限制中。如图1,以获得正式,更具教学意义的解释。在实践中,我们必须使用迭代数值方法来实现游戏平衡。在训练内循环中优化以完成计算是禁止的,并且在有限数据集上会导致过度拟合。相反,我们在优化的个步骤和优化的一个步骤之间交替。这导致维持在最佳解决方案附近,只要足够慢地变化。这种策略类似于SML / PCD [31,29]训练将马尔可夫链样本从一个学习阶段保持到下一阶段的方式,以避免在马尔可夫链中循环成为内部学习循环的一部分。该过程在算法1中正式提出。
在实践中,方程式(1)可能无法提供足够的梯度让学好。在学习初期,当很差时,可以高概率地拒绝样本,因为它们与训练数据明显不同。在这种情况下,饱和。 我们可以训练来最大化,而不是训练来最小化。 这个目标函数导致了和动力学的相同固定点,但是在学习初期提供了更强的梯度。
图1:通过同时更新区分分布(,蓝色,虚线)来训练生成对抗网络,以便从生成分布的样本中区分来自数据生成分布(黑色,虚线)的样本(绿色,实线)。下面的水平线是在这种情况下统一采样的域。上面的水平线是的域的一部分。向上的箭头显示映射如何在变换的样本上施加非均匀分布。在高密度地区收缩并在低密度地区扩张。(a)考虑近似收敛的对抗配对:与相似,是一个部分准确的分类器(b)在算法的内部循环中训练样本与数据的分类,收敛于的。(c)在更新了之后,的梯度已经指导流向更可能被分类为数据的区域。(d)经过几个步骤的训练,如果和有足够的能力,他们将达到两个都无法提高的点,因为。鉴别器不能区分这两种分布,即。
4、理论结果
生成模型隐含地将概率分布定义为当时获得的样本G(z)的分布。 因此,如果给定足够的容量和训练时间,我们希望算法1收敛到一个好的估计量。 本部分的结果是在非参数设置下完成的,例如,我们通过研究概率密度函数空间中的收敛来表示具有无限容量的模型。
我们将在4.1节中展示这个minimax游戏对于有一个全局最优值。 然后,我们将在4.2节中展示算法1优化等式1,从而获得期望的结果。
4.1、的全局最优性
我们首先考虑任何给定生成模型的判别模型。
命题1.对于固定,判别模型是
证明:给定任何生成模型的判别模型的训练准则是最大化量
对于任意,函数在的中达到最大值。判别模型不需要在之外定义,从而得出证明。
注意的训练目标可以被解释为最大化估计条件概率的对数似然性,其中表示是来自还是来自中的极小极大游戏,则Eq. 1现在可以重新配置为:
定理1:当且仅当时,才能达到虚拟训练标准的全局最小值。 此时,达到值。
证明:对于,(考虑等式2)。因此,通过检查公式 4在时,我们发现。可以得出的最佳可能值,只有才能达到,所以
并且通过从中减去这个表达式,我们得到:
KL是Kullback-Leibler分歧。 我们在前面的表达式中认识到模型分布与数据生成过程之间的Jensen-Shannon分歧:
由于两个分布之间的Jensen-Shannon散度总是非负的,只有在它们相等时才为零,我们已经证明是的全局最小值,唯一的解决方案是pg = pdata,即完美复制数据生成过程的生成模型。
4.2、算法1的收敛性
命题2.如果和具有足够的容量,并且在算法1的每个步骤,允许判别模型达到其最佳给定,并且更新以便改进标准,
那么收敛到。
证明:考虑作为函数的,根据上面的论述,在中是凸的。如果且对于每个都是凸的,那么如果,则。这相当于在给定相应的在上可以确定一个唯一的全局最优值的最佳时,计算的梯度下降更新,如在Thm 1中所证明的,因此对进行足够小的更新,收敛到,得出证明。
在实践中,对抗网络通过函数表示一个有限的分布族,我们优化而不是本身。使用多层感知器来定义会在参数空间中引入多个关键点。然而,多层感知器在实践中的出色表现指出,尽管缺乏理论保证,它们仍然是合理的使用模式。
5、实验
我们训练了对抗网络的一系列数据集,包括MNIST [23],多伦多人脸数据库(TFD)[28]和CIFAR-10 [21]。生成模型网络使用了整流器线性激活[19,9]和S形激活的混合,而判别模型网络使用了maxout [10]激活。虽然我们的理论框架允许在模型的中间层使用压降和其他噪声,但我们仅使用噪声作为模型网络最底层的输入。
我们通过将Gaussian Parzen窗拟合到用生成的样本并在此分布下报告对数似然性来估计测试集数据在下的概率。Gaussians的参数是通过验证集上的交叉验证获得的。 这个程序在Breuleux等人中引入。[8]并用于各种生成模型,其确切的可能性不容易处理[25,3,5]。在结果报告在表1中,这种估计可能性的方法具有稍高的方差,并且在高维空间中表现不佳,但它是我们所知道的最佳方法。可以抽样但不估计可能性的生成模型的进展直接推动了如何评估这些模型的进一步研究。
表1:Parzen基于窗口的对数似然估计。在MNIST上报告的数据是样本在测试集上的平均对数似然性,其中跨实例计算的平均值的标准误差。在TFD上,我们计算了数据集折叠的标准误差,并使用每个折叠的验证集合选择不同的。 在TFD上,在每次折叠时进行交叉验证,并且计算每次折叠的平均对数似然性。对于MNIST,我们将其与实数值(而不是二元)版本的数据集的其他模型进行比较。
在图2和图3中,我们展示了训练后从发电机网中抽取的样本。虽然我们没有声称这些样本优于现有方法生成的样本,但我们认为这些样本至少与文献中更好的生成模型相竞争并突出对抗框架的潜力。
图2:来自模型的样本的可视化。最右边的列显示了邻近样本的最近训练样本,以证明模型没有记住训练集。样本是公平的随机抽签,不是樱桃采摘。与大多数其他深度生成模型的可视化不同,这些图像显示了模型分布的实际样本,而不是以给定隐藏单位样本的条件方式。此外,这些样本是不相关的,因为抽样过程不依赖于马尔可夫链混合。a)MNIST b)TFD c)CIFAR-10(全连接模型)d)CIFAR-10(卷积判别模型和“去卷积”生成模型)
图3:通过在整个模型的空间中的坐标之间线性插值而获得的数字
表2:生成建模方面的挑战:对涉及模型的每个主要操作的不同深度生成建模方法遇到的困难进行总结。
6、优点和缺点
这个新框架与先前的建模框架相比具有优点和缺点。缺点主要是没有的明确表示,并且在训练过程中必须与很好地同步(特别是,为了避免“Helvetica场景”,不能在没有更新的情况下被训练得太多,其中崩溃了太多与的值相同的价值,以便有足够的多样性来模拟),就像玻尔兹曼机器的负链必须在学习步骤之间保持最新一样。优点是不需要马尔可夫链,只有backprop用于获得梯度,在学习期间不需要推理,并且可以将各种各样的函数结合到模型中。表2总结了生成敌对网与其他生成建模方法的比较。
上述优点主要是计算性的。对抗模型也可以从生成模型网络获得一些统计优势,而不是直接用数据示例更新,而只是通过鉴别器中流动的梯度。这意味着输入的组件不会直接复制到生成模型的参数中。对抗网络的另一个优势是它们可以表示非常尖锐甚至退化的分布,而基于马尔可夫链的方法要求分布有点模糊,以便链能够在模式之间进行混合。
7、结论和未来的工作
这个框架承认了许多直接的扩展:
1.条件生成模型可以通过将作为输入添加到和来获得。
2.学习近似推理可以通过训练辅助网络来预测给定来执行。这与唤醒睡眠算法[15]训练的推理网类似,但其优点是可以在发电机网络完成训练之后为固定网络训练推理网络。
3.通过训练一系列共享参数的条件模型,可以对所有条件进行近似建模,其中是的下标的子集。实质上,可以使用对抗网络来实现确定性MP-DBM的随机扩展[11]。
4.半监督学习:当有限的标记数据可用时,来自鉴别器或推理网络的特征可以改善分类器的性能。
5.提高
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23374],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。