卷积神经网络我们了解多少外文翻译资料

 2023-09-04 10:29:37

卷积神经网络我们了解多少

作者:Isma Hadji and Richard P. Wildes

国籍:加拿大

出处:arXiv

中文译文:

第一章 介绍

1.1 动机

在过去几年中,主要的计算机视觉研究都集中在卷积神经网络上,通常称为ConvNets或CNN。这些效果在广泛的分类和回归任务中产生了新的最先进的性能。相比之下,虽然这些方法的历史可以追溯到若干年,但对这些系统如何实现其卓越结果的理论理解滞后。事实上,目前计算机视觉领域的许多贡献都使用ConvNets作为一个黑盒子,对于它的工作原理有一个非常模糊的想法,从科学的角度来看这是非常不令人满意的。特别是,有两个主要的互补问题:

(1)对于学习方面(例如卷积核),它究竟学了什么?

(2)对于网络设计方面(例如层数,内核数,池化策略,非线性选择),为什么某些选择比其他选择更好?

这些问题的答案不仅可以提高对ConvNets的科学理解,还可以提高它们的实际适用性。

此外,目前ConvNets的实现需要大量的数据用于训练,不同的设计对性能有很大影响。 更深入的理论理解应该减少对数据驱动的依赖。虽然实证研究调查了网络的运作,但迄今为止,他们的结果主要局限于内部处理的可视化,以了解ConvNet不同层面正在发生的事情。

1.2 目标

本文献将回顾多种卷积网络。重要的是,我们将通过用多种方法来讨论典型的卷积网络的各个组成部分,这些方法的设计基于生物学发现和合理的理论基础。此外,还将通过可视化和实证研究来理解ConvNets的不同尝试。最终目标是阐明ConvNet网络中涉及的每一层的作用,提炼我们目前对ConvNets的理解,并突出不足之处。

1.3 论文大纲

本报告的结构如下:本章的动机是需要回顾我们对卷积网络的理解。第2章将介绍各种多层网络,并介绍计算机视觉应用中最典型的网络。第3章将更具体地关注典型卷积网络的每个结构块,并从生物学和理论角度讨论不同组件的设计。最后,第4章将描述ConvNet设计的当前趋势以及对ConvNet理解的有效性,并强调仍然存在的一些突出不足之处。

第二章 多层网络

2.1 多层架构

在最近基于深度学习的网络取得成功之前,最先进的计算机视觉识别系统依赖于两个独立但互补的步骤。首先通过一组手工设计的操作(例如具有基集的全局卷积、局部或全局编码方法)将输入数据转换为合适的形式。输入所产生的转换通常需要找到输入数据的紧凑和或抽象表示,同时根据手头的任务注入几个不变性。这种转换的目标是以一种方式改变数 据,使它更容易被分类器分离。其次利用转换后的数据来训练某种分类器来识别输入信号的内容。所使用的任何分类器的性能通常都受到所使用的转换的严重影响。

具有学习能力的多层架构提出不仅利用分类器,而且直接从数据中学习所需的转换操作,对问题带来了不同的看法。这种形式的学习通常被称为表示为学习,当在深度多层架构中使用时,它被称为深度学习。

多层架构可以定义为计算模型,允许从多个层次的输入数据中提取有用信息的计算模型。一般来说,多层架构的设计是为了放大更高层输入的重要方面,同时对不那么显著的变化变得越来越离谱。大多数多层架构堆叠具有交替线性和非线性函数的简单构建块模块。多年来,人们提出了过多的各种多层架构,本节将涵盖在计算机视觉应用中采用的最突出的此类架构。特别是,人工神经网络结构将因其突出而成为焦点。为了简洁,因此,这些网络将在下面更简单地称为神经网络。

2.1.1 神经网络

典型的神经网络架构由输入层x、输出层y和多个隐藏层h的堆栈组成,其中每个层由多个单元或单元组成,通常每个隐藏单元hj接收来自前一层的所有单元的输入,并被定义为输入的加权组合,然后是一个非饱和线性函数,例如

其中,wij,是控制输入单元和隐藏单元之间的权重,bj是隐藏层一个偏差值。F()是一些饱和的非饱和线性函数,如 sigmoid函数。

图2.1:一个典型的神经网络体系结构的说明。

此图已经存在了很多年(从20世纪60年代),直到最近才被大量使用。造成这种延迟的原因有很多。最初的负面结果显示,感知器无法模拟像XOR这样的简单操作,这在一段时间内阻碍了对感知器的进一步研究,直到其推广到许多层。此外,缺乏适当的训练算法减缓了进展,直到反向传播算法的普及。然而,阻碍多层神经网络发展的更大障碍是,它们依赖于大量的参数,这反过来又意味着需要大量的训练数据和计算资源来支持参数的学习。 使用限制波尔兹曼机(RBM)的一个主要贡献是允许深度神经网络领域的巨大进步。受限制的玻尔兹曼机器可以看作是两层神经网络,在其受限制的形式中,只允许前馈连接。在图像识别的背景下,用于训练rbm的无监督学习方法可以分为三个步骤进行总结。首先,对于每个像素xi,从一组随机权值wij和偏差bj开始,隐藏状态hj中每个单位被设为1具有概率pj.该概率被定义为

其中,sigma;(y)=1/(1 exp(minus;y))。其次,一旦根据以上公式随机设置了所有的隐藏状态。尝试重建图像将通过概率为pi=sigma;(bi sum;jhjwij)设置每个像素从xi到1。最后通过根据重构误差所给更新的权重和偏差值来修正隐藏单元。

其中alpha;:学习率,lt;xihjgt;:像素xi出现的次数和隐藏层单元hj是一起的。整个过程重复N次,或者直到错误下降到预先设定的阈值tau;以下。在训练了一层后,其输出被用作层次结构中下一层的输入,然后按照相同的过程进行训练。通常,在所有网络的图层都经过预训练后,通过使用梯度下降进行误差反向传播,进一步用标记数据来确定它们。使用这种分层无监督预训练的深度神经网络不需要大量标记数据,因为无监督RBM预训练提供了一种十分有用的各网络参数初始化方法。

假设你想要解决一个复杂的任务,当然应该尝试收集更多的有标签的训练数据,但是如果这太难或太昂贵,你可以尝试用无监督预训练进行网络参数的初始化,提供先验。从最低层开始,然后上升,使用无监督的特征检测算法,如限制玻尔兹曼机(RBM)或自动编码器。 一旦所有层都以这种方式进行了训练,就可以使用监督式学习(反向传播)对网络进行微调。

2.1.2 递归神经网络

在考虑依赖顺序输入的任务时,最成功的多层结构之一是递归神经网络(RNN)可以看作是一种特殊类型的神经网络,其中每个隐藏单元从它在当前时间步长观察到的数据以及它在前一个时间 步长的状态中获取输入。一个RNN的输出被定义为

图2.3:标准递归神经网络的操作说明。每个RNN单元在当前时间帧内接受新的输入,xt,从前一个时间步长开始,htminus;1机组的新输出根据(2.4)和可以馈入到多层RNN中的另一层处理。

其中sigma;是一些非线性压缩函数和wi和ui是控制当前和过去信息的相对重 要性的网络参数。

RNN的主要问题之一是它们对长期依赖关系建模的能力有限。在训练过程中,从当前时间步长反向传播到初始时间,传播的梯度将与网络的权重相乘。由于这种乘法累加,如果权重较小,则会出现梯度消失,而权重较大则导致梯度爆炸。 由此引入了长期短期记忆(LSTM)。

图2.4:一个典型的LSTM单元的说明。该单元在当前时间xt和以前的时间htminus;1接收输入,并返回要在下次输入的输出ht。LSTM单元的最终输出分别由输入门、忘记门、输出门以及分别在(2.5)、(2.6)、(2.9)和(2.8)中定义的存储单元状态控制。

lstm是一种循环网络,它进一步配备了一个存储或存储组件,如图2.4 所示,它可以随着时间的推移积累信息。LSTM的存储单元是门控的,这样它就允许从它中读取或写入信息。值得注意的是,lstm还包含一个遗忘门,每一时刻Memory Cell里的值都会经历一个是否被遗忘的过程,就是由该门控制的,如果打卡,那么将会把Memory Cell里的值清除,也就是遗忘掉。lstm由三个不同的门控制(输入门it,遗忘门ft和输出门ot),以及内存单元格状态ct。输入门由电流输入门控制xt,和前一个状态htminus;1,并将其定义为

其中wi,ui,bi表示控制输入门连接的权重和偏差,sigma;通常是一个sigmoid函数。遗忘门也同样被定义为

它由相应的权重和偏差控制wf,uf,bf.可以说,LSTM最重要的方面是,它可以应对梯度消失和梯度爆炸的挑战。这种能力是通过遗忘和输入单元状态的相加组合来确定存储单元的状态来实现的,存储单元的状态进而控制信息是否通过输出门传递给另一个单元。具体来说单元格状态分两步计算。首先,根据

其中phi;通常是一个双曲切线。第二,最终的单元状态由当前估计的单元状态gt,以及之前的单元格状态ctminus;1控制,由输入门和忘记门调制,根据

最后,利用单元的状态和当前和以前的输入,估计输出门的值和LSTM单元的输出,根据

2.1.3卷积网络

卷积网络(ConvNets)是一种特殊类型的神经网络,计算机视觉中成功应用卷积结构有两个关键的设计思想:首先,ConvNets利用图像的2D结构以及一个像素点邻域内的像素通常高度相关这一事实。 因此避免在所有像素单元之间使用一对一连接。特征共享,通过在所有位置使用相同的滤波器进行卷积来输出特征图。与标准神经网络相比,ConvNets的这一特征导致其所依赖的结构要少得多。其次引入了池化步骤,该步骤提供了一定程度的平移不变性,从而使体系结构不受位置的微小变化的影响。值得注意的是,由于网络的接受域大小的增加,池化还允许网络逐渐看到输入的更大部分。接收场大小的增加(加上输入的分辨率的降低)允许网络重新生成,网络可以随着深度的增加来表示更多抽象特征。例如,对于对象识别的任务,ConvNets层首先关注对象部分的边缘,最终覆盖整个对象。

图2.5:标准卷积网络的结构说明。

卷积网络的结构主要受Hubel和Wiesel的开创性处理的启发。事实上,卷积网络最早的实例似乎是 Fukushimarsquo;s Neocognitron,它依赖于本地连接,每个特征图只对特定的特征类型有最大响应。Neocognitron由K层级联组成每一层交替S-cell单元Usl和复杂的单元UCl这分别松散地模拟了在生物简单细胞和复杂细胞中发生的处理过程。简单的单元格单元执行类似于局部卷积的操作,然 后是一个修正的线性单元(ReLU)

而复杂的单元格执行类似于平均池化的操作。该模型还包括一个有争议的非线性函数,以完成类似于正态的一个现代网络ConvNets。

图2.6: Neocognitron结构说明。

经过培训,神经网络可以学习输入feature map和cell之间的连接,学习过程可以概括为两个步骤:首先,每次在输入端出现新的刺激时,将最大程度响应该刺激的cell选作该刺激类型的代表单元。其次,输入和响应单元间的连接在每次有相同输入类型的输入时都会加强。最近的计算机视觉中部署的大多数CONVENET体系结构受到1998年提出的的Lenet的启发,Lenet用于手写识别。Lenet引入反向传播,以相对有效地学习卷积参数。尽管CONVERNET与全连接的神经网络相比需要少得多的参数,但是它们的主要缺点仍然是他们对学习和标记数据的严重依赖。这种数据依赖可能是Convnet直到2012年才被广泛使用的主要原因之一,当时大型ImageNet数据集和相应的计算资源的可用性,使人们恢复对Convnet的兴趣。ConvNets在ImageNet上的成功导致了各种ConvNet体系结构的飞速创新,这一领域的大部分贡献都是基于Convnet的不同构造。

2.1.4生成对抗网络

GANS最初是在2014年推出的,虽然它们本身并没有提出不同的网络搭建,但是引入一种无需标签数据的无监督学习方法。 一个典型的GaN是由两个子网络:生成网络和判别网络组成的,通过两个网络互相对抗来达到最好的生成效果。

图2.7:通用生成广告串行网络(GAN)的结构说明。

自最初的论文以来,许多贡献参与了通过使用更强大的多层架构作为网 络[114]的骨干(即鉴别器和反卷积网络的预卷积网络,学习生成器的上采样滤波器)来提高GANs的能力。. GAN的一些成功应用包括:文本到图像合成(其中网络的输入是要渲染的图像的文本描述),图像超分辨率,GAN从低分辨率输入生成真实的高分辨率图像。其中GAN的作用是填补输入图像缺失信息的洞,以及使用GAN从输入噪声 [10]合成真实纹理已达到图像修复。

2.1.5 多层网络训练

使用梯度下降进行反向传播这种简单的梯度下降方法特别适合于训练多层网络,这要归功于使用链规则来计算不同层的各种网络参数的导数。它依赖于最小化一个平滑误差函数E(w)遵循一个迭代过程,定义为

其中w表示网络的参数,alpha;表示可能控制收敛速度的学习速率part;E(w)/part;w 是在训练集上计算出的误差梯度。这种简单的梯度下降方法特别适用于多层训练由于使用链规则进行反向传播和计算不同层上不同网络参数的误差导数。虽然反向传播可以追溯到几年前,但它在多层架构的背景下得到了推广。在实践中,随机梯度下降使用包括从连续的相对较小的子集近似整个训练集的误差梯度。

梯度下

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 94 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596504],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。