用于语义分割的全卷积网络
Jonathan Long Evan Shelhamer Trevor Darrell
法国;美国;美国
计算机视觉与模式识别会议CVPR
摘要
卷积网络是强大视觉模型,它可以产生特征层次结构。我们展示了卷积网络本身,端到端,像素到像素的训练,超过了语义分割的最新技术。我们的主要见解是构建“完全卷积”的网络,该网络接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义并详细说明了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并得到了它与先前模型的联系。我们把当代的分类网络(AlexNet[19]、VGG[31]、GoogleNet[32])调整为完全卷积网络,并通过微调将其学习到的细节转移分割任务中。我们又定义了一个新颖的架构,该架构将来自深层粗略层的语义信息与来自浅层精细层的外观信息相结合,产生准确和详细的分割。我们的全卷积网络实现对PASCAL VOC (相对于2012年平均IU从 20%提高到62.2%)、NYUDv2和SIFT Flow的精确分割,并且推断一个典型的图像的时间不超过五分之一秒。
- 简介
卷积网络正在推动识别的进步。Convent不仅在整个图像分类方面有所改进[19,31,32],
而且在具有局部结构化输出方面取得进展。这些包括边界框对象检测[29,12,17]、部分和关键点预测[39,24]以及局部对应[24,9]方面的进步。
从粗略到精细推理的下一步自然是像素级的预测。先前的方法使用了卷积神经网络进
行语义分割[27,2,8,28,16,14,11],其中每个像素都标有其封闭对象或区域的类别,但该工作解决了一些缺点。
图 1 全卷积网络可以有效地学习对每像素任务(如语义分割)进行密集预测
我们展示了一个完全卷积网络(FCN),在语义分割上进行端到端、像素到像素的训练,在没有进一步机械的情况下超过了最先进的技术。据我们所知,我们这是第一个对FCN进行端到端(1)像素级预测和(2)监督预训练的工作。现有网络的完全卷积版本预测来自任意大小输入的密集输出。学习和推理都是通过密集
前馈计算和反向传播一次完成整个图像的。网络内上采样层可以在具有下采样池的网络中进行像素级预测和学习。这种方法是有效的,无论是渐进的还是绝对的,并且排除了其他工作中的并发症。Patchwise训练很常见[27,2,8,28,11],但缺乏完全卷积并对其学习表示进行微调,将最近在分类[19,31,32]方面的成功转移到密集预测。相比之下,以前的工作在没有监督预训练的情况下应用了小型卷积神经网络[8,28,27].
语义分割面临语义和位置之间的内在张力:全局信息解决了什么,而局部信息解决哪里。深度特征层次在局部到全局金字塔中联合编码位置和语义。我们在第4.2节中定义了一种新颖的跳过架构,以结合深层的粗略语义信息和浅层的精细外观信息(见图3)。在下一节中,我们将回顾关于深度分类网络、FCNs和最近使用convnet进行语义分割方法的相关工作。以下部分解释了FCN设计和密集预测权衡,介绍了我们具有网络上采样和多层组织的架构,并描述了我们的实验框架。最后,我们在PASCAL VOC 2011-2、NYUDv2和SIFT Flow 上展示最新的结果。
- 相关工作
我们借鉴了最近在图像分类 [19,31,32] 和迁移学习 [4,38] 方面取得成功的深层网
络。转移首先在各种视觉识别任务[4,38]中得到证明,然后在检测以及混合提议分类器模型中的实例和语义分割[12,16,14]中得到证明。我们现在重新构建和微调分类网络,以直接、密集地预测语义分割。 我们绘制了 FCN 的空间,并在此框架中定位了历史和最近的先前模型。
完全卷积网络 据我们所知,它将卷积网络扩展到任意大小的输入的想法首先出现在 Matan 等人中。[25],它扩展了经典的 LeNet [21] 以识别数字字符串。由于他们的网络仅限于一维输入字符串,Matan 等人使用维特比解码来获得他们的输出。Wolf和Platt[37] 将 convnet输出扩展到邮政地址块四个角的检测分数的二维地图。这两项历史工作都进行了推理和完全卷积学习以进行检测。Ning等人[27] 定义了一个卷积网络,用于使用完全卷积推理对线虫组织进行粗略的多类分割。
在当今的多层网络时代,全卷积计算也得到了利用。Sermanet等人的滑动窗口检测[29]、Pinheiro和Collobert[28]的语义分割、以及 Eigen等人的图像恢复[5]都用到了卷积计算。完全卷积训练很少见,但汤普森等人有效地使用它[35]去学习端到端的部件检测器和用于姿态估计的空间模型,尽管他们没有阐述或分析这种方法。
He等人[17]丢弃分类网络的非卷积部分以制作特征提取器。它们结合了提议和空间金字塔池化,以产生用于分类的局部固定长度特征。虽然快速有效,但这种混合模型无法端到端学习。
使用Convents进行密集预测 最近的几项工作已将 convnets 应用于密集预测问题,包括 Ning [27]、Farabet[8]、Pinheiro和Collobert的语义分割;Ciresan等人对电子显微镜的边界预测[2]以及Ganin 和Lempitsky [11]的混合神经网络/最近邻模型的自然图像; 以及 Eigen 等人的图像恢复和深度估计[5, 6]。这些方法的共同要素包括
限制容量和感受野的小模型;
逐块训练;
通过超像素投影、随机场正则化、过滤或局部分类进行后处理;
OverFeat引入的用于密集输出的输入移位和输出隔行;
多尺度金字塔处理[8,28,11];
饱和tanh 非线性[8,5,28];
集成[2,11];
而我们的方法没有这种机制。然而,我们确实从 FCN 的角度研究了patchwise训练 3.4 和“shift-and-stitch”密集输出 3.2。我们还讨论了网上采样 3.3,其中 Eigen 等人的完全连接预测[6]是一个特例。
与这些现有方法不同,我们调整和扩展了深度分类架构,使用图像分类作为监督预训练,并完全卷积微调以从整个图像输入和整个图像地面通道中简单有效地学习。
HariHaran等人[16]和Gupta等人[14]同样使深度分类网络适应语义分割,但在混合提议分类器模型中也这样做。 这些方法通过对边界框和区域建议进行采样以进行检测、语义分割和实例分割来微调 R-CNN 系统[12]。这两种方法都不是端到端学习的。
他们分别在 PASCAL VOC 分割和 NYUDv2 分割上取得了最先进的结果,因此我们直接将我们的独立端到端 FCN 与第 5 节中的语义分割结果进行比较。
- 全卷积神经网络
convnet 中的每一层数据都是一个大小为 h times; w times; d 的三维数组,其中 h 和 w
空间维度,d 是特征或通道维度。第一层是图像,像素大小为 h times; w,有 d 个颜色通道。 更高层中的位置对应于它们路径连接到的图像中的位置,称为它们的感受野。
Convnets 建立在平移不变性上。它们的基本组件(卷积、池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 在特定层的(i,j)位置和下层的相同位置为数据向量写入和,这些函数通过以下方式计算输出
其中 k 称为内核大小,s 是步长或子采样因子, 确定层类型:卷积或平均池化的矩阵乘法,最大池化的空间最大值,或激活函数的元素非线性, 对于其他类型的图层,依此类推。
这种函数形式在组合下保持不变,内核大小和步幅遵循变换规则
虽然一般深度网络计算一般非线性函数,但只有这种形式的层的网络计算非线性滤波器,我们称之为深度滤波器或完全卷积网络。 FCN 自然地对任意大小的输入进行操作,并产生相应(可能重新采样)空间维度的输出。
FCN 组成的实值损失函数定义任务。 如果损失函数是最后一层空间维度上的总和,,则其梯度将是其每个空间分量梯度的总和 。因此,在整个图像上计算的随机梯度下降将与在 0 上的随机梯度下降相同,将所有最终层的感受野作为一个小批量。
这些感受野显着重叠时,前馈计算和反向传播在整个图像上逐层计算而不是独立逐块计算时效率更高。
我们接下来解释如何将分类网络转换为产生粗输出图的完全卷积网络。对于逐像素预测,我们需要将这些粗略的输出连接回像素。3.2 节描述了 OverFeat [29] 为此目的引入的技巧。 我们通过将其重新解释为等效的网络修改来深入了解这个技巧。 作为一种高效、有效的替代方法,我们在 3.3 节中介绍了用于上采样的反卷积层。在第 3.4 节中,我们考虑通过逐块采样进行训练,并在第 4.3 节中证明我们的整个图像训练更快且同样有效。
3.1为密集预测调整分类器
典型的识别网络,包括LeNet[21]、AlexNet[19]及其更深层的后继者 [31,32],表面上采用固定大小的输入并产生非空间输出。这些网络的全连接层具有固定尺寸并丢弃空间坐标。然而,这些完全连接的层也可以被视为具有覆盖整个输入区域的内核的卷积。这样做会将它们投射到完全卷积网络中,该网络接受任何大小的输入和输出分类图。(相比之下,非卷积网络,例如 Le等人[20] 的网络,缺乏这种能力。)
图 2将全连接层转换为卷积层使分类网络能够输出热图
此外,虽然生成的地图等效于对特定输入补丁的原始网络的评估,但计算在这些补丁的重叠区域上高度摊销。例如,虽然 AlexNet 需要 1.2 毫秒(在典型的 GPU 上)生成 227 times; 227 图像的分类分数,但完全卷积版本需要 22 毫秒从 500 times; 500 图像生成 10 times; 10 网格输出,这比朴素的方法快 5 倍以上。
这些卷积模型的空间输出图使它们成为解决语义分割等密集问题的自然选择。 由于每个输出单元都可用的地面实况,前向和后向传递都很简单,并且都利用了卷积固有的计算效率(和积极的优化)。
AlexNet示例的相应后向时间对于单个图像为2.4毫秒,对于完全卷积的 10 times; 10 输出映射为37毫秒,从而导致与前向传递类似的加速。这种密集的反向传播如图1所示。
虽然我们将分类网络重新解释为完全卷积生成任何大小输入的输出映射,但输出维度通常会通过子采样来减少。
分类网络子样本以保持过滤器小且计算要求合理。 这会粗化这些网络的完全卷积版本的输出,将其从输入的大小减少一个等于输出单元感受野的像素步幅的因子。
3.2 shift-and-stitch 过滤稀疏
OverFeat [29]引入的输入移位和输出隔行是一种技巧,可以从没有插值的粗略输出中产生密集预测。如果输出按 f 因子下采样,则输入(通过左侧和顶部填充)向右移动x个像素,向下移动y个像素,对于 。这个输入每个都通过convnet,并且输出是交错的,以便预测对应于其感受野中心的像素。
仅更改 convnet 的过滤器和层步长可以产生与这种移位和缝合技巧相同的输出。考虑一个输入步幅为 s 的层(卷积或池化),以及一个带有过滤器权重 的后续卷积层(省略特征维度,这里无关紧要)。将下层的输入步幅设置为 1 将其输出上采样一个因子 s,就像 shift-and-stitch 一样。但是,将原始滤波器与上采样输出卷积不会产生与技巧相同的结果,因为原始滤波器只能看到其(现在上采样)输入的减少部分。要重现该技巧,请将过滤器
复制技巧的完整净输出需要一层一层地重复这个滤波器放大,直到所有子采样都被移除。
简单地减少网络中的子采样是一种折衷:过滤器可以看到更精细的信息,但接收域更小,计算时间更长。我们已经看到,移位和缝合技巧是另一种折衷方法:在不减小滤波器的感受野大小的情况下,使输出更密集,但是滤波器被禁止以比其原始设计更精细的尺度访问信息。
虽然我们已经做了移位和缝合的初步实验,但我们并没有在我们的模型中使用它。我们发现,如下一节所述,通过上采样进行学习更有效,尤其是与后面所述的跳层融合相结合时。
3.3 上采样是向后跨步卷积
将粗输出连接到密集像素的另一种方法是插值。例如,简单双线性插值通过仅依赖于输入和输出单元的相对位置的线性映射从最近的四个输入计算每个输出。
从某种意义上说,因子f的上采样是分数输入步长为1/f的卷积。只要f是积分的,一种自然的上采样方法就是输出步长为f的向后卷积(有时称为反卷积)。这样
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[596497],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。