Pyramid Scene Parsing Network
Hengshuang Zhao1 Jianping Shi2 Xiaojuan Qi1 Xiaogang Wang1 Jiaya Jia1
1The Chinese University of Hong Kong 2SenseTime Group Limited
{hszhao, xjqi, leojia}@cse.cuhk.edu.hk, xgwang@ee.cuhk.edu.hk, shijianping@sensetime.com
Abstract
Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-region-based context aggregation through our pyramid pooling module together with the proposed pyramid scene parsing network (PSPNet). Our global prior representation is effective to produce good quality results on the scene parsing task, while PSPNet provides a superior framework for pixel-level prediction. The proposed approach achieves state-of-the-art performance on various datasets. It came first in Im-ageNet scene parsing challenge 2016, PASCAL VOC 2012 benchmark and Cityscapes benchmark. A single PSPNet yields the new record of mIoU accuracy 85.4% on PASCAL VOC 2012 and accuracy 80.2% on Cityscapes.
1. Introduction
Scene parsing, based on semantic segmentation, is a fundamental topic in computer vision. The goal is to assign each pixel in the image a category label. Scene parsing provides complete understanding of the scene. It predicts the label, location, as well as shape for each element. This topic is of broad interest for potential applications of automatic driving, robot sensing, to name a few.
Difficulty of scene parsing is closely related to scene and label variety. The pioneer scene parsing task [23] is to classify 33 scenes for 2,688 images on LMO dataset [22]. More recent PASCAL VOC semantic segmentation and PASCAL context datasets [8, 29] include more labels with similar context, such as chair and sofa, horse and cow, etc. The new ADE20K dataset [43] is the most challenging one with a large and unrestricted open vocabulary and more scene classes. A few representative images are shown in Fig. 1. To develop an effective algorithm for these datasets needs to conquer a few difficulties.
State-of-the-art scene parsing frameworks are mostly based on the fully convolutional network (FCN) [26]. The deep convolutional neural network (CNN) based methods boost dynamic object understanding, and yet still face chal-
1
Figure 1. Illustration of complex scenes in ADE20K dataset.
lenges considering diverse scenes and unrestricted vocabulary. One example is shown in the first row of Fig. 2, where a boat is mistaken as a car. These errors are due to similar appearance of objects. But when viewing the image regarding the context prior that the scene is described as boathouse near a river, correct prediction should be yielded.
Towards accurate scene perception, the knowledge graph relies on prior information of scene context. We found that the major issue for current FCN based models is lack of suitable strategy to utilize global scene category clues. For typical complex scene understanding, previously to get a global image-level feature, spatial pyramid pooling [18] was widely employed where spatial statistics provide a good descriptor for overall scene interpretation. Spatial pyramid pooling network [12] further enhances the ability.
Different from these methods, to incorporate suitable global features, we propose pyramid scene parsing network (PSPNet). In addition to traditional dilated FCN [3, 40] for pixel prediction, we extend the pixel-level feature to the specially designed global pyramid pooling one. The local and global clues together make the final prediction more reliable. We also propose an optimization strategy with deeply supervised loss. We give all implementation details, which are key to our decent performance in this paper, and make the code and trained models publicly available 1.
Our approach achieves state-of-the-art performance on all available datasets. It is the champion of ImageNet scene parsing challenge 2016 [43], and arrived the 1st place on PASCAL VOC 2012 semantic segmentation benchmark [8], and the 1st place on urban scene Cityscapes data [6]. They manifest that PSPNet gives a promising direction for pixel-level prediction tasks, which may even benefit CNN-based stereo matching, optical flow, depth estimation, etc. in follow-up work. Our main contributions are threefold.
bull; We propose a pyramid scene parsing network to embed difficult scenery context features in an FCN based pixel prediction framework.
bull; We develop an effective optimization strategy for deep ResNet [13] based on deeply supervised loss.
bull; We build a practical system for state-of-the-art scene parsing and semantic segmentation where all crucial implementation details are included.
2. Related Work
In the following, we review recent advances in scene parsing and semantic segmentation tasks. Driven by powerful deep neural networks [17, 33, 34, 13], pixel-level prediction tasks like scene parsing and semantic segmen-tation achieve great progress inspired by replacing the fully-connected layer in classification with the convolution layer [26]. To enlarge the receptive field of neural networks, methods of [3, 40] used dilated convolution. Noh et al. [30] proposed a coarse-to-fine structure with deconvolution network to learn the segmentation mask. Our baseline network is FCN and dilated network [26, 3].
Other work mainly proceeds in two directions. One line [26, 3, 5, 39, 11] is with multi-scale feature ensembling. Since in deep networks, higher-layer feature contains more semantic meaning and less location information. Combining multi-scale features can improve the performance.
The other direction is based on structure prediction. The pioneer work [3] used conditional random field (CRF) as post processing to refine the segmentation result. Fol
剩余内容已隐藏,支付完成后下载完整资料
金字塔场景分析网络
赵恒爽1施建平2齐晓娟1王晓刚1佳雅1
1香港中文大学2SenseTime集团有限公司
{hszhao, xjqi, leojia}@cse.cuhk.edu.hk, xgwang@ee.cuhk.edu.hk, shijianping@sensetime.com
摘要
场景解析对于不受限制的开放词汇表和不同的场景具有挑战性。在本文中,我们利用金字塔池模块和所提出的金字塔场景解析网络(PSPNet),通过不同区域的上下文聚合来实现全局上下文信息的聚合。我们的全局先验表示方法能够有效地在场景解析任务中生成高质量的结果,而PSPNet为像素级预测提供了一个优越的框架。该方法在各种数据集上实现了最先进的性能。在imo - agenet场景解析挑战赛2016、PASCAL VOC 2012基准测试和Cityscapes基准测试中获得第一名。单台PSPNet在PASCAL VOC 2012上的mIoU准确率为85.4%,在城市景观上的准确率为80.2%。
1. 介绍
基于语义分割的场景分析是计算机视觉的一个基本课题。目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完整理解。它预测每个元素的标签、位置和形状。本课题对自动驾驶、机器人传感等潜在应用具有广泛的研究价值。
场景解析的难度与场景和标签的多样性密切相关。先锋场景解析任务[23]是在LMO数据集[22]上为2688幅图像分类33个场景。最近的PASCAL VOC语义分割和PASCAL上下文数据集[8,29]包含了更多上下文相似的标签,如椅子和沙发、马和牛等。新的ADE20K数据集[43]是最具挑战性的数据集,它具有大量无限制的开放词汇表和更多的场景类。一些有代表性的图像如图1所示。
最先进的场景解析框架大多基于全卷积网络(FCN)[26]。基于深度卷积神经网络(CNN)的方法提高了对动态对象的理解,但同时也面临着一定的困难
1
图1所示。在ADE20K数据集中复杂场景的说明。
加长考虑到不同的场景和无限制的词汇。图2的第一排显示了一个例子,其中一艘船被误认为是一辆汽车。这些错误是由于对象的相似外观造成的。但是,当查看图像时,考虑到场景描述为河流附近的船库之前的上下文,应该产生正确的预测。
为了获得准确的场景感知,知识图依赖于场景上下文的先验信息。我们发现目前基于FCN模型的主要问题是缺乏合适的策略来利用全局场景类别线索。对于典型的复杂场景理解,以往为了得到全局的图像级特征,广泛采用了空间金字塔汇聚的[18],其中空间统计为整体场景解释提供了良好的描述符。空间金字塔汇聚网络[12]进一步提高了这一能力。
与这些方法不同的是,为了融合合适的全局特征,我们提出了金字塔场景分析网络(PSPNet)。在传统的扩展FCN[3,40]用于像素预测的基础上,将像素级特征扩展到专门设计的全局金字塔池。局部和全局线索的结合使得最终的预测更加可靠。提出了一种具有深度监督损失的优化策略。我们给出了所有的实现细节,这是我们在本文中良好性能的关键,并使代码和训练过的模型公开可用。
我们的方法在所有可用的数据集上实现了最先进的性能。是ImageNet场景解析挑战赛2016[43]冠军,PASCAL VOC 2012语义分割基准[8]第一名,城市场景Cityscapes数据[6]第一名。由此可见,PSPNet在像素级预测任务中有着很好的发展方向,甚至可以为后续工作中基于cnn的立体匹配、光流、深度估计等提供帮助。我们的主要贡献是三倍的。
bull;我们提出了一种金字塔场景解析网络,将困难的场景上下文特征嵌入到基于FCN的像素预测框架中。
bull;我们开发了一种基于深度监督损失的深度ResNet[13]的有效优化策略。
bull;我们建立了一个实用的系统,用于最先进的场景解析和语义分割,其中包括所有关键的实现细节。
2. 相关工作
下面,我们将回顾场景解析和语义分割任务的最新进展。在强大的深度神经网络的驱动下[17,33,34,13],场景解析和语义分段等像素级预测任务在卷积层[26]代替全连通层分类的启发下取得了很大的进展。为了扩大神经网络的接受范围,[3,40]的方法使用了膨胀卷积。Noh等人提出了一种由粗到细的反褶积网络结构来学习分割掩模。我们的基线网络是FCN和扩张网络[26,3]。
其他工作主要从两个方面进行。其中一行[26,3,5,39,11]具有多尺度的特征集成。由于在深层网络中,更高层次的特征包含更多的语义和更少的位置信息。结合多尺度特征可以提高性能。
另一个方向是基于结构预测。先锋工作[3]使用条件随机场(CRF)作为后处理来细化分割结果。以下方法[25,41,1]通过端到端建模改进网络。这两个方向都改善了场景解析中预测语义边界与对象匹配的定位能力。然而,在复杂的场景中,仍然有很大的空间来开发必要的信息。
为了更好地利用全局图像级先验对不同场景进行理解,[18,27]采用非深度神经网络提取具有传统特征的全局上下文信息的方法。进行了类似的改进
1 https: / /github.com/hszhao/PSPNet
对象检测框架下的[35]。Liu等人[24]证明了使用FCN的全局平均池可以提高语义分割结果。然而,我们的实验表明,这些全局描述符不足以代表具有挑战性的ADE20K数据。因此,与[24]中的全局池不同,我们通过金字塔场景解析网络,通过不同区域的上下文聚合来利用全局上下文信息的能力。
3.金字塔场景分析网络
我们首先观察和分析了将FCN方法应用于场景解析时的典型故障案例。他们激发了我们的金字塔池模块的提议,作为有效的全球上下文优先。然后描述了图3所示的金字塔式场景解析网络(PSPNet),以提高复杂场景解析中开放词汇表对象和事物识别的性能。
3.1。重要的观察
新的ADE20K数据集[43]包含150个物品/对象类别标签(例如,墙壁、天空和树)和1,038个图像级场景描述符(例如,机场航站楼、卧室和街道)。于是就产生了大量的标签和大量的场景分布。通过对[43]中提供的FCN基线预测结果的检验,我们总结了复杂场景解析的几个常见问题。
上下文关系的不匹配是普遍存在的,对复杂场景的理解尤为重要。存在共同步的视觉模式。例如,飞机可能在跑道上或在天空中飞行,而不是在道路上。对于图2中的第一行示例,FCN根据外观将黄色框中的船预测为“car”。但常识是,汽车很少在河上行驶。缺乏收集上下文信息的能力增加了错误分类的机会。
在ADE20K dataset[43]中,有许多类标签对在分类上令人困惑。例子是场和地;山和山;墙,房子,建筑和摩天大楼。他们外表相似。对整个数据集进行标记的专家注释器仍然会产生如[43]中所述的17.60%的像素错误。在图2的第二行,FCN预测盒子里的物体是摩天大楼的一部分,也是建筑的一部分。这些结果应该排除,使整个对象要么是摩天大楼或建筑,但不是两者都是。这个问题可以利用类别之间的关系加以补救。
不显眼的类场景包含任意大小的对象/东西。一些小型的东西,如街灯和招牌,很难找到,但他们可能是非常重要的。相反,大的物体或东西可能会超过
图2。我们在ADE20K[43]数据集上观察到的场景解析问题。第一行显示了不匹配关系的问题——汽车很少比船在水上行驶。第二行显示了混淆类别,类别“building”很容易与“摩天大楼”混淆。第三行说明了不显眼的类。在这个例子中,枕头在颜色和质地上与床单非常相似。这些不显眼的物体很容易被FCN误分类。
FCN的接收域,从而引起不连续的预测。如图2第三行所示,枕头与被单外观相似。忽略全局场景类别可能无法解析枕头。为了提高对非常小或非常大的对象的性能,应该注意包含不显著类别的东西的不同子区域。
总结这些观察,许多错误部分或完全与不同接受域的上下文关系和全局信息有关。因此,具有合适全局场景级先验的深度网络可以大大提高场景解析的性能。
3.2。金字塔池模块
通过以上分析,在接下来的工作中,我们引入了金字塔池模块,该模块被经验证明是一个有效的全局上下文先验。
在深度神经网络中,接受域的大小可以粗略地表示我们使用了多少上下文信息。虽然理论上ResNet[13]的接收域已经大于输入图像,但Zhou等人的[42]研究表明,CNN的经验接收域要比理论接收域小得多,尤其是在高层。这使得许多网络没有充分整合
重要的全球景观。我们通过提出有效的全球优先代表性来解决这个问题。
全局平均池作为全局上下文先验是一种很好的基线模型,在图像分类任务中常用[34,13]。在[24]中,它成功地应用于语义分割。但是对于ADE20K[43]中的复杂场景图像,这种策略不足以覆盖必要的信息。这些场景图像中的像素是关于许多东西和对象的注释。将它们直接融合成一个向量,可能会失去空间关系,造成歧义。全球上下文信息和次区域上下文有助于在这方面区分各种类别。一个更强大的表示方法是将来自不同子区域的信息与这些接受域融合起来。经典的场景/图像分类文献[18,12]也得出了类似的结论。
在[12]中,金字塔池生成的不同层次的feature map最终被平面化,并拼接成一个完全连通的层进行分类。该全局先验是为了去除CNN图像分类的固定大小约束而设计的。为了进一步减少不同子区域之间的上下文信息丢失,我们提出了一个分层的全局先验,包含不同尺度、不同子区域之间变化的信息。我们
图3。概述我们提出的PSPNet。给定一个输入图像(a),我们首先使用CNN获得功能的地图最后卷积层(b),然后一个金字塔解析模块应用于收获不同次区域表示,其次是upsampling和连接层以形成最终的特征表示,有本地和全局上下文信息(c)。最后,美联储表示成一个卷积层得到最终的逐像素预测(d)。
将其称为深度神经网络最终层特征图上全局场景优先构建的金字塔汇聚模块,如图3 (c)部分所示。
金字塔池模块融合了四种不同金字塔尺度下的特征。用红色突出显示的最粗级别是全局池,用于生成单个bin输出。下面的金字塔级别将feature map分成不同的子区域,并为不同的位置形成池表示。金字塔池模块中不同层次的输出包含不同大小的feature map。为了保持全局特征的权重,我们在每个金字塔级之后使用1times;1卷积层,如果金字塔的级别大小为N,则将上下文表示的维数降低到原来的1/N。然后我们直接对低维特征图进行上采样,通过双线性插值得到与原始特征图相同大小的特征。最后,将不同级别的特性连接起来作为最终的金字塔池全局特性。
注意,金字塔级别的数量和每个级别的大小都可以修改。它们与输入金字塔池层的feature map的大小有关。该结构通过采用不同大小的池内核在几个步骤中抽象出不同的子区域。因此,多级内核应该在表示上保持一个合理的差距。我们的金字塔池模块是一个四层的,箱子大小分别为1times;1,2times;2,3times;3和6times;6。对于max和average之间的池操作类型,我们在第5.2节中进行了大量的实验来显示它们之间的差异。
3.3。网络体系结构
使用金字塔池模块,我们提出了金字塔场景解析网络(PSPNet),如图3所示。对于图3(a)中的输入图像,我们使用一个预训练的带有扩张网络策略的ResNet[13]模型[3,40]来提取特征图。最终的feature map大小为输入图像的1/8,如图3(b)所示。在hellip;之上
图4。辅助损失的说明在ResNet101。每个蓝色框表示一个残数块。辅助损耗是在res4b22残块之后添加的。
map,我们使用(c)中所示的金字塔池模块来收集上下文信息。使用我们的4级金字塔,池内核覆盖了图像的整个、一半和一小部分。它们融合为全球先验。然后在(c)的最后一部分将先验与原始feature map连接起来,然后在(d)中进行卷积层生成最终的预测map。
为了解释我们的结构,PSPNet为像素级场景解析提供了一个有效的全局上下文先验。金字塔池模块可以收集层次信息,比全局池[24]更具代表性。在计算成本方面,与原扩容的FCN网络相比,我们的PSPNet并没有增加太多。在端到端学习中,可以同时优化全局金字塔池模块和局部FCN特性。
4. 基于resnet的FCN的深度监控
经过深度预训练的网络可以带来良好的性能[17,33,13]。但是,随着网络深度的增加,对于图像分类可能会带来额外的优化困难,如[32,19]所示。ResNet解决了每个块中跳过连接的问题。深层ResNet的后一层主要是在前一层的基础上学习残基。
相反,我们建议用额外损失的监督产生初始结果,然后用最终损失来学习剩余的结果。因此,将深度网络的优化问题分解为两个问题,每个问题的求解都比较简单。
图4是我们的深度监督ResNet101[13]模型的一个例子。除了主分支使用softmax loss来训练最终分类器外,第四阶段之后还使用了另一个分类器,即,为res4b22残基块。与中继反向传播[32]将后向辅助损耗阻挡在几个浅层不同,我们让这两个损耗函数通过前面所有层。辅助损失有助于优
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[18180],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。