英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
题 目 DHSNet:深层次显著性网络的显著对象检测
刘念,韩君威
自动化学院,西北工业大学西安
摘要
传统显着对象检测模型通常使用手工制作的特征来制定对比度和各种先验知识,然后人工组合它们。在这项工作中,我们提出了一种基于卷积神经网络的新型端到端深层次显着网络(DHSNet),用于检测显着对象。DHSNet首先通过自动学习各种全局结构显着性线(包括全局对比度,对象性,紧凑性及其最佳组合)来进行粗略的全局预测。然后采用一种新颖的分层递归卷积神经网络(HRCNN),通过整合局部上下文信息,逐步分层地逐步细化显着性图的细节。整个架构以全局到局部和粗到精的方式工作。使用整个图像和相应的地面实况显着性掩模直接训练DHSNet。在测试时,可以通过网络直接有效地前馈测试图像来生成显着图,而无需依赖任何其他技术。对四个基准数据集的评估以及与其他11个最先进算法的比较表明,DHSNet不仅在性能方面显示出其显着的优势 而且在现代GPU上实现了23FPS的实时速度。
- 引言
显著物体检测旨在准确且均匀地检测在图像中吸引人类注意力的物体。近年来,研究人员开发了许多用于显著物体检测的计算模型,并将其应用于许多其他应用,如图像摘要[1],分割[2],检索[3]和编辑[4]。
传统的显著性探测方法依赖多种显著性线索。最广泛探索的是对比度,其目的在于评估每个图像区域或者图像像素相对于局部环境或全局环境的独特性。基于局部对比度的方法[5,6]通常倾向于突出对象边界,同时经常错过对象内部。相反,基于全局对比度的方法[7,8]能够均匀的突出对象内部。这种方法更好,但是仍然不能令人满意。一方面,他们通常无法保留对象细节。另一方面,他们通常难以检测具有大尺寸和复杂纹理的显著物体,尤其当图像的背景也混乱或具有与前景物体相似的外观时(参见图一(b)栏中的情况)。此外,传统的方法通常通过手工制作的特征(例如强度,颜色和边缘方向[5])以及人类设计机制基于有限的人类关于视觉注意方面的知识(例如”高斯差异”(DoG)算子[5])来模拟对比度。因此它们可能在不同情况下不能很好的概况。
最近一些作品还利用各种先验知识作为提供信息的显著性线索。背景先验[9-11]假设图像边界附近的区域可能是背景。然而,当突出物体接触图像边界或具有相似背景外观时,它经常失败(参见图一中(c)栏)。先前的紧凑性[12]提倡显著的对象区域是紧凑的和感知上均匀的元素。对象性[13,14]倾向于突出显示可能包含某一类对象的图像区域。虽然这些先验可以进一步提供有关显著物体检测的信息,但它们通常通过手工设计的配方进行经验探索和建模。
在一些作品中还结合了各种显著性线索以结合其互补的互动。 然而,这些工作通常采用简单的组合方案(例如,简单算术)或浅层学习模型(例如[15]中使用的CRF),这些方法难以挖掘不同显著性线索之间复杂的联合交互。 此外,为了保留对象细节和细微结构,许多传统方法采用图像的过分割(例如,[9-11,16-19]中使用的超像素和[14]中使用的对象建议)作为基本计算单元。 预测显著性或作为平滑显著性图的后处理方法。 虽然这些方法可以进一步提高显著性检测结果,但它们通常非常耗时,成为显著对象检测算法的计算效率的瓶颈。
通过上面的讨论,我们可以看到,如何构建真正有意义的特征表示,如何同时探索所有潜在的显着性线索,如何找到最优的集成策略,以及如何有效地保存对象细节成为进一步推广显著对象探测方法的最内在问题。
为了解决这些问题,我们通过卷积神经网络(CNN)提出了一种新颖的端到端深层次显着性检测框架,即DHSNet [20]。 DHSNet直接将整个图像作为输入和输出显着图,从全局视图到本地上下文(从粗尺度到精细尺度)分层检测显着对象(参见图2)。详细地说,我们首先在全局视图(GV-CNN)上采用CNN来生成粗略的全局显着图(G Sm)以粗略地检测和定位突出物。在全局结构性损失的监督下,GV-CNN可以自动学习特征表示和各种全局结构显着性线索,例如全局对比度,对象性,紧凑性以及它们的最佳组合。因此,GV-CNN可以获得最佳的全局显着物体检测结果,对复杂的前景物体和杂乱的背景具有鲁棒性,即使它们在外观上非常相似(参见图1中的(d)栏)。
生成的G Sm比输入图像粗糙得多,因为在GV-CNN中逐渐丢弃诸如精确对象边界和细微结构之类的一些详细信息。为了解决这个问题,我们进一步提出采用一种新颖的分层递归卷积神经网络(HRCNN),通过结合局部上下文来细化显着性图。 HRCNN由几个递归卷积层(RCL)[21]和上采样层组成(见图2)。 RCL将循环连接合并到每个卷积层中,从而增强了模型集成上下文信息的能力,这对于显着性检测模型非常重要。在HRCNN中,我们按层次和连续的几个步骤细化显着性图。在每个步骤中,我们采用RCL通过整合在最后一步预测的上采样粗显着图和来自GV-CNN的更精细特征图来生成更精细的显着图。每一步中的RCL都会提升前一步的细节,并为下一步提供良好的初始化。随着中间显着图的比例变得越来越精细,组合特征图的感知域变得越来越小,图像细节可以逐步呈现,而不依赖于图像过度分割(参见图一列中的最终结果(e))。
本文的贡献可归纳为如下:
(1)我们提出了一种新颖的端到端显着性检测模型,即DHSNet,用于检测显着对象。 DHSNet可以同时学习强大的特征表示,信息显著性提示(例如全局对比度,对象性和紧凑性),以及来自全局视图的最佳组合机制,以及随后学习进一步细化显着性图详细信息。
(2)我们提出了一种新颖的分层细化模型,即HRCNN,它可以通过整合局部上下文信息而不使用过分割方法,分层地和逐步地细化显着性图以恢复图像细节。所提出的HRCNN可以显着且有效地提高显着性检测性能。此外,它还可以用于其他像素到像素的任务,如场景标记[22],语义分割[23],深度估计[24]等。
(3)四个基准数据集的实验结果以及与其他11个最先进方法的比较表明DHSNet对显着对象检测问题的巨大优势,特别是在复杂数据集上。此外,DHSNet在现代GPU上的速度非常快,实现了23 FPS的实时速度。
图1 通过不同方法比较结果。 对于(a)中的图像,我们显示了(b)中基于全局对比度的方法的显着对象检测结果,(c)中的基于背景先验的方法,(d)中的GV-CNN的结果,最终细化 (e)中DHSNet的结果和(f)中的基本事实。
- 相关工作
2.1卷积神经网络
最近,卷积神经网络已经实现在许多计算机视觉任务的巨大成功,包括图像分类[25,26],目标检测和定位[27,28],人脸识别[29]等。卷积神经网络也成功应用于许多像素预测任务[22-24]这里简明地回顾几个与本文相关的工作
许多作品采用多种深层体系结构来保留像素化任务中的细节。对于深度图预测,Eigen等。 [24]首先训练卷积神经网络基于整个图像进行粗略的全局预测,然后使用另一个卷积神经网络在本地改进该预测。对于语义分割,[30]利用反卷积层和上池化层逐步扩大特征映射的分辨率,以预测精细的语义分割结果。类似地,[31]利用了几个“上卷积”层,它们由去卷积层和上池化层组成,以逐层细化光流预测。这两部作品分享了类似的想法,即用我们的模型逐步细化特征图或从粗到细的预测结果。然而,在他们的模型中采用的上池化层有选择地将信息从较粗层传递到更精细的层,但限制了传输的信息。此外,他们沉重的解码器架构引入了许多参数来学习并使他们的网络难以训练。最后,我们在每个细化步骤中嵌入了RCL [21],从而增强了模型将上下文信息与有限参数集成的能力。
图2 拟议的DHSNet方法的体系结构。 给出了每个图像或特征图的空间大小。 在VGG网中,示出了在HRCNN中使用其特征的层的名称。 还显示了每个逐步显着图的名称。
2.2 卷积神经网络对于显著性探测的研究
一些研究人员已经将深度神经网络应用于显著性检测,其中包括两个分支,即眼睛固定预测[32,33]和显着对象检测[34-36]。在这里,我们简要回顾一下与我们的工作相关的后者的工作。
对于显著物体检测,Wang等人。 [35]首先使用卷积神经网络来预测局部环境中每个像素的显着性得分,然后他们在全局视图中细化每个对象提议的显着性得分。 Li和Yu [34]通过使用多尺度卷积神经网络特征预测了每个超像素的显着性得分。同样,赵等人。 [36]通过在多上下文CNN中同时结合本地上下文和全局上下文来预测每个超像素的显着性得分。这三种方法都比传统方法取得了更好的效果。但是,他们都没有优先考虑全球背景。此外,他们分别处理局部区域(超像素和对象建议),因此没有利用不同空间位置的区域的相关性。这两个弱点使他们的网络难以学习足够的全球结构,因此他们的结果往往被杂乱背景中的局部显着模式分散注意力,并且无法均匀地突出显著的物体。相反,DHSNet采用整个图像作为计算单元,并将层次和逐步地将全局上下文信息传播到局部上下文,能够感知全局属性并从一开始就避免局部干扰的干扰。最后,所有这三种方法都依赖于图像过度分割,使得它们的算法非常耗时。由于DHSNet只需要通过网络前馈每个测试图像,因此速度更快
- DHSNet对感兴趣区域提取
如图2所示,DHSNet由GV-CNN和HRCNN组成。 GV-CNN首先在全局视角中粗略地检测显著对象,然后HRCNN分层逐步地细化显著图的细节。DHSNet端到端培训,在测试时,我们只是通过网络前馈输入图像,而不使用任何后处理和图像分割方法,从而使DHSNet不仅有效,而且高效。
3.1 用于粗略全局预测的GV-CNN
如图2所示,GV-CNN由VGG网[25]的13个卷积层,随后的完全连接层和重塑层组成。对于包裹为224times;224大小的输入图像,首先采用VGG 16层网络的13个卷积层来提取深度特征。然后,在最后一个卷积层之上(即第五组卷积层中的第三个子层,表示Conv5_3 .VGG网中的其他卷积层也可以用这个类比表示。),大小为14times;14times;512,部署具有sigmoid激活功能的完全连接层和784个节点。最后,将该层重新整形为28times;28的大小,作为粗略全局显着图G Sm。由全局结构化损失监督,即G Sm与地面实况显着性掩模之间的平均像素方式交叉熵损失,完全连接层通过集成各种各样的方法学习从前面的特征图中检测和定位输入图像的显着对象。显着性提示。正如[37]所指出的那样,回旋特征可以比它们的感受域大小更精细地定位。因此,即使层Conv5_3的尺寸小(14times;14),GV-CNN也可以生成相对大的显着图(28times;28)。第4.5节中的实验显示了GV-CNN的有效性及其学到的显着性线索。
3.2 HRCNN用于多层显著图优化
为了进一步详细地改进G Sm,我们提出了一种新颖的架构,即HRCNN,以分层地和渐进地渲染图像细节。
Figure 3细化步骤的详细框架。 RCL与蓝色虚线框中的时间步长一起展开
循环卷积层。HRCNN的核心是[21]提出的RCL。RCL将循环连接合并到每个卷积层中。 对于位于RCL中第k个特征图上(i,j)的单位,它在t时刻的状态由下式给出:
其中f是ReLU [26]激活函数,g是局部响应归一化(LRN)函数[26],以防止状态从下式暴露:
其中缩写为,K是特征映射的总数,N是参与归一化的局部邻域特征映射的大小,alpha;和beta;是调整归一化的常数。
在等式(1)中,是单元的输入,它包含前馈连接和循环连接:
其中和分别是来自前一层的前馈输入和来自当前层的时间步骤t-1的循环输入。和分别是前馈权重和重复权重。是偏见。
具有T个时间步长的RCL可以展开到深度为T 1的前馈子网。我们按照[21]设置T = 3并在图3中的蓝色虚线框中显示展开的RCL。我们可以看到多个循环连接使子网具有从输入层到输出层的多条路径,这有利于学习。此外当时间步长增加时,RCL单元的有效感受域扩展,使得单元能够“看到”更大和更大的上下文而不增加网络参数的数量。因此,RCL可以帮助在HRCNN中有效地结合本地上下文以改进显着性映射。 第4.5节中的实验证明了RCL优于传统卷积层的优越性。
如图3所示,我们在每个RCL中使用64个特征映射来节省计算成本并遵循[21]图3:细化步骤的详细框架。RCL与蓝色虚线框中的时间步长一起展开。使用尺寸为3times;3的前馈和循环过滤器。公式(2)中LRN的超参数设定为alpha;= 0.001,beta;= 0.75和N = 7.与[21]不同,我们不采用RCL中的[21]。
分层显着性地图细化。如图2所示,我们首先将G Sm与VGG网络的层Conv4_3相结合,并采用RCL生成更精细的显着图(因为该显着性图是通过对Conv4_3中的局部特征采用RCL获得的,我们将其表示为 RCL4 Sm和随后进一步细化的显着性图以相同的方式表示。由于RCL4 Sm的尺寸较小(28times;28)与Conv3_3(56times;56)相比,我们首先将RCL4 Sm上采样到其大小的两倍,然后我们将上采样的RCL4 Sm与层Conv3_3组合以生成RCL3 Sm。通过做同样的事情,我们将上采样的RCL3 Sm与层Conv2_2组合以生成RCL2 Sm,并将上采样的RCL2 Sm与层Conv1_2组合以生成RCL1 Sm,这是最终的显着图。
在图3中,我们示出了细化步骤的详细框架,即将粗略显着图与来自VGG网的卷积层组合以生成更精细的显着图。 我们首先使用具有64个1times;1卷积核和sigmoid激活函数的卷积层来压缩VGG层的特征。 原因有两个。首先我们减少VGG层的特征映射的数量以节省计算成本。 其次通过使用sigmoid激活函数,我们将神经元激活值的范围压缩为[0,1],这与组合显着图相同。如果不这样做,组
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19582],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。