AlphaGAN:用于自然图像抠图的生成对抗网络
Sebastian Lutz; Konstantinos Amplianitis; Aljoscaron;a Smolic
美国;爱尔兰;爱尔兰
计算机视觉与模式识别会议(CVPR)
1 介绍
自然图像抠图被定义为准确估计图像或视频序列中前景对象的不透明度的问题。这是一个受到科学界极大关注的领域,因为它被用于许多图像编辑和电影后期制作应用。随着移动技术的最新进展,专业和普通用户都需要高质量的抠图算法来完成合成任务。形式上,图像抠图算法需要将图像作为输入,该图像预计包含前景对象和图像背景。在数学上,假设图像中的每个像素是前景色和背景色的线性组合,表示为:
其中是一个标量值,它定义了像素处的前景不透明度,被称为alpha值。由于前景和背景RGB值都不知道,这是一个严重不适定的问题,由7个未知值和只有3个已知值组成。通常,会以scribble[31]或trimap[8]的形式提供一些附加信息作为附加信息,以降低问题的难度。这两种额外的输入方法已经粗略地分割了前景、背景和未知不透明度区域的图像。通常,许多方法把它们用作初始化信息,将alpha值从已知图像区域传播到未知区域。
大多数现有的算法旨在以封闭形式求解matting方程(1),并通过采样或基于亲和力的方法将其视为颜色问题去解决。这种仅对颜色信息的过度依赖会导致前景和背景颜色分布重叠的图像出现伪影,这在自然图像处理的案例中经常发生[33]。
如今,其他计算机视觉任务中的大多数最先进算法都依赖于深度卷积神经网络,该网络能够学习图像的结构信息和抽象表示。直到前不久,由于CNN需要大量的训练数据来训练,且这在当时是不可用的,所以自然图像抠图在当时是一项不可能的任务。直到Xu等人[33]发布了一个新的抠图数据集,并表明这个训练集可用于训练CNN进行自然图像抠图,并在alphamatting.com[25]数据集上达到最好的性能。然而,该数据集仅包含431个具有相应alpha真实状况的独特前景对象,并且只有通过使用随机背景合成大量新图像才能达到大数据集的尺寸去训练数据。
我们的方法建立在Xu等人的CNN之上[33],并以多种方式对其进行改进,以在自然图像抠图基准测试中达到最先进的性能[25]。
我们的贡献。我们提出了一种用于自然图像抠图的生成对抗网络(GAN)。我们为了不缩小特征图和丢失空间信息,通过使用空洞卷积(dilated convolutions),来捕获全局上下文信息的策略,改进了Xu等人的网络架构[33],从而更好地处理CNN中固有的空间定位问题。此外,我们改进了网络的解码器结构,并将其用作生成对抗模型中的生成器。鉴别器在已与真实alpha和预测的alpha合成的图像上进行训练,因此学习识别合成良好的图像,这有助于生成器学习alpha预测,从而产生具有视觉吸引力的构图。
2 预备工作
在本节中,我们简要回顾了自然图像抠图的传统方法,以及使用深度学习的最新方法。
2.1 基于局部样本的自然图像抠图
在过去的几年里,已经引入了大量文献来解决自然图像抠图的不适定问题。这些方法是使用用户定义的前景和背景样本的颜色(有时也是位置)来推断图像在未知区域的alpha值。这些现有方法一般遵循采样或传播方法。在基于样本的方法中,在所讨论的未知像素附近的已知前景和背景样本也应该非常“接近”该像素的真实前景和背景颜色,因此应该进一步基于等式1处理以估计相应的alpha值。但是,需要强调的是,“接近”在这种情况下的含义非常模糊,现有的方法以不同的方式处理这个问题。贝叶斯抠图[8]、迭代抠图[31]、共享采样抠图[10],[13]以及稀疏编码[9]等最近的方法是遵循这一假设的一些方法。
基于传播的方法是通过将已知局部前景和背景样本之间的已知alpha值传播到未知像素来工作。泊松抠图[30]、随机游走[12]、测地线抠图[2]、光谱抠图[20]、紧密形式抠图[21]和模糊连接抠图[34]等方法是一些最知名的传播方法朝这个方向推出。流形保留编辑传播算法[6]和信息流抠图[1]是较新的方法。上述方法的详细描述可以在Want等人的调查工作中找到,[32]因为这种分析超出了我们的工作范围。
2.2 自然图像抠图中的深度学习
最近,一些用于自然图像抠图的深度学习方法出现了。具体来说,Xu等人[33]提出了一个两阶段网络,由一个编码器-解码器阶段和一个细化阶段组成。第一阶段将图像和相应的trimap作为输入,并预测未知trimap区域的alpha matte。然后将第一阶段的输出作为输入提供给一个小型卷积神经网络,该网络细化alpha值并锐化边缘。Shen等人[28]提出了一种基于端到端卷积神经网络的人像照片全自动抠图系统。人像图像作为输入与用于自动生成trimap区域的预训练形状掩码一起给出,然后用他们提出的CNN计算trimap区域的alpha值。此外,Cho等人[7]提出了一种端到端的CNN架构,该架构利用从局部(闭式抠图[21])和非局部(KNN抠图[5])抠图算法以及RGB彩色图像推导出的结果并学习映射在输入图像和重建的alpha遮罩之间。Hu等人[16]提出了一种用于前景-背景分离任务的粒度深度学习(GDL)架构。在他们的方法中,他们创建了一个分层神经网络的分层结构,设计为一个粒状系统。
据我们所知,我们的工作是第一种使用生成对抗神经网络进行自然图像抠图的方法。然而,GAN在其他计算机视觉任务中表现出良好的性能,例如图像到图像的转换[18][37]、图像生成[24]或图像编辑[36]。
3 我们的方法
为了解决图像抠图的问题,我们使用了生成对抗网络。该网络的生成器是一个卷积编码器-解码器网络,它在真实状况alpha和鉴别器的对抗性损失的帮助下进行训练。我们将在以下部分更详细地介绍我们的网络。
3.1 训练数据集
深度学习方法需要大量数据才能很好地泛化。Imagenet[26]和MSCOCO[23]等大型数据集在这方面对多项计算机视觉任务提供了巨大帮助。然而,自然图像抠图的问题之一是,与大多数其他任务相比,收集真实数据要困难得多,并且真实数据的质量也需要非常高,因为这些方法需要捕捉alpha中非常细微的差异才能提供良好的结果。值得庆幸的是,最近发布了一个新的抠图数据集[33],其中包含431个独特的前景对象及其相应的alpha。这个数据集终于让训练像我们这样的深度网络成为可能。尽管如此,431张图像不足以单独训练,因此我们通过以下方式增强数据集,类似于Xu等人的方法[33]。在他们的方法中提出:
对于每个前景对象,从MSCOCO获取随机背景图像,这使我们能够从前景、提供的真实状况的alpha和背景图像中合成一个新的独特图像。为了进一步的数据增强,我们将前景和alpha随机旋转度,从均值为0且标准差为5的正态分布中采样。然后我们通过扩大真实alpha来生成一个trimap,其随机核大小为2到20.接下来,我们随机裁剪前景、alpha、trimap和背景图像的矩形部分,以trimap未知区域内的某个像素为中心,大小从320times;320到720times;720随机选择,并重调整其大小到320times;320。这使得网络具有更大的尺度不变性。最后,我们随机翻转裁剪后的图像以获得最终的前景、alpha、trimap和背景图像,作为训练过程的一部分,这些图像将用于合成新图像。
3.2 网络的构架
Xu等人[33]最近表明可以训练编码器-解码器网络使用他们的matting数据集来产生最好的结果。我们以他们的方法为基础在同一数据集上训练了一个深度生成对抗网络。我们的AlphaGAN架构由一个生成器和一个鉴别器组成。将前景、alpha和随机背景作为第4通道附加trimap输入并尝试预测正确的alpha。尝试区分真正的4通道输入和输入,其中前3个通道由前景、背景和预测的alpha合成。该网络的完整目标可以在3.3节中看到。
3.2.1 生成器
我们的生成器由一个编码器-解码器网络组成,结构类似于那些已经在其他计算机视觉任务中取得了良好的效果结构,例如语义分割[4][15]。对于编码器,我们采用Resnet50[14]架构,在Imagenet[26]上预训练并转换第3和第4个Resnet块中的卷积分别以速率2和4,最终输出步幅为8,类似于Chen等人[3]的策略。由于训练输入固定为320times;320的大小,导致最终的特征图大小为40times;40的Resnet的块4的特征图。即使特征图的下采样频率较低,扩张的卷积仍然可以捕获与原始Resnet50相同的全局上下文分类网络,同时尽可能少的丢失空间信息。在Resnet块4之后,我们添加了[3]中的多孔空间金字塔池化(ASPP)模块来重新采样特征并在多个尺度上准确有效地预测任意尺度的区域。然后,我们将ASPP的输出馈送到网络的解码器部分。我们也改变了第一个通过初始化额外的卷积层中的通道为零,来稍微适应我们的4通道输入。
网络的解码器部分保持简单结构,它由几个卷积层组成并略过来自编码器的连接以通过重用本地信息来改进alpha预测值,以捕获图像中的精细结构[18]。首先,编码器的输出被双线性上采样2次,以便特征图具有相同的空间分辨率,因为这些输出来自输出步幅为4的Resnet块1。来自块1的最终特征图被送入1times;1的卷积层以减少维数,然后与来自编码器的上采样特征图连接。接下来是三个3times;3卷积,将维数稳定地减少到64。编码器中最大池化层中保存的池化索引用于将这些特征映射上采样到输出步长为2的编码器,在那里将它们连接起来再次使用来自跟着一些卷积层的编码器的相同分辨率的特征图。最后,特征图使用小步幅卷积再次上采样,与RGB输入图像连接并馈送到最终的一组卷积层。所有这些层之后都是ReLU激活函数和批量归一化层[17],除了最后一个,它之后是sigmoid激活函数,用于在0和1之间缩放生成器的输出,根据alpha预测的需要(见图1)。可以在补充材料中看到详细说明网络中所有层的表格。
图 1:生成器是一个带有跳过连接的编码器-解码器网络。
3.2.2 鉴别器
对于我们网络中的鉴别器,我们使用Isola等人介绍的PatchGAN[18]。该鉴别器试图将输入的每个Ntimes;N块分类为真还是假。鉴别器在输入上卷积运行,对所有响应求平均以计算鉴别器的最终预测。PatchGAN旨在捕获高频结构,并假设像素之间有不能位于同一个Ntimes;N补丁中的独立性。这适合alpha预测的问题,因为仅在alpha预测损失上训练的生成器的结果可能过于平滑,如[33]中所述。鉴别器通过强制生成器输出更清晰的结果来帮助缓解这个问题。为了帮助鉴别器专注于输入的正确区域并指导生成器预测会产生良好组合的alpha,的输入由4个通道组成,前3个通道由新合成图像的RGB值组成,使用真实状况前景、随机背景和预测的alpha,第4个通道是输入Trimap,帮助引导鉴别器关注图像中的显着区域。我们发现,对于我们的网络,足以平衡良好的结果和的少量参数和运行时间。
3.3 网络目标
我们网络的目标是在给定Trimap的情况下预测图像的真实alpha。在他们的论文中,Xu等人[33]引入了两个专门针对alpha抠图问题的损失函数,即alpha预测损失和组合损失。除此之外,我们还使用了对抗性损失[11],其定义为:
其中x是真实输入:由真实状况alpha和前景合成的图像,并附加了trimap。是一个合成函数,它将来自的预测alpha作为输入并使用它来合成一个图像。尝试生成接近真实alpha的alpha,而尝试区分真实和假合成图像。因此,尝试针对鉴别器最小化LGAN,而鉴别器试图最大化它。以上损失相结合,导致我们网络的完整目标:
我们的目标是解决。
4 实验结果
在本节中,我们在两个数据集上评估我们的方法。第一个是著名的alphamatting.com[25]lt;
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[596496],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。