无监督分类建模,识别,以及图像分割外文翻译资料

 2022-11-13 17:16:20

英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料


无监督分类建模,识别,以及图像分割

IEEE成员Sinisa Todorovic和IEEE研究员Narendra Ahuja

摘要:假设一组任意(未标记)的图像包含来自未知类别的2D对象会频繁出现。为了验证这一假设,本文着重解决以下相关问题:1)无监督识别光度,几何和包含2D类别实例的多尺度区域的拓扑属性;2)学习基于区域的结构模型这些属性的类别;3)从新图像中的类别中检测,识别和分割对象。为此,每个图像由捕获多尺度图像分割的树表示。树木相匹配,以提取最大匹配整个集合中的子树,它们被视为目标类别的实例。 然后是提取的子树融合到表示规范类别模型的树联合中。从中检测,识别和分割对象通过使用新图像的分割树找到类别模型的匹配来同时实现学习类别。基准数据集的实验验证证明了学习类别模型的稳健性和高准确性,进一步验证了在没有任何人为监督的情况下,所学习的类别模型具有鲁棒性和较高的准确性。

关键词:对象识别,图像分割树,层次对象表示,无监督学习,图匹配,树结合

1、介绍

假设我们有一组任意的图像,其中包含经常出现的二维对象,这些对象属于一个未知的视觉类别,在这里定义为一组具有相似几何和光度特性并以相似的空间配置出现的子图像。类别中的任何对象是否以及在何处出现在特定图像中尚不清楚。我们感兴趣的是从图像集中提取类别的实例,并获得提取的二维对象的紧凑模型。然后,可以使用这种训练派生的模型来确定一个新的测试映像是否包含来自所学习的类别的对象,并且当它包含的时候,可以对类别的所有实例进行分段。

我们根据包含2D类别实例的图像区域(或片段)的结构定义了一个类别模型。具体来说,我们使用的类别模型捕获了区域的规范属性:1)几何属性,如面积和形状;2)光度属性,如与周围环境的灰度对比度;3)拓扑属性,如分段的布局和递归嵌入。因此,有两个关键的想法是我们的方法的基础。首先,我们使用区域作为特征来派生类别模型,因为它们是丰富的描述符,通常稳定到小照度和视点变化,鲁棒到普通(例如加性)噪声,便于同时检测和分割对象,并且它们自然地捕获对象部分的递归定义。第二,我们充分利用对象的普遍结构特性,特别是空间布局和部分的递归控制。这导致了由有限深递归区域组成的类别实例的表示。深度是有限的,因为区域大小由给定大小的图像中可能出现的对象大小限定,而区域大小由像素大小限定。由此产生的有限大小层次结构模型通过学习类别特定的部分来促进对象作为一个整体的学习,这些部分与整个对象相比表现出更小的类别内变化。

我们的方法包括以下主要步骤:

1.对图像进行分段,以确定所有的均匀强度区域在所有的均匀度存在。

2.匹配训练图像,以识别经常出现的具有相似几何、光度和拓扑性质的子图像。将最大匹配重复出现的子图像解释为某些类别的证据和实例。

3.从这些类别实例中,获得定义类别的区域属性的层次模型。

4.通过描绘每个实例的所有定义区域,使用类别模型在一个新的不可见的图像中检测、识别和分割类别的所有实例。

正如我们在1.1节的文献综述中指出的,大多数以前的工作都需要人工监督,以提供训练图像所包含的对象类别的标签。我们所知,本文首次尝试完全无监督学习一种未知的视觉范畴,经常发生在任意(标记)图像设置。需要人工输入指定一个类别是消除通过定义一个类别的子图象分享相似的几何,光度和拓扑属性组成的区域。正如我们所演示的,这个定义对于处理变量a是足够的。

1.1 前期工作

一般来说,目标识别方法包括四个主要阶段:特征提取,对象表示,训练,识别。

第一个阶段特征提取,指的是使用图像区域,曲线片段,图像过滤响应,或这些作为图像特征的组合。由于我们关注的是通过低级分段获得的区域特征,因此在这里我们将省略使用其他类型特征的工作回顾。长期以来,基于区域的特征提取用于对象表示,如[1]、[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]。区域是更高维度的特征,因此,一般来说,与兴趣点和曲线片段相比,区域是更丰富的描述符、更有鉴别性、更耐噪。相对于点和边缘特性,区域对于相同的问题提供了许多优势。例如,区域边界与对象及其子部分的边界重合,允许同时检测和分割对象。此外,区域使各种各样的约束成为对象识别中经常使用的约束,例如处理邻接性、平滑性、包含性和邻接性的约束,与其他类型的低维特征(例如关键点)相比,这些约束是隐式的,易于合并。

对于第二阶段对象表示,大多数方法将特征提取到集群中,称为“部件”。它们将对象表示为平面或层次图,其节点通常编码这些“部件”的固有外观属性,其边缘捕获“部件”之间的空间关系。例如,[10]、[11]和星座模型[12]的图形结构都是平面图形,用户指定的“部件”数量在预先指定的模型结构中配置。层次模型通常由[18]2、[18]3、[18]4、[18]5、[18]0、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[18]1等特征的层次聚类得到。这种层次聚类可以根据特征子集之间存在的统计依赖关系来执行,也可以简单地根据大型特征集群(例如,大区域)和其组成子集群(例如,嵌入子区域)之间的空间包容关系来执行。这两个集群的基础导致了层次模型中节点之间的优势-后代连接。在某些模型中,节点可以由多个父节点共享(例如[14]、[21]、[22]、[23])。模型结构通常由预先指定的层次深度或分支因子控制,或者通过最小描述长度原则最小化模型复杂性。相比之下,我们的层次模型允许一个先验的未知层次深度和任意数量的节点形成任意的空间配置,所有这些都是从训练图像中学习到的。

我们的目标是从给定的一组2D示例中推导出视觉类别的规范模型,这一目标已经被许多研究人员所追求。早期工作的特点是受限的问题域和利用领域知识的启发式算法(例如,示例图像显示在统一背景上的给定类中只有一个对象,而没有实际问题,例如遮挡、照明和视点变化)。例如,Winston[29]的开创性工作认为,从一个不断发展的模型中添加和减去特征是连续的正范例和负范例,每一个都被设计为精确地向模型添加一个相关特征。在[30]中,从示例中学习了层次对象形状表示,其中将示例的曲率原始草图有监督地分解为子部分,然后用这些子部分对层次模型进行增强,以便将匹配的子部分合并到模型中的单个实例中。另一种自动构建对象形状模型的方法是递归地合并满足一组用户指定的泛化标准[31]的原始曲线元素对。在[32],逐步细化层次分类模型通过匹配一个给定的一组图像的分割树模型,在匹配是自顶向下贪婪的方式完成的,只有树地区之间在同一水平,这样一个坏两个地区之间的匹配惩罚尝试匹配各自的后代。在[33]中,通过将输入图像与用户提供的模板序列匹配来学习给定输入图像中显示的对象的树模型。也有人努力从一组以图形表示的示例中生成一个原型图。例如,在[34]中提出了一种启发式遗传搜索算法,从给定的一组图中学习中值图。在[35]中探讨了基于谱嵌入的图聚类问题。需要注意的是,这些图论方法不能满足多对多节点对应,这在处理具有较大结构变化特征的实际范例时是必需的。这些问题最近已通过若干办法得到解决。例如,在[8]中,通过寻找似是而非的区域分组来学习表示平面区域邻接图的对象形状模型。此外,在[36]中,通过对表示图像块的图形进行多对多匹配和它们的接近关系来学习层次形状模型。我们的方法与以前的工作不同,我们在示例分割树之间执行多对多匹配,并融合匹配,以了解它们的树联合是可视类别的规范模型。正如我们将在本文中演示的那样,这些属性提高了技术的水平,例如,在处理包含部分遮挡、混乱和成像条件常见变化的更具有挑战性的现实图像方面。

关于训练,在第三阶段,不同的方法涉及到不同程度的监督学习上述对象表示。大多数早期工作要求仔细地选择训练图像,以确保它们包含由用户预先选择的感兴趣的对象类的单个事件,其中每个事件都手动地从图像的其余部分分割出来。最近,一些半监督的方法被提出了,如[12],[37],[38],[39],[40],[41],[42],[43]都有介绍。

在这里,学习更广泛的对象类,称为类别,在更有挑战性的图像与杂乱和闭塞是解决的地方,手动分割对象的例子是不需要的。然而,这些方法仍然涉及大量的人工工作,以将训练图像与它们所包含的预先指定的类别进行标记。此外,还需要仔细准备包含“背景”类别的图像。这是因为“background”被视为一个额外的对象类别,尽管它没有以任何内在的方式定义,但作为没有所有预先指定的对象类别。因此,“背景”训练图像的选择成为一个难题,通过用户选择一个与目标对象类别的图像有足够区别的训练数据集来解决。这种监督程度有时会降低,以便通过使用替代约束(例如,指定训练集中用户定义的类别的总数以及它们在每个训练映像中的出现次数作为输入参数[44]、[45])来保持每个训练映像的未标记。相反,我们尝试以完全不受监督的方式学习未知的视觉范畴。缺乏监督这意味着它是不知道,任何对象的类别出现在一个特定的形象从集。因此,一些培训图片可能不包含任何的例子经常发生(目标)的类别,而其他人可能包含多个类别的多个实例。此外,与一些旨在学习判别对象分类函数(例如[38])的方法不同,我们不需要训练集很大。此外,我们不需要将背景本身建模为一个类别,因此,不需要仔细准备背景训练数据集。

最后,在第四阶段,对象识别通常只通过图像分类来评估学习的对象类/类别是否存在[12]、[27]、[38]、[42]、[43]、[44]。还有一些方法试图通过在被检测的对象周围放置一个边界框,或者根据检测到的特征[37]、[40]、[41],通过阈值化概率映射来进行目标定位。这些估计一开始是不精确的(边界框)或不确定的(概率图),而且由于检测到的特征位置和对象定位的阈值都依赖于图像而进一步恶化。为了克服这些问题,一些方法假设在图像[37]中出现的目标对象总数。很少有方法像我们的[45]一样,描绘出图像中出现的学习类别的所有实例的边界,即同时进行对象检测、识别和分割。

2、方法概述

1.根据模型的基本特征,首先从从图像区域的检测开始。图像由分割树[46]、[47]、[48]以分层的方式捕获低层、空间和光度图像结构。上层的节点对应更大、更多的节点突出的部分,而他们的子节点捕获嵌入的,不那么突出的细节(例如,与周围环境形成对比的灰度级别较小的部分)。每个节点都与相应段的几何和光度特性相关联,而树形结构捕获了段的相互包容(拓扑)特性。因此,分割树可以作为图像的丰富描述。

2.给定一组图像包含频繁出现的未知类别,我们希望子图象的一类特定的值属性将丰富的设置。每个这样的子图象将对应于一个或多个分类树中的子树,从而导致频繁出现的具有相似属性的子树。类别子树可以通过树匹配算法检测,该算法搜索具有较大相似度的给定图像树的公共子树。这种相似性度量是根据树的结构以及与树节点相关的几何和光度特性来定义的。结果是一组来自每个图像的子树,这些子树具有跨图像相似度度量,超过了选定的级别。树匹配算法准确地确定匹配子树共享哪些区域属性。这些子树被解释为目标类别的实例,其类别间的可变性取决于选择的相似度度量级别。

3.提取的子树可以表示完整的对象事件或它们的部分。只有当对象部分保持不变时,才会进行提取,而其他部分的区域属性(因此,整个对象的区域属性)会由于(例如)部分遮挡、光照、视点或图像尺度的变化而改变。因此,提取的相似子树提供了对类别中整个对象或其部分的许多观察,从而允许对类别的整个特征区域结构进行鲁棒估计。所有这些子树都可以在一个规范图中进行融合(即部分匹配和注册),我们称之为树并。因此,树并包含所有提取的类别实例,从而表示已学习的类别模型。树并指定如何递归地布局分段区域以组成类别中的对象,以及它们的几何和光度特性是什么。

4.当遇到新图像时,其分割树与类别模型之间的任何匹配都将表示类别的存在,并同时指定识别对象及其组成图像区域的精确边界。我们的方法的框图如图1所示。

图1所示,我们的方法的框图:(a)一组输入图像包含经常出现的汽车类别。集合中的特定图像可能不包含汽车或可能显示多个汽车。此外,汽车可能出现在不同的规模和可能是部分封闭。(b)成对的图像匹配;黑色区域表示子图像的最大匹配。(c)提取的子树代表最大匹配的子图像(b). (d) Tree union表示从提取的相似子树(c)中学习得到的car类模型,模型节点识别的相对重要性用不同灰度表示。(e)在新图像中同时检测、识别和分割目标。

由于这些基本步骤,我们的方法的性能具有理想的不变性特征:

1.平移、平面内旋转和物体清晰度(物体零件相对方向的变化)不改变,

2.子树匹配是基于节点相对于其父节点的属性,而不是绝对值,

3.由于子树被注册并缝合在一起形成了树并,编码了整个(未被遮挡的)类别结构,

4.测试集中的遮挡因为仍然可以匹配对应于可见对象部分的子树与模型,

5.微小的外观变化(例如,噪声),改变的区域可能仍然是与不变的模型区域的最佳匹配,

6.区域形状变形(例如,物体的微小深度旋转)是因为在匹配过程中考虑了区域的几何/拓扑性质的变化(例如,分割/合并)

7.杂波是因为杂波区域是非类别子图像,不重复,因此不频繁。

我们的方法的初步版本在[48]中给出。本文对[48]做了以下主要的扩展:

输入图像由分割树表示,使用多尺度分割算法获得,如[46]、[47]、[49]。分割算法将图像分割成均匀区域,这些区域具有未知的形状、大小、灰度对比度和拓扑上下文。在这里,如果区域内的强度变化小于边界上的强度变化,则认为区域是均匀的,而不管其绝对变化程度如何。因此,图像分割是在一个均匀值范围内进行的,也就是说,强度对比。随着亮度-对比度敏感参数的增加,对比度小于当前参数值的区域严格合并。参数值的扫描结果是提取图像中出现的所有片段。分割树是通过将分割后的区域组织成树结构得到的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[18208],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。