通过推广不具代表的类来实现一次性人脸识别外文翻译资料

 2022-12-16 20:17:49

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


毕业论文外文文献翻译

通过推广不具代表的类来实现一次性人脸识别

Yandong Guo, Lei Zhang

Microsoft

One Microsoft Way, Redmond, Washington, United States

摘要

本文研究了训练数据不平衡的大规模人脸识别模型的问题。这一问题自然存在于许多现实场景中,包括大规模的名人识别、电影演员注释等。我们的解决方案包含两个组件。首先,我们建立了一个人脸特征提取模型,并通过引入一个交叉熵损失正则化器进行多元逻辑回归(MLR)学习,提高了模型的性能,特别是对于训练样本非常有限的人。在逻辑回归中,该正则化器鼓励同一类人脸特征的方向与对应分类权重向量的方向接近。其次,在学习的人脸特征提取模型的基础上,利用MLR建立了一个多分类器。由于标准MLR对一次性类的泛化能力较差,即使本文提出了一种新的监督信号,即低表达类促进损失,该信号对权重向量的范数进行了对齐一次性的课程(也就是低表达的课程)给那些常规的种类。除了原有的交叉熵损失外,这个新的损失项有效地促进了学习模型中未被充分表示的类,使得人脸识别性能有了显著的提高。

我们在MS-Celeb-1M低镜头学习基准任务上测试我们的解决方案。我们的解决方案可以识别94.89%的测试图像,对于一次性类的准确率为99%。据我们所知,这是所有使用相同设置的基准测试任务的已发布方法中性能最好的,包括最近ICCV 2017年MS-Celeb-1M挑战的所有参与者。

  1. 介绍

近年来人脸识别技术的巨大进步,使得大规模人脸识别在许多实际应用中成为可能。本文研究了利用不平衡训练图像对大量人脸进行大规模识别的问题,并利用该模型对同一组人的其他人脸图像进行识别。当要识别的人的图像事先就有了,并且需要一个精确的识别器来识别大量相对固定的人时,这种设置就被广泛使用。例如,搜索引擎对名人的大规模认可,媒体行业对公众人物的认可,视频流媒体公司对电影人物的诠释。

构建大规模的人脸识别器并非易事。其中一个主要的挑战是训练数据的高度不平衡。当有许多人需要被识别时,很自然地,对于一些需要被识别的人来说,训练样本的数量可能非常有限,甚至每个人只有一个样本。除了这个独特的挑战,还有其他的挑战,因为不同的人可能有非常相似的面孔,而且由于光照、姿势和年龄的差异,来自同一个人的面孔可能看起来非常不同。为了研究这个问题,我们设计了一个基准任务,并提出了一个强基线解决方案。我们的基准任务是训练一个人脸识别器来识别21,000人。对于其中的2万人,我们提供每人50-100张训练图像,并按照[8]中定义的术语调用这个组基集。对于其他1000人,我们每人只提供一个训练图像,并称之为低镜头组。任务是研究如何利用这些训练图像,开发一种算法来识别这两个数据集中的人。特别的,我们主要关注的是低镜头组的人的识别精度,因为它显示了视觉系统的单镜头学习能力,同时我们也检查了低镜头组的人的识别精度,以确保不影响他们的表现。我们发表了这些数据集是为了促进这方面的研究。

我们对这个基准测试任务的解决方案是训练一个好的人脸表示模型,并在此基础上构建一个分类器。特征学习的目的是训练一种不仅对基集具有良好识别能力的人脸表示模型,而且对低镜头集也具有良好的识别能力。换句话说,由于低照度集合中每个人只有一个训练图像,我们需要构建具有良好泛化能力的人脸特征提取器。在这方面已经做了很多努力,但是我们的方法在以下两个方面是不同的。首先是数据。我们用基本集训练我们的人脸特征提取器,其中包括大约100万张具有高注释精度的图像。这是一个最大的公共可用数据集[11,10,25,32,6,21],这使得我们的模型可重现性和意义。二是成本函数设计。除了标准的交叉熵损失和Softmax用于多项逻辑回归(MLR)学习外,我们还提出了另一个损失项,它鼓励相同类的特征在逻辑回归中与对应的权向量方向相似。由于权向量经过训练,其方向与对应类特征的方向接近,且远离其他特征的方向类,我们提出的术语有效地同时最小化类内方差和类间方差。我们将我们的人脸表征模型与其最相似的替代方法进行了比较,并在第2.2、4.1和5.1小节中展示了我们的方法的优点。

我们的解决方案的第二阶段是在第一阶段学习的人脸特征提取器的基础上学习一个分类器。虽然K-nearest neighborhood (KNN)或其他基于模板的方法可能是最直接的解决方案,但是由于标准KNN方法在准确性和可扩展性方面存在局限性,不适合我们的设置[27,28,30]。更多的讨论见第2.3节。在我们的解决方案中,我们选择使用MLR,因为它在各种视觉识别问题上的出色性能得到了证明。

使用MLR作为分类器的主要挑战在于训练数据的高度不平衡。在我们的实验中,我们观察到MLR在基本集合中对人的识别能力几乎是完美的,但是对于低镜头集合,即使训练图像被过度采样,MLR的识别能力仍然很差。第4节的进一步分析表明,只有一个训练样本的low-shot类只能在特征空间中声明小的划分。此外,我们还揭示了特征空间中类划分的体积与MLR模型中该类权向量的范数之间存在着密切的联系。在此基础上,我们提出在原多元线性回归的交叉熵损失的基础上增加一个新的损失项,作为多元线性回归加权向量的先验。这个新的损失项是基于我们的经验假设和观察,平均而言,与基本集合中的人相比,低镜头集合中的每个人应该占据特征空间中体积相似的空间。我们称这个术语为“未被充分表现的类别提升”(UP)损失。为了进行比较,我们还探索了权重向量先验的其他不同选项。

为了定量评价人脸识别的性能,我们采用了近域人脸识别设置,并将测试图像混合在基本集(10万幅图像,5幅图像/人)和低镜头集(2万幅图像,20幅图像/人)中使用分类器。实验结果表明了该方法的有效性。与我们的特征提取模型和词,我们可以识别94.89%的测试图像低射破门设置精度高99%,保持排名前99.8%的基类的准确性,而不使用我们的方法,只有25.65%的测试图像的低射破门设置可以识别相同的精度。总之,我们的贡献可以突出如下。

· 我们建立了人脸识别的基准测试任务,并提供了由基集和低镜头集组成的相关数据集。

· 提出了一种新的代价函数,有效地学习具有良好泛化能力的特征提取器。

· 揭示了多元逻辑回归(MLR)在单次学习中的不足之处与MLR中权重向量的范数有关,并提出了一种新的损失项——低表示类提升(UP),有效地解决了单次学习中的数据不平衡问题。

· 我们的解决方案可以识别94.89%的测试图像,对于低镜头类的准确率为99%。据我们所知,这是使用相同设置的基准测试任务的所有已发布方法中性能最好的。

  1. 相关工作

2.1.基准测试任务

目前,我们观察到人脸识别的主要关注点一直是学习一种好的人脸特征提取器。通常,在这种设置中,人脸特征提取器使用针对一组人的图像进行训练,然后在验证或识别任务中使用针对另一组人的图像进行测试。例如,使用LFW数据集[11]的验证任务实际上是评估人脸特征的标准测试,尽管该数据集上的性能正在趋于饱和。此外,许多人脸识别任务(例如,带有识别设置的MegaFace[12]或LFW[11])本质上是为了评估人脸特征,因为识别是通过比较查询图像和图库图像之间的人脸特征来实现的。上述设置的主要优点是可以清晰地评估人脸表示模型的泛化能力,因为训练阶段的人员通常与测试阶段的人员不同。当目标人员的图像在培训阶段无法获得时,这是非常重要的。不幸的是,我们观察到上述设置的最佳性能通常是通过使用非常大的私有数据集获得的,这使得不可能重现这些工作,例如[18]。此外,虽然获得一个好的特征提取器对于人脸识别是必不可少的,也是至关重要的,但是好的特征提取器并不是识别的最终解决方案。我们的基准测试任务有一个不同的设置。我们用不平衡的训练图像训练人脸识别模型来识别被识别的人。当目标人员的图像提前可用时,这种设置非常有用,因为与使用其他人员的图像进行训练相比,使用目标人员的图像进行训练通常可以获得更好的性能(假设图像总量相同)。正如在介绍部分中所讨论的,使用这种设置还有许多实际的场景。此外,由于我们的任务中包含了低概率类(只有一个训练样本的人),所以也可以评估泛化能力。最后但并非最不重要的是,我们提供了培训和测试数据集,所以人们可以方便地复制和比较他们的算法在这个方向。

2.1.1用于一般视觉识别的低镜头学习

在一般的图像识别领域,最近的低镜头学习工作[8]也引起了广泛的关注。他们的基准测试任务与我们的非常相似,但是是在一般的图像识别领域:作者将ImageNet数据[16]分为基类和低镜头类(在[8]中称为新奇类),目标是从基类和低镜头类中识别图像。它们的解和我们的解很不一样,因为定义域很不一样。由于空间的限制,我们在这里不回顾他们的解决方案,而是将他们的解决方案的结果作为实验5中的比较之一列出。

2.2.区别的功能学习

交叉熵与Softmax在人脸特征提取模型训练的监控方面表现出良好的性能。为了进一步提高性能的表征学习,人们提出了很多方法来添加额外损失条款或稍微修改交叉熵损失(连同softmax用于多项逻辑回归学习)规范表示学习为了提高特征歧视和泛化能力。

在所有这些工作中,我们认为中心损失[24]是代表性的方法之一(与此同时[15]也发表了类似的观点)。在[24]中,同一类的人脸特征被鼓励接近它们对应的类中心(实际上,类中心的近似值,通常动态更新)。将该损失项加入到标准Softmax中,得到了较好的人脸特征表示模型[24]。

其他方法还有很多,包括[33]的距离损失、[7]的fisher面、[29]的中心不变损失、[4]的边缘损失、[13]的球面损失等。在一定的设置条件下,每种方法都有其独特之处和优点。

为了提高特征提取的性能,我们设计了一种不同的损失项来增加软最大值的交叉熵损失。在第4节和第5节中,我们从理论讨论和实验验证的角度证明了我们的方法在我们的设置中比[24]中的中心损失或[13]中的球面损失(这两个是最相似的)具有更好的性能。我们的方法只有一个参数,非常容易使用。由于实际原因,我们没有利用我们的训练数据集再现所有这些成本函数设计方法[33,7,29,4]。我们的方法只有一个参数,非常容易使用。由于实际原因,我们没有利用我们的训练数据集再现所有这些成本函数设计方法[33,7,29,4]。这些方法在不同的网络结构下实现,并针对不同的数据集进行训练。在切换训练数据时,有时需要进行参数调整。我们将在未来评估更多的方法。

2.3.KNN与SOFTMax

在获得了较好的人脸特征提取器后,基于模板的k近邻(KNN)方法在人脸识别中得到了广泛的应用。KNN的优势是显而易见的:不需要进行分类器训练,而且KNN不会受到不平衡数据的影响等。然而,本文[28,31,27,30]和第5节的实验表明,当使用相同的特征提取器时,采用大规模人脸识别设置的KNN的精度通常低于MLR。此外,如果我们对图库中的每个人都使用所有的人脸图像,那么对于大规模识别来说,复杂性通常太高,图库数据集需要非常干净才能保证高精度。如果我们不保留每个人的所有图像,那么如何为每个类构造代表器仍然是一个悬而未决的问题。

如上所述,与以前的许多出版物相比,MLR的总体精度更高。这主要是因为在MLR中,使用所有类的判别信息估计每个类的权重向量,而在KNN设置中,查询图像只需要足够接近一个本地类即可识别。此外,在特征提取后,利用MLR估计人的身份的计算复杂度与人的数量成线性关系,而不是与图库中的图像数量成线性关系。

然而,标准的MLR分类器存在训练数据不平衡的问题,即使在训练过程中对低命中率的类进行过采样,分类器的性能也较差,但总体精度高于KNN。近年来,一些研究将MLR与KNN相结合,开发了混合解决方案[28,30],取得了良好的效果。在这些工作中,当MLR没有高置信度(需要阈值调优)时,使用KNN。

我们从不同的角度来解决这个问题。与混合解不同,我们的解只有一个MLR作为分类器,因此不需要在分类器之间切换阈值。通过对加权向量的范数进行正则化,提高了最小二乘的性能。我们在这方面还没有看到很多努力,尤其是在深度学习场景中。

  1. 基准数据集

今年早些时候,我们已经为我们的任务准备并发布了相关数据集,并吸引了超过100次下载。为了方便大家,我们在这里澄清数据集的关键点。

训练

总共有21000人。其中2万人,每人50-100张训练图像(基本集)。其余1000人,每人一张训练图像(低镜头)。

测试

我们用同样的21K个人来测试人脸识别。需要识别的图像有12万张(从基础集到100K,从低景深集到20K)。被测试的模型将无法知道测试图像是来自基集还是低镜头集,这与真实场景很接近,但是为了更好地理解系统,将分别基于基集和低镜头对性能进行评估。

比较

虽然本文的基本集比大多数公共人脸数据集都要大得多,但是比MS-Celeb-1M[5](实际上是MS-Celeb-1M的子集)要小。底座与MS-Celeb-1M的焦点不同。MS-Celeb-1M的目标是在100万名人列

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20300],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。