人脸识别:过去、现在和未来(综述)外文翻译资料

 2023-04-13 10:32:04

英语原文共 28 页,剩余内容已隐藏,支付完成后下载完整资料


1.介绍

在新一代技术中,人为因素的增加引起了对生物识别系统的需求,以用于人员识别和验证系统。有使用静态生理特征(如指纹、虹膜和掌纹)的生物识别系统,也有使用行为特征(如签名、步态、行走模式、语音模式和面部动态)的系统,其中一些也被称为软生物识别。

人脸已成为主要的生物特征之一,在安全执法、卫生、教育、营销、金融、娱乐、人机交互等领域有着广泛的应用。在表1中,列出了主要应用领域和与这些领域相关的具体应用。

人脸携带有关身份、年龄、性别、种族,面部表情反映情绪和精神状态。人类面部和面部行为的分析是一个涉及心理学、神经科学、工程学等多学科交叉的研究领域。

与其他几种生物特征相比,人脸识别不一定需要人的合作,可以以一种不引人注目的方式进行,这使得它特别适合于监控应用。此外,人脸识别可以同时基于人脸的物理(静态)特征和动态特征,使其适合于行为生物特征识别。

由于头部姿态、光照、年龄和面部表情的变化,在无约束环境下的人脸识别问题是一个具有挑战性的问题。由于化妆、面部毛发或配饰(如眼镜、围巾),外观也可能发生变化。人脸识别的另一个困难是个体之间的相似性(例如亲属、双胞胎)。

人类几乎毫不费力地完成了对人脸的感知,但对计算机来说却不是一项非常容易的任务。人类的视觉系统适应复杂的神经通路,用来处理人脸的静态和动态特征,以识别与上下文知识相关的人脸。在心理学和神经科学中有许多关于解决面孔感知的不同问题的研究。例如,虽然特征可能占主导地位,但是整体和基于特征的表示方法都被使用。Bruce和Young提出的假设是,有几个独立的子过程共同作用于面部感知。根据这一假设,各种特征,如年龄,性别和基本的面部表情,从简单的物理特征作为独立过程的结果,并使用这些性质使建立个人的面部模型成为可能结构。通过使用这种个人面部模型结构,即使在不同条件下的面部感知也是由大脑提供的。也有研究试图了解哪些特征(眼睛、嘴巴、鼻子等)在识别人脸时更重要。在[140]中,从顶部发出的灯光对识别人脸很重要。也有研究表明,即使熟悉的面孔在否定、反转或阈值等具有挑战性的条件下,它们能在运动中出现,也更容易被识别。

1.1.简史和以前的调查

人脸识别的历史可以追溯到20世纪50年代和60年代,但自动人脸识别的研究被认为是在70年代开始的。在早期的作品中,基于面部重要区域之间距离的特征被使用。自20世纪90年代初以来,随着硬件的发展和安全应用的日益重要,人脸识别的研究蓬勃发展。

自20世纪90年代初以来,基于图像的人脸识别技术的进展被Wang和Deng大致划分为四个主要的概念发展阶段,这不是一个完整的分类,但反映了主要方法的历史发展:i)整体或基于外观的方法将人脸区域作为一个整体,并使用线性或非线性方法将人脸映射到一个较低维的子空间。Turk和Pentland开发了第一个成功的方法,称为特征脸法。还有其他方法使用线性子空间、流形学习和稀疏表示。ii)基于局部特征的人脸识别方法在2000年代后变得流行,它们使用手工制作的特征来描述人脸,如Gabor特征,以及局部二进制模式(LBP)和变体。iii)使用基于学习的局部描述符的方法在2010年代后出现,它们使用浅层技术学习鉴别图像滤波器。iv)基于深度学习的方法在2012年AlexNet在ImageNet竞赛中取得巨大成功后变得流行,并为人脸识别问题带来了新的视角。人脸识别达到了前所未有的稳定性,因此在不受限制的设置下收集的大规模数据集上,它们的性能与人类相似。

本文在以下章节中对现有的基于图像和视频的人脸识别方法进行了全面的分类。

也有一些调查论文总结了在人脸识别方面所做的工作。第一份调查报告发表于1990年代。后来又发表了其他的调查论文,其中一些侧重于一个特定的方面或方法,包括:

bull;姿势或光照不变人脸识别方法,

bull;视频中的动态人脸识别,

bull;使用3D和红外模式的多模式人脸识别,

bull;表示攻击检测(面部反欺骗)方法,

bull;基于稀疏性的人脸识别方法,

bull;基于深度学习的人脸识别方法。

我们可以看到,最近的调查论文主要集中在基于图像的深度学习方法上。虽然视频是一个非常丰富的面部纹理和动态的来源,而且录制和分享视频变得更加容易,但最近还没有研究基于视频的人脸识别的调查论文。

1.2.贡献和概要

这次审查的主要贡献可概述如下:

bull;本文对基于图像和视频的人脸识别的研究成果进行了全面而紧凑的综述,包括图像和视频数据库以及评价方法。对20世纪90年代至2020年初发表的约300篇论文进行了审查。我们的目标是让感兴趣的新研究者了解过去的主要进展,并指出相关参考资料以获得进一步的细节。

bull;我们提供了一个基于图像和视频的方法的分类,其中也包含了最近的方法,如稀疏性和基于深度学习的方法。创建分类法的目的是为人脸识别提供文献中方法的概述。

bull;本文对用于人脸识别的基于图像和视频的数据集进行了综述。我们不仅将这些数据集制表,而且给出了一个时间线,以显示收集的数据集是如何在时间上根据受试者的数量和每个受试者的样本数量演变的。

bull;我们回顾了最近基于深度学习的方法,这些方法在大规模和无约束的挑战性数据集上表现出了显著的效果。通过这种方式,读者获得了关于自2010年代初以来为人脸识别带来新视角的基于深度学习的方法的详细信息。

bull;我们提供了基于图像和视频的方法的信息,重点是基于视频的方法。我们认为,基于视频的人脸识别在利用面部动力学信息方面还没有发挥其全部潜力。

论文的组织结构如下。在第2节中,我们概述了与人脸识别相关的主要概念,包括分类、主要步骤、数据库、评估指标和人脸欺骗。在3 和4中,我们分别总结了基于图像和视频的方法。最后,在5部分,为今后的研究提供了主要结论和方向。

2.人脸识别综述

人脸识别可以作为一个识别问题或验证问题来处理。人脸识别也称为1:N匹配问题。将未知人脸与已知身份数据库中的所有人脸进行比较,并根据所有比较的结果做出决定。如果已知该人在数据库中,则该任务称为闭集,否则称为开集。人脸验证被称为1:1匹配问题。通过将查询人脸与数据库中声称身份的人脸数据进行比较来确认或重新确定查询人脸的身份。

下面,我们提供了一个概述的文献中的人脸识别系统,重点是一般分类,主要步骤,图像和视频数据库,评价指标用于人脸识别。

2.1.人脸识别分类学

人脸识别系统在文献中主要可以分为两大类,即基于图像的方法和基于视频的方法。基于图像的系统试图通过使用物理外观来识别一个人。另一方面,基于视频的系统使用物理外观以及外观随时间的变化或面部的特征。人脸识别文献的一般分类如图所示1。

基于图像的人脸识别方法可以分为三大类:i)基于外观(或整体)的方法,ii)基于模型的方法和iii)基于纹理(局部外观)的方法。

基于视频的人脸识别方法可以分为两大类:一是基于集合的方法,二是基于序列的方法。基于集合的方法将视频序列的帧视为图像的集合,而不关注帧的时间性。另一方面,基于序列的方法通过保持帧的时间顺序来使用帧。因此,随着时间的推移,面部的动态也在人的识别中发挥作用。

很难对文献中关于人脸识别的所有工作给出一个清晰的分类法。因此,图1中提出的分类单元是文献中方法的粗略分组,某些分组中的算法可能有重叠的特性。

2.2.人脸识别的主要步骤

人脸识别系统传统上由六个主要阶段组成(见图2):

i)获取人脸的输入图像或视频。

ii)人脸反欺骗模块通过使用呈现或对抗性攻击检测(通过活性测试等)来保证系统的安全性。

iii)在图像或每个视频帧中检测面部和/或面部地标。

iv)对图像或视频执行预处理,其可包括对准、视频帧选择、降噪、对比度增强或类似操作。

v)从图像或视频中提取面部特征。基于图像的方法使用整体、基于模型或基于纹理的特征提取方法,而基于视频的方法使用基于集合或基于序列的方法。

vi)进行人脸识别或验证。

下面,我们对人脸检测和人脸地标方法的文献做一个简要的回顾。准确有效的人脸检测和人脸地标算法提高了人脸识别系统的准确率。

2.2.1.人脸检测

人脸检测是在给定的图像或视频帧中估计人脸的边界盒。如果图像中有多个人脸,则全部检测出来。人脸检测应该对姿态、光照和尺度差异具有稳健性,并且应该尽可能地消除背景。

VJ人脸检测器是一种广泛使用的人脸检测器,适用于正面人脸。它基于类Haar特征,实时工作。也提出了其他方法,这些方法也使用颜色信息。

最近,基于深度学习的人脸检测器已经提供了成功的结果。在最近的一种方法中,Faster RCNN算法使用了区域建议方法,最初被建议用于目标检测。还有其他基于深度学习的人脸检测方法,它们使用滑动窗口的思想。首次提出用于物体检测的单镜头检测器(SSD),也成功地用于人脸检测。

2.2.2.面部地标

检测到人脸后,可以估计人脸上的面部地标(眼角、眉毛、嘴角、鼻尖等)用于人脸对齐。将人脸对准一个标准位置已被证明有利于人脸识别。在图2中用黄色点显示面部标志的例子,这些黄色点是使用回归树的集合方法估计的。

在2010年代初,为了执行面部对准程序,提出了不同的方法,研究表明,这些方法表现出很高的性能。有综述面部地标研究的调查论文。吴、季有将面部标志检测方法分为三类:整体方法、约束局部模型(CLM)方法和基于回归的方法。另一种可能的分类方法是将它们分为生成性方法和判别性方法。

为了评估地标定位性能,可以使用两个不同的度量标准:基于地面真值的定位误差和面向任务的性能。由于深度学习技术的最新进展,面部地标提取方法的性能得到了极大的改善,即使在野外数据集上也是如此。已经开发了多任务学习的方法,将人脸检测和地标定位与其他任务姿态估计和性别识别结合在一起。最近,使用深度学习的移动设备上的单人人脸跟踪也得到了研究。

2.3. 数据库

早期的人脸识别工作是基于相当小规模的数据库,这些数据库是在实验室控制条件下记录的。ORL是最早的图像数据库之一,包含来自 10 个研究对象的 400 幅图像。类似地,1997 年发布的第一批基于视频的人脸数据库包含了来自 40 个受试者的 70 个视频。近年来,人脸识别数据库已经成为大规模,在不受控制的情况下记录了数百万张图像或数万个视频。用于人脸识别的人脸数据库可以分为基于图像的人脸数据库和基于视频的人脸数据库。我们分别在表 2,3, 4和表5中总结了文献中主要的基于图像和基于视频的人脸识别数据库。图 1 中还提供了基于图像的、视频的和 3D 的人脸识别数据库的图形时间表示。

2.4. 评价指标

随着人脸识别系统在日常生活中的应用越来越多,这些系统的性能已经成为一个关键问题。为了衡量生物识别系统的性能,研究者们提出了许多评价指标。

人脸识别可以使用识别或验证(认证)方法来执行。通常用于人脸验证的评估指标和图表是:

bull; 假匹配率(FMR)(也称为假接受率(FAR)):它是冒名顶替者(入侵者)样本的百分比,这些样本被错误地识别为声称的身份。

bull; 假不匹配率(FNMR)(也称为假拒绝率(FRR)):它是正品样品的百分比,这些样品被错误地拒绝。

bull; 准确性:它是样本的百分比,这些样本被正确地分类。

bull; Geniune 接受率(GAR)(也称为真实接受率(TAR)):它是被正确接受的真实样品的百分比(即 TAR=1-FNMR)。

bull; 检出率:它是被正确检测到的入侵者(而不是样本)的百分比。

bull; 等错误率(EER):它是 FMR 和 FNMR 相等的错误率。

bull; 接收机工作特性(ROC)曲线:该曲线是在不同检测阈值下得到的FRR 与 FAR 的关系图。ROC 曲线也可以通过绘制 TAR 与 FAR的关系得到。ROC 曲线下的面积(AUROC)是代表系统性能的度量,取 0.5(随机选择)和 1(完美分类)之间的值。

人脸识别常用的评价指标和图表有:i)rank-1 准确率和 ii)累积匹配特征(CMC)曲线,它是在 rank-k(正确身份在 top-k 中)识别率的曲线图。

上述评估指标和图表用于人脸识别挑战和协议的基准测试和比较目的。

2.5. 人脸防欺骗

虽然人脸识别是一种易于使用的生物特征,但一个主要问题是它容易受到由照片、视频或 3D 面具进行的欺骗攻击。欺骗攻击在生物特征数据的记录、特征提取或决策阶段最为常见。对存储生物特征数据的网络或数据库也有其他类型的攻击。

人脸识别中的反欺骗通常意味着活性检测或呈现攻击检测,这可以通过感知生理运动来完成,如眼睛闪烁、面部表情变化、嘴巴运动或头部运动。从人脸视频中检测心率是另一种用于活性检测的方法。这项技术被称为远程(非接触)光电体积描记术,它利用皮肤的细微颜色变化,这种变化是每次心脏跳动和向身体泵血时发生的。其他对策可以包括不同的生物识别模式,如步态和语音。事实上,多模态系统本质上比单模态系统更难欺骗有关克服 2D 照片欺骗攻击的更多信息。

基于深度 CNN 的方法最近成为流行的人脸反欺骗方法。 在[248]中,不同的性能研究了用于人脸防欺骗的CNN体系结构。在[212]中,提出了一种深度树学习(DTL)方法用于零镜头人脸反欺骗(ZSFA)。ZSFA 是对训练数据中不存在的欺骗攻击的检测,如部分纸或透明掩码攻击。在[386]中提出了一种时空反欺骗网络(STASN),它可以聚焦于边界和云纹模式等细微线索来检测欺骗人脸。他们还提出了数据收集和综合解决方案。最近还使用 CASIA-SURF 多模态数据集,进行了一次多模态人脸反欺骗挑战。这项研究总结了最成功的团队的结果,并给出了未来研究方向的重要信息。

3.基于图像的人脸识别

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589585],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。