Deep Face Recognition

Omkar M. Parkhi

Andrea Vedaldi

vedaldi@robots.ox.ac.uk

Andrew Zisserman

az@robots.ox.ac.uk

Visual Geometry Group Department of Engineering Science University of Oxford

Abstract

The goal of this paper is face recognition – from either a single photograph or from a set of faces tracked in a video. Recent progress in this area has been due to two factors:

(i) end to end learning for the task using a convolutional neural network (CNN), and (ii) the availability of very large scale training datasets.

We make two contributions: first, we show how a very large scale dataset (2.6M im- ages, over 2.6K people) can be assembled by a combination of automation and human in the loop, and discuss the trade off between data purity and time; second, we traverse through the complexities of deep network training and face recognition to present meth- ods and procedures to achieve comparable state of the art results on the standard LFW and YTF face benchmarks.

1 Introduction

Convolutional Neural Networks (CNNs) have taken the computer vision community by storm, significantly improving the state of the art in many applications. One of the most important ingredients for the success of such methods is the availability of large quantities of training data. The ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [16] was instrumental in providing this data for the general image classification task. More re- cently, researchers have made datasets available for segmentation, scene classification and image segmentation [12,33].

In the world of face recognition, however, large scale public datasets have been lacking and, largely due to this factor, most of the recent advances in the community remain restricted to Internet giants such as Facebook and Google etc. For example, the most recent face recognition method by Google [17] was trained using 200 million images and eight million unique identities. The size of this dataset is almost three orders of magnitude larger than any publicly available face dataset (see Table1). Needless to say, building a dataset this large is beyond the capabilities of most international research groups, particularly in academia.

This paper has two goals. The first one is to propose a procedure to create a reasonably large face dataset whilst requiring only a limited amount of person-power for annotation. To this end we propose a method for collecting face data using knowledge sources available on the web (Section3). We employ this procedure to build a dataset with over two million faces,

sect;

c 2015. The copyright of this document resides with its authors. It may be distributed unchanged freely in print or electronic forms.

Dataset	Identities	Images
LFW	5,749	13,233
WDRef [4]	2,995	99,773
CelebFaces [25]	10,177	202,599

Dataset	Identities	Images
Ours	2,622	2.6M
FaceBook [29]	4,030	4.4M
Google [17]	8M	200M

Table 1: Dataset comparisons: Our dataset has the largest collection of face images outside industrial datasets by Goole, Facebook, or Baidu, which are not publicly available.

and will make this freely available to the research community. The second goal is to inves- tigate various CNN architectures for face identification and verification, including exploring face alignment and metric learning, using the novel dataset for training (Section4). Many recent works on face recognition have proposed numerous variants of CNN architectures for faces, and we assess some of these modelling choices in order to filter what is important from irrelevant details. The outcome is a much simpler and yet effective network architec- ture achieving near state-of-the-art results on all popular image and video face recognition benchmarks (Section5and6). Our findings are summarised in Section6.2.

2 Related Work

This paper focuses on face recognition in images and videos, a problem that has received significant attention in the recent past. Among the many methods proposed in the literature, we distinguish the ones that do not use deep learning, which we refer as “shallow”, from ones that do, that we call “deep”. Shallow methods start by extracting a representation of the face image using handcrafted local image descriptors such as SIFT, LBP, HOG [5,13,22, 23,32]; then they aggregate such local descriptors into an overall face descriptor by using a pooling mechanism, for example the Fisher Vector [15,20]. There are a large variety of such methods which cannot be described in detail here (see for example the references in [15] for an overview).

This work is concerned mainly with deep architectures for face recognition. The defining characteristic of such methods is the use of a CNN feature extractor, a learnable function obtained by composing several linear and non-linear operators. A representative system of this class of methods is DeepFace [29]. This method uses a deep CNN trained to classify faces using a dataset of 4 million examples spanning 4000 unique identities. It also uses a siames

剩余内容已隐藏，支付完成后下载完整资料

深度人脸识别

Omkar M. Parkhi

omkar@robots.ox.ac.uk

Andrea Vedaldi

vedaldi@robots.ox.ac.uk

Andrew Zisserman

az@robots.ox.ac.uk

牛津大学工程科学系

摘要

本文的目标是人脸识别 - 无论是单张照片还是从视频中跟踪的一组人脸。最近在这方面的进展是由于两个因素：

（i）使用卷积神经网络（CNN）端到端学习任务，以及（ii）超大规模训练数据集的可用性。

我们做出了两点贡献：首先，我们展示了一个非常大规模的数据集（2.6M图像，超过2.6万人）如何通过循环中的自动化和人工组合，并讨论数据纯度和时间; 其次，我们通过深度网络训练和人脸识别的复杂性来介绍方法和程序，以在标准LFW和YTF人脸基准上实现可比较的最先进结果。

1 介绍

卷积神经网络（CNN）已经让计算机视觉界受到了极大的冲击，显著改善了许多应用领域的艺术水平。这种方法成功的最重要的因素之一是可以获得大量的训练数据。ImageNet大规模视觉识别挑战（ILSVRC）[16]有助于为普通图像分类任务提供这些数据。最近，研究人员已经为分割，场景分类和图像分割提供了数据集 [12,33]。

然而，在人脸识别领域，缺乏大规模的公共数据集，主要是由于这个因素，业界最近的大部分进展仍然局限于互联网巨头，如Facebook和Google等。例如，最近的 Google[17]的脸部识别方法使用2亿张图像和800万个独特身份进行训练。这个数据集的大小几乎比任何公开可用的人脸数据集大三个数量级（见表1）。不用说，建立一个这样大的数据集超出了大多数国际研究组的能力，特别是在学术界。

本文有两个目标。首先是提出一个程序来创建相当大的一组人脸数据，同时只需要有限的人工注释。为此，我们提出了一种使用因特网上可用的知识源收集人脸数据的方法（第3节）。我们使用这个程序来建立一个拥有超过两百万人脸的数据集

c 2015. 本文档的版权属于其作者。它可以以印刷或电子形式自由发布。

数据集	身份	图片
LFW	5,749	13,233
WDRef [4]	2,995	99,773
CelebFaces [25]	10,177	202,599

数据集	身份	图片
Ours	2,622	2.6M
FaceBook [29]	4,030	4.4M
Google [17]	8M	200M

表1：数据集比较：我们的数据集拥有Goole，Facebook或百度之外的工业数据集以外最大的面部图像集合，这些集合并非公开可用。

并且可以让研究人员免费使用它。第二个目标是调查各种CNN架构的人脸识别和验证，包括探索人脸对齐和度量学习，使用新的数据集进行训练（第4节）。最近许多关于人脸识别的研究已经提出了脸部CNN体系结构的众多变体，并且我们评估了这些建模选择中的一些，以便从不相关的细节中过滤重要的部分。结果是一个简单而有效的网络体系结构，可以在所有流行的图像和视频人脸识别基准上获得接近最新的结果（第5节和第6节）。我们的研究结果在6.2节中总结。

2 相关工作

本文重点介绍图像和视频中的人脸识别，这是近年来受到重视的一个问题。在文献中提出的许多方法中，我们将那些不使用深度学习的方法（我们称之为“浅”）与那些我们称之为“深度”的方法区分开来。浅层方法首先使用手工局部图像描述符（如SIFT，LBP，HOG[5,13,22,23,32]）提取人脸图像的表示;然后他们通过使用池化机制将这些局部描述符聚合成一个总体描述符，例如Fisher Vector[15,20]。这里有大量的这种方法，这里不能详细描述（例如参见[15]中的参考文献）。

这项工作主要关注面向人脸识别的深层架构。这种方法的定义特征是使用CNN特征提取器，这是一种通过组合多个线性和非线性算子获得的可学习函数。这类方法的代表性系统是DeepFace[29]。该方法使用深度CNN训练，使用包含4000个唯一身份的400万个示例的数据集对人脸进行分类。它也使用联合网络结构，其中使用相同的CNN来面对描述符，然后使用欧几里德距离进行比较。训练的目标是最小化相同面部之间的距离（即描绘相同的身份），并且最大化不一致对之间的距离，这是一种度量学习的形式。除了使用大量训练数据之外，DeepFace还使用CNN集以及预处理阶段，其中3D模型用于将脸部图像与典型手势对齐。发布后，DeepFace在现场标签（LFW;[8]）基准测试和Youtube现场测试（YFW;[32]）基准测试中取得了最佳性能。作者后来在[30]中扩展了这项工作，将数据集的大小增加了两个数量级，其中包括每个身份的1000万个身份和50个图像。他们提出了一种自举策略来选择身份来训练网络，并且表明通过控制完全连接层的维度可以提高网络的泛化能力。

Sun等人的DeepId系列论文扩展了DeepFace的工作。[24,25,26,27]，其中每一项都逐渐稳步增加在LFW和YFW上的表现。

图1：来自我们的数据集的六个身份的示例图像。

在这一系列论文中纳入了许多新的想法，包括：使用多个CNN[25]，贝叶斯学习框架[4]来训练度量，分类和验证的多任务学习[24]，不同的CNN体系结构在每个卷积层[26]之后分支一个完全连通的层，以及[27]中由[19,28]启发的非常深的网络。与DeepFace相比，DeepID不使用3D人脸对齐，而是使用更简单的2D仿射对齐（如本文所述），并结合CelebFaces[25]和WDRef[4]进行训练。然而，[27]中的最终模型相当复杂，涉及大约200个CNN。

最近，Google[17]的研究人员使用了一个包含2亿个人脸和8亿个图像人脸对的庞大数据集来训练类似于[28]和[18]的CNN。不同之处在于他们使用“基于三重的”损失，其中一对两个相同的人脸（a，b）和第三个不一致的人脸c相比较。我们的目标让a比c更接近b；换句话说，与其他度量学习方法不同，比较总是相对于“枢轴”人脸。这个匹配方式更符合如何在应用程序中使用度量标准，其中查询人脸与其他人脸的数据库进行比较以找到匹配的人脸。在训练中，这种损失应用于多层，而不仅仅是最后一层。此方法目前在LFW和YTF上实现最佳性能。

数据采集

在本节中，我们提出了一个多阶段策略，以有效收集包含成千上万个唯一身份的数百个示例图像的大型人脸数据集（表1）。表2总结了这一过程的不同阶段和相应的统计数据。以下段落详细讨论了各个阶段。

阶段1.引导并过滤候选身份名称列表。 构建数据集的第一步是获取用于获取的人脸的候选身份的名称列表。想法是专注于名人和公众人物，如演员或政治家，以便在网络上可以找到足够数量的不同图像，并且避免在下载图像时出现任何隐私问题。最初的公众人物名单是通过从互联网电影数据库（IMDB）名人名单中提取，按热门程度排名的男性和女性获得的。该列表主要包含演员，与Freebase知识图中的所有人相交[1]，其中包含约500,000个不同身份的信息，从而产生2.5K男性和2.5K女性的排名列表。这形成了一个候选名单，这个名单被称为流行的5K名字（来自IMDB），并且我们有属性信息，如种族，年龄，亲属关系等等（来自知识图）。选择总共5K张图片以使后续注释过程对于小型注释员团队可管理。

然后对候选列表进行过滤，以删除没有足够清晰图像的身份，并消除与标准基准数据集的任何重叠。为此，使用Google Image Search下载每个5K名称的200张图像。然后将200张图像呈现给人类注释者（按照四个组中的50个），以确定哪些身份导致足够的图像纯度。具体而言，只有当相应的一组200幅图像纯度大约为90％时，才会要求注释者保留身份。缺乏纯度可能是由于同名或图像稀缺。此筛选步骤将候选列表缩减为3,250个身份。接下来，将删除出现在LFW和YTF数据集中的任何名称，以便可以在新数据集上进行训练，并仍然在这些基准上进行公平评估。以这种方式，获得了最终的2,622名名人名单。

阶段2.为每个身份收集更多图像。 在Google和Bing图片搜索中都能查询到2,622个名人姓名，然后在将关键字“actor”添加到名称后再查询。这导致每个名称有四个查询，每个查询有500个结果，每个身份获得2,000个图像。

阶段3.通过自动过滤器提高纯度。这个阶段的目标是使用分类器自动删除每个集合中的任何错误面部。为达到此目的，每个身份的前50张图片（基于下载的Google搜索排名）被用作正面训练样本，所有其他身份的前50张图片被用作负面训练样本。使用Fisher Vector Faces描述符[15,20]为每个身份训练一对一静止线性SVM。然后使用每个身份的线性SVM对该身份下载的2000张图像进行排名，并保留前1000张（在正面预测中选择1000的阈值以保持高精度）。

阶段4.近似重复的删除。 从两个不同的搜索引擎找到的同一图像产生的完全重复图像，或者在两个不同的互联网位置找到的相同图像的副本，将被删除。接近重复的图像（例如仅在色彩平衡方面不同的图像，或叠加文本的图像）也会被删除。这是通过计算每个图像的VLAD描述符[2,9]来完成的，使用非常严格的阈值对每个标识的1,000个图像内的这些描述符进行聚类，并保留每个簇的单个元素。

阶段5.最后的手动过滤。目前，有2,622个身份且每个身份多达1,000个图像。最后阶段的目的是使用人工注释提高数据的纯度（精确度）。然而，为了使注解任务减轻负担，以及因此避免高注释成本，注释者通过再次使用自动排名而得到帮助。然而，这次，一个多路CNN被训练使用AlexNet架构来区分2622个人脸身份[10]；然后softmax分数用于通过降低作为内点的可能性来对每个标识集内的图像进行排序。为了加速注释者的工作，每个身份的排名图像以200个块显示，并且要求注释者整体验证块。特别地，如果近似纯度大于95％，则块被宣布为良好。最终好的图像数量是982803个，其中大约是95%的正面和5％的轮廓。

讨论。总的来说，使用互联网搜索引擎，使用现有的人脸识别方法过滤数据以及有限的手动管理的这种组合能够生成标有其身份的精确的大面积数据集。

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[22667]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

阶段	目的	类型	人数	每人图像数	总图像数	注释花费	100%- EER
1	候选人列表生成	A	5,000	200	1,000,000	–	–
2	图像集扩展	M	2,622	2,000	5,244,000	4 天	–
3	排名图像集	A	2,622	1,000	2,622,000	–	96.90

您需要先支付 30元 才能查看全部内容！立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

深度人脸识别外文翻译资料

1 Introduction

2 Related Work

1 介绍

2 相关工作

数据采集

您可能感兴趣的文章

登录

1 Introduction

2 Related Work

1 介绍

2 相关工作

数据采集

您可能感兴趣的文章