大规模人脸表情识别中的不确定性抑制

摘要：由于表情模糊、低质量的人脸图像以及注释者的主观性等因素的影响，对一个定性的大规模人脸表情数据集进行注释是非常困难的。这些不确定性导致了深度学习时代大规模人脸表情识别的一个关键挑战。为了解决这一问题，本文提出了一种简单而有效的自修复网络（SCN），它可以有效地抑制不确定性，防止深度网络过度拟合不确定的人脸图像。具体而言，SCN从两个不同的方面抑制了不确定性：1）基于小批量的自我注意机制，对每个训练样本进行等级正则化加权；2）通过仔细的重标记机制，在排名最低的组中修改这些样本的标签。在合成的FER数据集和收集到的WebEmotion数据集上的实验验证了该方法的有效性。在公共benchmarks上测试的结果表明，我们的SCN在RAF-DB、AffectNet和FERPlus上的表现分别为88.14%、60.23%和89.35%。

1. 引言

面部表情是人类表达情感状态和意图的最自然、最有力、最普遍的信号之一。自动识别面部表情对于帮助计算机理解人类行为并与之交互也很重要。在过去的几十年里，研究人员通过算法和大规模的数据集在面部表情识别（FER）方面取得了重大的进展，其中数据集可以在实验室内或者实验室外收集，比如CK 、MMI、Oulu-CASIA、SFEW/AFEW、FERPlus、AffectNet、EmotioNet、RAF-DB等。

然而，对于从互联网上采集到的大规模FER数据集，由于注释者主观的不确定性以及人脸图像的模糊性，使得高质量的标注变得非常困难。如图1所示，不确定性从高质量和明显的面部表情增加到低质量和微表情。这些不确定性通常会导致标签不一致和标签不正确，严重阻碍了大规模人脸表情识别（FER）的发展，尤其是基于深度学习人脸表情识别。一般情况下，带有不确定性的FER训练会导致以下问题。首先，它可能导致对不确定性样本的过拟合，这些样本可能会被错误标记。第二，对于一个学习有用的面部表情特征模型来讲这是有害的。第三，高比例的错误标签甚至会使模型在优化的早期阶段出现分离。

图 1 来自RAF-DB的真实人脸图像的不确定性实证

为了解决这些问题，我们提出了一种简单而有效的方法，即自修复网络（SCN），来抑制大规模人脸表情识别的不确定性。SCN由三个关键模块组成：自注意力重要性加权、排序正则化和噪声重标记。在给定一批图像的基础上，首先利用backbone CNN提取人脸特征。然后，自我注意重要性加权模块学习每个图像的权重，以捕获样本重要性进行损失加权。预计不确定性人脸图像应采用低重要性权重。此外，排序正则化模块按降序对这些权重进行排序，将它们分成两组（即高重要性权重和低重要性权重），并通过在两组的平均权重之间设置一个边界来对两组进行正则化。这种正则化用一个损失函数来实现，称为秩正则化损失（RR损失）。排序正则化模块确保第一模块学习有意义的权重来突出确定性样本（例如可靠的注释）和抑制不确定的样本（例如模糊的注释）。最后一个模块是一个仔细的重标记模块，它尝试通过比较最大预测概率与给定标签的概率来重新标记来自底部组的样本。如果最大预测概率大于给定的带边缘阈值的标签的预测概率，则将伪标签分配给样本。此外，由于不确定性的主要证据是不正确/噪声注释问题，我们从互联网上收集了一个极端噪声的FER数据集，称为WebEmotion，以研究具有极端不确定性的SCN的效果。

总的来说，我们的贡献可以概括如下：

本文创新性地提出了人脸表情识别中的不确定性问题，并提出了一种自修复网络来减少不确定性的影响。
我们精心设计了一个秩正则化方法来监督SCN学习有意义的重要性权重，为重标记模块提供了参考。
我们广泛验证了我们的SCN在合成的FER数据和一个从互联网上收集的新的现实世界不确定情绪数据集（WebEmotion）。我们的SCN在RAF-DB上的性能也达到了88.14%，在AffectNet上达到了60.23%，在FERPlus上达到了89.35%，创造了新的记录。

2. 相关工作

2.1 人脸表情识别

一般来说，一个FER系统主要包括三个阶段，即人脸检测、特征提取和表情识别。在人脸检测阶段，利用MTCNN和Dlib等多个人脸检测器对复杂场景中的人脸进行定位。检测到的人脸可以进一步交替地对齐。在特征提取方面，设计了多种方法来获取由表情引起的面部几何特征和外观特征。根据特征类型，它们可以分为工程特征和基于学习的特征。对于工程特征，可以进一步分为基于纹理的局部特征、基于几何的全局特征和混合特征。基于纹理的特征主要有SIFT、HOG、LBP直方图、Gabor小波系数等。基于几何的全局特征主要基于鼻子、眼睛和嘴周围的landmark点。将两个或两个以上的工程特征结合起来就是混合特征提取，可以进一步丰富表现形式。对于所学的特征，Fasel发现浅层的CNN对于人脸姿势和规模是很健壮的。Tang和Kahou等人，利用深度CNN进行特征提取，分别赢得FER2013和Emotiw2013挑战赛。Liu等人提出了一种基于面部动作单元的CNN表情识别体系结构。最近，Li和Wang等人设计了基于区域的注意网络，用于姿势和遮挡感知FER，其中区域可以从landmark点或固定位置裁剪。

2.2 不确定性学习

FER任务中的不确定性主要来自于模糊的面部表情、低质量的面部图像、不一致的注释和错误的注释（即噪声标签）。尤其是噪声标签学习在计算机视觉领域得到了广泛的研究，而其他两个方面的研究却很少。为了处理噪声标签，一个直观的想法是利用一个干净的小集合数据，这些数据可用于在训练过程中评估标签的质量，或估计噪声分布、或训练特征提取器。Li等人提出了一个统一的蒸馏框架，使用来自一个小的干净数据集的“边”信息和知识图中的标签关系，以“对冲”从噪声标签中学习的风险。Veit等人使用一个多任务网络，共同学习如何清除噪声注释和对图像进行分类。Azadi等人通过辅助图像正则化来选择具有噪声标签的深层CNNs的可靠图像。其他方法不需要一个小的干净数据集，但它们可能会假设噪声样本的额外约束或分布，例如随机翻转标签的特定损失，通过MentorNet对损坏标签上的深层网络进行正则化，以及其他方法，通过潜在的正确标签连接到有噪声的标签上，用一个softmax层对噪声进行建模。对于FER任务，Zeng等人首先考虑不同FER数据集之间的注释不一致问题，并提出利用这些不确定性来改进FER。相比之下，我们的工作集中在抑制这些不确定性以更好地学习面部表情特征。

3. 自修复网络

为了学习具有不确定性的鲁棒人脸表情特征，我们提出了一种简单而有效的自修复网络（SCN）。在本节中，我们首先概述了SCN，然后介绍了它的三个模块。最后给出了SCN的具体实现。

3.1 自修复网络概述

我们的SCN建立在传统的CNNs之上，由三个关键模块组成：i）自我注意重要性加权，ii）排名正则化，iii）重标记，如图2所示。

图 2 我们的自修复网络的流程

在给定一批样本不确定的人脸图像的基础上，首先利用backbone network提取人脸的深层特征。自注意重要性加权模块使用全连接（FC）层和sigmoid函数为每个图像分配一个重要权重。这些权重乘以样本重加权方案的对数。为了显式地降低不确定性样本的重要性，进一步引入了等级正则化模块对注意权重进行正则化。在等级正则化模块中，我们首先对学习到的注意权重进行排序，然后将其分成两组，即高重要性组和低重要性组。然后我们在这些组的平均权重之间添加一个基于边界的损失的约束，称为等级正则化损失（RR-Loss）。为了进一步改进我们的SCN，我们增加了重标记模块来修正低重要性组中的一些不确定样本。这个重标记操作的目的是寻找更多干净的样本，然后增强最终的模型。整个SCN可以以端到端的方式进行训练，并且可以很容易地添加到任何CNN backbones中。

3.2 自注意重要性加权

我们引入了自注意重要性加权模块来捕捉样本对训练的贡献。预计确定性样本可能具有较高的重要性权重，而不确定性样本的重要性较低。设表示N幅图像的面部特征，自注意重要性加权模块以F为输入，对每个特征输出一个重要权重。具体而言，自注意重要性加权模块由线性全连接层和sigmoid激活函数组成，可以表述为：

（1）

其中是第i个样本的重要权重，是用于attention的FC层的参数，是sigmoid函数。本模块也为其他两个模块提供了参考。

Logit-Weighted 交叉熵损失。对于注意力权重，我们有两个简单的选择来执行损失加权。第一种选择是将每个样本的权重乘以样本损失。在我们的例子中，由于权重是以端到端的方式优化的，并且是从CNN的特性中学习的，所以它们注定是零，因为这个繁琐的解决方案没有损失。MentorNet和其他自学方法通过交替最小化来解决这个问题，即一次优化一个，而另一个保持不变。在本文中，我们选择了更有效的logit-weighted方法。对于多类交叉熵损失，我们将加权损失称为logit-weighted交叉熵损失（WCE-Loss），其公式如下：

（2）

其中是第j个分类器，与呈正相关。

3.3 等级正则化

上述模块中的自我注意权重可以是任意的。为了明确约束不确定性样本的重要性，我们精心设计了一个等级正则化模块来正则化注意权重。在等级正则化模块中，我们首先对学习到的注意权重进行降序排序，然后以的比率将其分成两组。等级正则化保证了高重要性组的平均注意权重高于低重要性组的平均注意权重，并留有一个边界。形式上，我们为此定义了等级正则化损失（RR-Loss），如下所示：

（3）

和

（4）

其中是可以固定超参数或可学习参数的margin，和分别是样本的高重要性组和样本的低重要性组的平均值。在训练中，总损失函数为，其中是一个折衷比。

3.4 重标记

在rank regularization模块中，每个小批量被分成两组，即高重要性组和低重要性组。我们通过实验发现，不确定性样本通常具有较低的重要性权重，因此一个直观的想法是设计一个策略来重新标记这些样本。修改这些注释的主要挑战是要知道哪个注释是不正确的。

具体来说，我们的重标记模块只考虑低重要性组中的样本，并根据Softmax概率执行。对于每个样本，我们将最大预测概率与给定标签的概率进行比较。如果最大预测概率高于具有阈值的给定标签的概率，则样本被分配给

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 10 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[596119]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

大规模人脸表情识别中的不确定性抑制外文翻译资料

1. 引言

2. 相关工作

3. 自修复网络

您可能感兴趣的文章

登录

1. 引言

2. 相关工作

3. 自修复网络

您可能感兴趣的文章