社交环境中虚拟现实面部情绪识别的眼动追踪研究
关键词:虚拟现实,情感识别,眼动追踪,情感,虚拟人物
摘 要
背景:虚拟现实(VR)能够在社会背景下,对真实和动态情绪刺激的识别进行评估和训练。本文通过对比虚拟现实、视频、照片等任务中的情感识别,探讨了虚拟现实中视觉注意的问题。
方法:健康个体(n = 100)完成3个情绪识别任务:照片、视频和虚拟现实任务。在虚拟现实任务中,个体对虚拟人物(avatar)在虚拟现实街道环境中的情绪进行评分,并记录眼球追踪。
结果:VR中的识别准确率(75%)可与照片和视频任务相媲美,但也有一些不同。厌恶和快乐在虚拟现实中的准确率较低,而惊讶和愤怒在虚拟现实中的准确率较高。参与者使用更多的时间在识别厌恶、恐惧和悲伤上,而不是惊讶和快乐。一般来说,注意力集中在眼睛和鼻子上的时间要比集中在嘴巴上的时间长。
讨论:沉浸式VR任务可以用于情绪识别的训练和评估。虚拟现实技术可以在与日常生活相关的环境中轻松地控制虚拟人物。经过验证的情绪表达和任务将与临床应用联系起来。
第一章 绪论
识别面部表情对日常社会生活至关重要。我们已经在神经和精神疾病患者中发现了面部情感识别障碍(Henley等人, 2012; Griffiths等人, 2019; Kohler等人, 2011; Savla等人, 2013; Dalili等人, 2015),因此,通过情绪识别来改善患者的社会认知及其功能,成为了面部情感识别障碍评估和训练的关键(Horan和Green, 2019)。近年来,沉浸式虚拟现实 (VR) 成为了一种极具前景的技术。
传统的情绪识别任务使用照片或视频,不能轻易地调整情绪刺激强度来适应任务的难度(Calvo 和 Nummenmaa, 2016)。另外,由于被测者识别的是2D的电脑屏幕或照片,所以大多数刺激只能显示白色或中性的背景,并仅有孤立的面孔或上半身,但在现实生活中,并不存在这种情况。人们日常生活中的情感识别是在复杂的环境中进行的,且往往存在于互动的过程中,因此,传统的情绪识别任务在捕捉现实生活中情感识别的复杂性方面是有限的。
基于虚拟现实的评估和训练为此提供了解决方案——虚拟人脸是动态的、适应性强的、交互式的(Grabowski 等人, 2019; Nijman 等人, 2019; Nijman 等人, 2020)。通过使用内隐测量的研究,发现沉浸式虚拟现实技术可以用来激发情感(Mariacute;n-Morales 等人, 2020)。在虚拟现实技术中,情感刺激可以呈现在与日常生活中进行情感识别类似的3D环境中,比如,物理环境、噪声、拥挤、环境评价等因素都可以通过分散和捕捉注意力影响人的情绪识别。尤其是有认知障碍或注意缺陷的人,环境可能会格外影响他们的情绪识别(Wieser 和 Brosch, 2012)。在精神病或焦虑症中,环境因素可能会影响患者的注意力和知觉,他们对感官刺激更敏感,具有高度警觉,所以会降低信息处理速度或造成情境诱发性恐惧(Wieser 和 Brosch, 2012; Muuml;hlberger 等人, 2008; Nikolaides 等人, 2016; Sasson 等人, 2007; Sasson 等人, 2016)。
对人脸和社交场景的视觉注意偏差已在精神病、社交焦虑、行为障碍和自闭症谱系障碍等各种障碍中观察到(Griffiths 等人, 2019; Dechant 等人, 2017; Toh 等人, 2011; Martin-Key 等人, 2018)。对精神病的眼球追踪研究显示限制性的面部扫描,其特点是避免突出的面部特征(眼睛、鼻子和嘴巴)(Toh等人, 2011)。研究发现,当有更多人在场时,自闭症患者将更少的注意力转移到面孔上,这与正常发育的成年人形成了对比(Guillon 等人, 2014)。此外,社交焦虑症的人在VR列车上执行社交任务时,更关注虚拟人物的身体和环境,而不是脸(Dechant 等人, 2017)。
此前,在健康人群和精神病患者中已经显示出了静态和动态虚拟人脸的有效性(Gutiacute;errez-Maldonado等人, 2013; Dyck等人, 2008; Dyck等人, 2010; Gutiacute;errez-Maldonado 等人, 2012)。这些研究报告称,真实人脸和虚拟人脸的情绪识别精度相似,其中幸福感识别得最好。负面情绪如悲伤、愤怒和厌恶是最难识别的。然而,沉浸式3D VR中的情感感知仍有许多未知之处。
我们研究了一种新的沉浸式虚拟现实情感识别任务,旨在评估和训练。这是通过1]比较识别精度与两个传统任务(Young等人, 2002; Bryson 等人, 1997),2]探索协变量(年龄、性别、教育程度和街道拥挤方面的VR环境干扰因素),3]在VR中利用眼球追踪来确定视觉注意。
我们预计女性和教育水平较高的人的有较小的优势(Bediou 等人,2007;Kret和 De Gelder,2012; Meletti 等人,2009;Kessels等人,2014)。另外,由于年轻人接触电脑的时间更长,虚拟人脸比真实人脸的年龄相关性衰退更严重(Dyck等人,2008)。此外,我们预期环境干扰会降低情绪识别的准确性和速度。关于视觉注意,若和真实面孔一样,虚拟现实中大多数注意力将集中在眼睛上(Wells 等人,2016),不同的情绪指向显著面部特征(眼睛、鼻子和嘴巴)的注意比例是不同的(Eisenbarth 和Alpers , 2011)。最后,我们期望对于难以评价的情绪(即准确率更低的情绪),能将更多的注意力导向显著特征。
第二章 参与者和方法
2.1 过程
我们在两家医疗机构的工作人员中,利用传单和社交媒体(即在社交媒体上,比如Facebook群组和Twitter)招募了年龄在18-65岁之间没有(自我报告的)神经或精神障碍的个人。研究人员告知参与者并签署知情同意书,他们可以获得10欧元的补偿。在一个分钟的会议中,参与者完成了一份人口统计问卷和三个情绪识别任务:照片、视频和虚拟现实任务。顺序是随机的。参与者被随机分配在一个环境干扰物数量低或高的虚拟现实环境中完成虚拟现实任务。本实验由格罗宁根大学心理学系伦理委员会给予伦理批准。
2.2 措施
2.2.1 照片任务——面部情绪表情:刺激和测试(FEEST)(Young 等人,2002)
FEEST是一项10分钟的电脑任务,包含60张描述六种基本情绪(愤怒、厌恶、恐惧、快乐、悲伤或惊讶,见图2)的图片。面部展示5秒后,参与者决定展示的是哪一种情绪。
2.2.2 视频任务——Bell-Lysaker情绪识别测试(BLERT;荷兰语版本)(Bryson 等人,1997)
BLERT由35个10秒的视频片段组成,在这些片段中,演员们说出了情感模糊的句子(图2)。通过肢体语言、面部表情和语调,表达一种基本的情感,或一种中性的表情。参与者必须指出表现的是哪一种情绪。任务耗时约8分钟。
2.2.3 虚拟现实情感识别任务
该虚拟任务发生在由 CleVR创建的虚拟街道环境中,参与者对虚拟角色(avatar)的情绪进行打分(图1)(Nijman 等人,2019)。虚拟现实是通过Oculus Rift DK2集成眼球追踪器(SensoMotoric Instuments)和头戴耳机营造周围的街道噪音。参与者通过改变身体方向和操作操纵杆来控制方向。
在虚拟现实街道环境中,20个虚拟角色随机站在某个位置。当参与者在两米半径内移动时,虚拟角色就会朝着参与者移动,并在10秒内显示情绪(愤怒、厌恶、恐惧、快乐、悲伤、惊讶或中性)。同时选择屏幕弹出,显示四个随机答案选项:一个正确答案和三个错误答案选项。通过操纵杆可以选择答案。屏幕通过变成绿色(正确)或红色(错误)提供反馈。如果答案错了,就再给一次机会。
街头虚拟人物的数量是可控的:在低分心环境条件下,没有额外的虚拟人物在街道上行走,而在高分心环境条件下,22个中性形象的虚拟人物在街道上悠闲地行走。任务耗时约12分钟。
2.3 眼动
在虚拟现实任务中,使用 75hz HMD 集成眼动仪(SMI)记录双眼的眼动。在 VR任务开始之前,进行9点方向校准。使用有限半径Voronoi镶嵌方法为眼睛、鼻子和嘴巴预先定义感兴趣区域(AOI),该方法被认为是最具客观性和鲁棒性的面部刺激方法(图1)(Hessels 等人,2016)。当参与者看到AOI时,AOI被编程为注册。刺激前没有使用注视点。根据AOI和情绪计算操作化的注意力,即注视时间。相对凝视也以AOI和情绪的百分比计算。相对凝视时间的计算方法是,将凝视时间除以特定AOI,再除以角色(眼睛、鼻子和嘴巴)在每个情绪下看到AOI的总时间通过比较实验前半段和后半段的注视时间长短来检查眼球追踪数据是否存在可能的漂移。在漂移或校准不足的情况下,不使用眼球追踪数据。
2.4 统计数据
使用 SPSS 24 进行分析。在 时接受显著性。情绪准确率(正确率的百分比)与 RM-ANOVA 或非参数 Kruskal-Wallis 检验进行比较。对于虚拟现实任务,只使用对第一次尝试的响应进行分析。采用回归分析的方法探讨了识别准确率、年龄、性别和教育程度之间的关系。混淆矩阵作出正确和错误的反应,并报告发生的百分比。比较低和高VR分心条件与t检验或非参数Mann-Whitney U检验的准确性。
用 RM-ANOVA 分析眼球追踪数据的情绪(愤怒、厌恶、恐惧、快乐、悲伤和惊讶)和 AOI(眼睛、鼻子)以及口腔)和注意力分散情况(低和高)。如果违背球度假设,则采用Greenhouse-Geisser 校正。为了进一步分析情绪之间的差异,我们进行了单因素方差分析,事后两两比较 Bonferroni进行校正。
第三章 结果
共纳入100人(, ),其中女性57人。受访受教育程度各不相同:23%职业、18%高等中学、33%高等专科及26%高等专科/大学学位。其中存在VR眩晕恶心()和技术问题(; ; )。
3.1 情感识别
在虚拟现实任务中,惊奇的识别准确率最高(93.7%)。幸福(86.7%)和愤怒(82.7%)的准确率也很高。悲伤(69.7%)、恐惧(69.6%)和厌恶(53.8%)的识别准确率最低。在高分心条件和低分心条件下,准确率没有显著差异。
这三个任务的情绪准确率相当相似(图3)。RM-ANOVAS 发现VR任务与照片(FEEST)和视频(BLERT)任务之间的准确率存在一些差异。与VR任务相比,FEEST 任务的快乐感和厌恶感以及 BLERT 任务的厌恶感具有更高识别准确率。在虚拟现实中,愤怒和惊讶的评分明显高于视频任务。
混淆矩阵显示,在所有任务中,厌恶最常与愤怒相混淆(表1)。而在VR和照片中,恐惧最常与惊讶相混淆。在视频任务中,最常被混淆的是恐惧和悲伤。在虚拟现实和视频任务的面孔中都发现了混淆悲伤和中性的倾向。对于照片,“中性”不是一个选择,悲伤主要与恐惧和厌恶混淆。愤怒主要与厌恶、惊讶(除了视频任务)或中性相混淆。
在三个情绪识别任务中,性别和教育程度都不能预测识别的准确性。对于BLERT,年龄具有显著的预测准确
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[595910],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。