关于情感计算的IEEE事务,第八卷,第一期,1月-3月2017年
基于视频的面部表情和心率自动检测
Hamed Monkaresi, Nigel Bosch, Rafael A. Calvo, Senior Member, IEEE, and Sidney K. Drsquo;Mello
摘要——我们探索了如何利用计算机视觉技术来检测学生(N/22)完成结构化写作活动(草稿反馈审查)时的参与度,类似于在教育环境中遇到的活动。学生在写作活动中同时提供参与注释,并在活动结束后回顾他们的面部视频。我们使用计算机视觉技术从视频、心率、动画单元(来自Microsoft Kinect面部跟踪器)和三个正交平面(LBP-TOP)中提取三组特征。这些特征被用于监督学习,以检测并发和回顾性的自我报告参与。ROC曲线下面积(AUC)用于评估分类准确度,不需要几个学生交叉验证。我们实现了并发注释的AUC为1/4.758,回顾注释的AUC为1/4.733。Kinect人脸跟踪器的特征在各个通道中产生了最好的结果,但是使用通道融合发现了总体最好的结果。
索引——项参与检测、远程心率测量、面部表情、写作任务
- 介绍
人们普遍认为,用户参与活动的方式是其活动体验的重要组成部分。人们参与某项活动的方式已经从HCI[1]和心理学[2]的多个角度进行了研究。“参与”一词本身被不同的研究群体以不同的方式解释[1],但大多数定义认为参与涉及对任务的注意力和情感参与。参与也不是稳定的,而是贯穿于整个互动体验。在HCI领域,Peters等人。[1] 讨论接洽的四个阶段:接洽的开始(即,点)、持续的注意力或接洽、脱离(当接洽消退)和接洽。
我们现在的重点是学习(或教育活动)期间的参与。许多作者(c.f.[2])同意学习过程中的四种参与类型。行为投入可以通过观察持续性和努力来评估;情感投入可以通过检测情绪(如兴趣、好奇心)和自我效能[3]。当学生对活动表现出一种复杂的方法时,例如通过使用深层次而非高级的学习策略,认知参与就得到了证明。当学生试图积极地丰富经验,而不仅仅是一个主动的接受者时,就会发生代理参与[4]。
参与和影响与提高生产力和学习[2],[5]和心理健康[6]有关。当涉及到参与教育活动时,一个重要的考虑是参与是可延展的。许多研究表明,教育干预、学习设计和反馈是提高学生参与度的一些途径(c.f.[2])。这些干预措施的影响已经用多种方法进行了评估,通常是通过分析学生的动机。
测量参与度在教育研究中非常重要,因为它可以让研究人员了解哪些决策会促进或阻碍参与。关注学生参与度的研究需要一种测量方法。这可以通过参与理论家确定的两种数据类型之一来实现:个体内部(认知和情感)和外部可观察因素,如可感知的面部特征、姿势、言语和行为[2]。在方法上,正如在许多情感计算应用中常见的(c.f.[7]),研究参与需要将观察数据(如面部表情、言语)和主观数据(如自我报告)结合起来。
新的感知和情感计算技术为测量参与度提供了新的方法学方法。学习情境中的情感检测采用了不同的方式,如视频[8]、音频[9]和生理测量[10]。还探索了多模态方法,以提高学习应用中情感检测的准确性[11]。学生的情绪状态可以通过情感计算技术从这些测量中推断出来,情感计算技术正越来越多地用于学习技术(例如,[10]、[12]、[13]、[14])。例如,Whitehill等人。[12] 利用一种基于视频的方法来检测学生在玩认知训练游戏时的参与度。在这篇文章中,我们试图用一种完全不同的方法来检测不同教育任务(写作)的参与程度。我们关注写作的动机是写作是工作和教育环境中最常见的活动之一,因此我们旨在支持写作工具,帮助学生参与和享受写作活动。
-
- 贡献和新颖性
这项研究包含几个新的方面:1)我们在写作任务中检测参与度,这提供了独特的挑战,包括有限的面部表情和频繁的头朝下的姿势;2)我们使用基于远程视频的心率(HR)检测作为通道进行参与度检测;3)我们使用自我报告,而不是依赖外部注释作为通常是这样做的;4)我们比较了同时和回顾性的自我报告的“基本事实”标签。下面将详细讨论这些贡献。
关于第一点,写作提供了一个特别困难的背景下,参与检测有两个原因。首先,当学生使用电脑打字时,他们经常把注意力集中在键盘上而不是屏幕上。这会导致头部向下倾斜,进而由于头部姿势的非正面和不一致,导致面部特征检测的准确性降低。其次,与其他一些教育活动相比,写作本身不太可能与可察觉的表达方式联系在一起,因为它的互动性不如,例如,与对话导师互动或玩教育游戏。这会导致更微妙的面部表情。
其次,除了使用面部特征外,我们还使用计算机视觉技术提取心率。我们使用基于视频的心率测量方法来检测用户的参与度。这种方法首先需要一个生理装置来校准远程心率监护仪,提高心率估计的准确性。尽管在现实世界中存在这种局限性,我们采用这种方法是为了探索在高精度遥感中进行交战检测的可能性。
关于参与注释的来源(自我报告)和性质(同时和回顾),我们关注参与的自我报告,而不是通常所做的外部注释(由研究人员或通过众包技术[15]、[16]、[17])。参与的自我报告不同于外部注释,因为它们完全(在并发报告的情况下)或至少部分(在回顾性报告的情况下)来自学生的内部状态。在并发自我报告的情况下,学生根据他们的当前状态报告参与情况,而在线索回忆回顾协议中,学生的报告基于他们的内部状态记忆和他们的面部视频(有时是电脑屏幕),以帮助回忆情况。另一方面,外部注释不是基于学生的内部状态,因此可能是学生内部状态的不太准确(或至少不同)的表示。这种差异对于基于人脸的参与检测尤其关键,因为外部注释(如[16])通常是基于学生面部的视频进行的。然而,很难将博纳参与的实例与学生似乎参与但可能没有参与的实例分开。据我们所知,这项研究是第一项专注于基于视频的自我报告参与自动检测的研究。
- 背景和相关工作
大多数以前的情感检测工作都集中在基本情绪的检测上[18],[19],但最近一些研究者关注于复杂心理状态的识别,特别是注意力和投入[20],[21],[22]。参与度可以通过不同的行为表现来衡量:眼睛注视的动作、面部特征、手势等等。Nakano andIshii[23]试图根据用户的注视模式来衡量用户在人机对话中的参与度,当用户脱离时,机器人会提出问题。他们表明,考虑到用户的参与度,可以对用户在与机器人交谈时的言语和非言语行为产生积极影响。Rich等人。[24]还提出了一个框架来检测和维护人机交互过程中的用户参与。他们的方法依赖于跟踪眼睛的注视、说话和手势,眼睛注视已经成为注意力集中的良好指示器,包括思维的游移或离开[25]。不幸的是,眼睛跟踪受到头部运动的影响,在现实环境中还不容易扩展。目前的重点是基于生理学和基于面部特征的啮合检测,因为这是本研究探索的两种方法。
2.1基于生理学的检测
中枢和外周生理信号通常用于检测任务参与、警觉和困倦。大多数测量生理状态的方法试图记录和分析心脏、大脑、肌肉和皮肤产生的电信号。监测生理信号的主要仪器包括心电图(ECG)、肌电图(EMG)、皮肤电反应(GSR)和呼吸(RSP)。脑电图(EEG)被广泛用于区分警觉和困倦[26]。已经提出了各种基于脑电图的参与指数[27].使用脑电图方法检测驾驶员睡意时,分类精度达到84%至99%[28]。一些研究使用脑电指标在人机交互过程中进行交战检测[29],[30]。Belle等人。[31]当用户观看视频片段时,检测用户参与度的准确率达到85.7%。
心脏活动还应探索自动影响和参与/警觉检测。心率和心率变异性(HRV)是两种重要的心电图测量指标,在这些方面得到了广泛的应用。以往的研究表明,HR是区分不同情感状态的良好指标[32],[33]。例如,在恐惧、愤怒和悲伤的时候,HR往往比在快乐、厌恶和惊讶的时候高[33]。HR和HRV被证明是警觉和困倦的指标[34],[35]。Liang等人。[35]分析了心率、心率、血压和体温,以检测河流疲劳。结果表明,HRV特征对驾驶员睡意的检测是非常有效的。帕特尔等人。[34]提出了一种基于特征的疲劳检测系统,达到了90%的精度。
生理情感计算应用的主要挑战之一是生理传感器的侵入性。用户必须能够使用心率监护仪,心率监护仪通常必须与皮肤相连。这个问题可以通过使用远程测量技术来解决。研究了三种不同的方法,用于远程、非接触测量心率等生命体征。微波多普勒雷达[36]、[37]、[38]是最早检测心率和呼吸的方法之一。热成像[39],[40]是另一种利用皮肤温度调制分析检测心率的方法。最近的方法包括基于视频的成像方法[41]、[42]、[43],它们使用光体积描记术来检测HRV。与其他方法相比,基于视频的生命体征测量更便宜,更易于采用[44]。目前的研究表明,这些方法可用于HCI的应用[45]。在本文中,我们探索了基于hrsensing的入侵检测技术。
2.2基于面部特征的检测
随着低成本硬件传感器(如摄像机)的最新进展,计算机视觉技术在情感计算中的应用越来越受到重视,这些传感器可以集成到计算机化的学习环境中,大量的现有工作证明了这一点(见评论文章[19]、[46]、[47])。微软Kinect和其他类似的深度相机很可能成为未来计算机硬件的标准配置。当人们使用手机、电脑,甚至汽车时,相机提供了一种非侵入性的连续方式来捕捉他们的面部图像。这些面部信息可以用来理解用户当前思维状态的某些方面,并且已经开发了许多技术来自动化这个测量过程[19]、[47]、[48]。
Ekmanamp;Friesen[49]提出了面部动作编码系统(FACS),这是一种广泛应用的描述面部肌肉动作单元(AU)和相应表情的方法。目前的面部表情识别系统能够以合理的精度识别多个AUs[50]。例如,嵌入在微软Kinect SDK(v1.5)中的一个新的面部跟踪器模块能够跟踪六个动作单元。
在面部表情分析领域通常使用两种主要方法:基于几何的方法和基于外观的方法。几何特征包括面部组件的形状和位置,以及面部固定点的位置,如眼角、眉毛等。基于外观的方法通过分析静态和动态空间中人脸表面的变化来识别面部表情(例如,动态纹理恢复技术)。使用基于外观特征的面部表情识别系统在文献[54]中已有报道。一些研究人员使用了不同类型的特征:例如Gabor小波系数[55]、光流[56]和活动外观模型[57]。Bartlett等人。[54]研究了不同的方法,如显式特征测量、独立分量分析(ICA)和Gabor小波。在他们的研究中,Gabor小波提供了最好的结果[58]。
基于几何和基于外观的方法各有优缺点。基于几何的方法通常在时间上跟踪多个面部点的位置。利用这种方法,可以提取一些面部特征(如嘴的形状、眉毛的位置),而不能提取与面部纹理有关的特征(如皱纹和皱纹)。相比之下,基于外观的方法可能对光照(例如亮度和阴影)、头部运动和面部形状之间的差异更为敏感[19]。田等人。[59]使用基于几何和基于外观的特征(Gabor小波)的组合来识别面部AUs。他们声称,几何特征优于外观特征,但两者结合使用会产生最好的结果。
在学习情境中,还研究了从面部特征中检测情感和参与的方法。例如,Grafsgaard等人。[20] 使用计算机表情识别工具箱(CERT)在教程对话的自然主义视频语料库中跟踪面部运动。选择最常见的AUs,包括扬眉(内、外)、眉毛降低、眼睑收紧和嘴部凹陷,使用正向逐步线性回归预测参与度、挫败感和学习收益的总体水平。他们的研究结果表明,上脸的运动是参与、挫折和学习的可靠预测因素。他们在他们的预测和手工注释之间达成了合理的一致,尽管是在一个相当粗糙的粒度级别上(即,跨越整个重新学习阶段)[20]。
Whitehill尔等人。[16] 使用三种不同的计算机视觉技术来检测学生在与认知技能训练软件交互时的参与度。盒子滤波特征(用于测量人脸不同区域之间灰度像素值的差异)、Gabor特征和CERT特征被独立地用于创建用于接合检测的机器学习模型。他们研究中使用的标签是从外部注释者对视频的回顾性注释中获得的。从完全脱离(甚至不看材料)到强烈参与,共标注了四个级别的参与。使用2AFC对检测性能进行量化,2AFC是一种估算ROC曲线下面积(AUC)的方法,用于分类[60]。他们能够以一种与用户无关的方式检测到AUC为1/4.729的参与度(四个参与度的平均值)。用支持向量机分类的Gabor特征被证明是他们尝试过的最有效的方法。这代表了最先进的介入检测,我们将在本研究中进行比较。
2.2现有方法
类似于一些相关的工作[16],我们使用计算机视觉技术检测了与基于视频的方法的接触。相关工作(见综述[46])也表明,通过组合多个数据通道提高了检测性能,因此我们采用了多种技术来产生不同类型的特征。我们使用计算机视觉技术提取的几何特征(Kinect面部跟踪器)、外观特征(三个正交平面上的局部二值模式(LBPs))和生理特征(心率)的组合。机器学习分类模型以一种独立于人的方式进行训练,以确保推广到新学生。同时和回顾性地获得了交战的基本事实测量,并分别为这两种类型的自我报告建立了模型。我们将最新的交战检测结果与使用不同技术提取的特征融合建立的模型进行比较。
- 数据收集方法
3.1参与者
参与者是来自澳大利亚一所公立大学的23名本科生/研究生。学生年龄从20岁到60岁不等(M/34岁,SD/11),共有14名男性和9名女性。一个学生没有完成整个课程,因此该学生的数据被丢弃。这项研究在收集数据之前得到了悉尼大学人类伦理
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239382],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。