英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
情感识别问题中的特征与决策级视听数据融合
Maxim Sidorov 、Evgenii Sopov 、Ilia Ivanov 和Wolfgang Minker
德国乌尔姆大学通信工程研究所
俄罗斯克拉斯诺亚尔斯克西伯利亚国家航空航天大学系统分析和运筹学系
@uni-ulm.de,{evgenysopov,ilyaiv 92}@gmail.com
关键词:情感识别,语音,视觉,PCA,神经网络,人机交互,特征级融合,决策级融合。
摘要:基于语音的情感识别问题已经得到了许多学者的研究,并取得了合理的结果。本文主要研究如何应用视听数据融合技术。 说到情感识别的途径,将两种最先进的分类算法应用于一个音频和三个视觉特征数据集.应用特征级数据融合技术构建了多个特征级数据融合系统。 DAL情绪分类系统与单峰系统相比,情感分类准确率提高了4%。应用ALG实现的类精度基于单峰和多模数据集的算法有助于揭示不同的数据分类器组合,能够很好地识别特定的情感。这些数据分类器组合是在决策级采用了多种方法,与特征级融合相比,仍然提高了3%的准确率。
一、介绍说明
图像分类是一项复杂的机器学习任务,已经被许多学者所研究。在这一领域中有许多问题正在解决,并有许多实际应用。其中之一的应用是人类情感识别的问题。
本文主要研究视听数据融合的思想,以提高情感识别率。首先,从音频流中提取音频特征,并提取视频特征。 从视频帧序列中提取RES。提取后的音频和视频特征数据集通过应用PCA进行降维过程。简化的数据集用于构建。采用两种最先进的分类算法的单峰情感识别系统:一种用序贯最小优化算法训练的支持向量分类器和一种前馈神经网络:乌拉尔网络。
本工作的核心思想是对音频和视觉单峰系统的分类率进行评估和比较,并利用其中最有效的方法进行特征级数据融合,以达到以下目的: 确定这是否有助于提高情绪识别率。
此外,还对情绪类的准确性进行了更详细的研究,以确定哪一种数据-算法组合在预测每个情感类方面做得更好。
这项工作的另一个方面是决策级融合的数据-算法组合,是预测每个情绪类的最佳组合。这种系统的融合,在识别方面做得很好,不同的情绪类别可能会导致更高的整体情绪分类率。
采用了几种视频特征提取算法:量化的局部Zernike矩阵(QLZM)、局部二值模式(LBP)和三个正交平面上的局部二值模式(LBP-top)。QLZM和LBP-T OP是一种最先进的图像和视频特征提取算法,旨在掌握解决人脸识别、性别识别等问题所需的所有主要特征: 人脸识别,年龄识别,情感识别。LBP算法是一种经典的图像识别和模式分类算法,在图像识别和模式分类领域得到了广泛的应用。这个算法相当简便, 在图像识别任务中提供了良好的基线精度估计。
本文件的其余部分安排如下:第2节第3节介绍了重要的相关工作,并对方法作了说明,
包括特征提取、降维和分类步骤。在第4节中给出了在本工作中使用的视听数据库的描述,而第5节则是处理实验数据与结果分析。 最后通过实验建立了ALS系统,并取得了良好的效果。结论意见和今后工作计划见第6节。
二、重大相关工作
Rashid等人于2012年撰写的论文探讨了人类情感识别的问题,并提出了将音像特征结合起来的解决方案。 首先,音频流从视频流中分离出来,将特征检测和三维贴片提取应用于视频流中,应用主成分分析降低了视频特征的维数。来自音频流、韵律和MEL -频率倒谱系数(MFCC)的提取。在特征提取之后,利用欧几里得的K均值算法,构造了音频和视频模式的独立码本。最后,将多类支持向量机(SVM)分类器应用于音视频数据,并采用Bayes和规则进行决策级数据融合。通过建立分类 IIR对音频特征的平均接收准确率为67.39%,利用视频特征给出了74.15%的准确度,同时结合音频和视觉特征对决策水平进行了改进。 准确率为80.27%。
Kahou等人于2013年描述了他们在“野生挑战”中提交2013年情感识别的方法。包括多个深层神经网络组合方法 Eep卷积神经网络(CNNs)用于分析视频帧中的面部表情,深信念网(DBN)用于捕获音频信息,深层自动编码器(Depauto编码器)用于建模时空信息。 N是由人的行为产生的,而浅层次的网络体系结构则侧重于提取出场景中主要的人类主体嘴的特征。作者使用了多伦多脸数据集c 保存了4,178张标有基本情绪的图像,只有完全正面的姿势,以及从Google图像搜索中获得的数据集,该数据集由35,887幅图像和7种表情组成 。所有图像被转换为48x48大小的灰度。使用了几种决策级数据集成技术:平均预测、支持向量机和多层感知器(MLP)、聚合技术、以及对加权模型的随机搜索。他们在竞赛测试集上取得的最佳准确率为41.03%。
克鲁兹等人的于2012年的作品当中采用了特征变化建模的概念,而不是简单的组合。首先,从原始图像中提取人脸, 在每个ntimes;n局部区域提取ND局部相位量化(LPQ)直方图。将直方图连在一起形成特征向量。特征的导数由两种方法计算: 卷积与高斯滤波器的差异和特征直方图的差异。训练线性支持向量机输出后验概率。 马尔可夫模型该方法在2011年音频/视觉情感挑战数据集上进行了测试,该数据集由13种不同个体的63段视频组成,其中的正面人脸视频是在访谈中主体参与对话所获取的。作者声称他们将数据的分类率提高了13%。
在SulyMaI等人于2012年的实验当中,作者利用脑电图、瞳孔反应和注视距离来将受试者的觉醒分类为平静、中等唤起或行为。 不愉快的,中立的或愉快的该数据由20个视频片段组成,其中包含了电影中的情感内容。得到的价态分类准确率为68.5%,a组分类准确率为76.4%。
Busso等人于2004年研究了声音和面部表情信息融合的思想。他们使用了一位女演员的数据库,记录了258句表达情绪的句子。九月,建立了基于声学数据和面部表情的分类器,分类准确率分别为70.9%和85%。面部表情特征包括5个区域:额头,眉毛, 低垂的眼睛,左右脸颊。作者介绍了两种数据融合方法:决策级和特征级集成。在特征层次上,将音频和面部表情特征结合起来。 建立一个分类器,给出90%的精度。在决策层面上,使用了一些标准来组合单峰系统的后验概率:最大情感与最大的POST 在这两种模式中选择rior概率;平均-每个模式的后验概率均为加权,并选择最大值;乘积后验概率被乘以。 并选取了最大权值,对不同的单峰系统施加了不同的权值。决策级集成双峰分类器范围的准确性从84%到89%,产品组合是最有效的。
三、实验方法
3.1特征提取与降维
第一步是从原始视听数据中提取音频和视觉特征。使用OpenSLY-音频和视觉特征提取的开源软件提取音频特征(EyBE-ET) 视频特征使用3种不同的算法提取:
量化的局部泽尼克矩(QLZM)(SARYANYIDI等,2013);
局部二进制模式(LBP);
三个正交平面(LBP-top)上的局部二元模式。
QLZM算法和LBP算法从视频序列中的每一个视频帧中提取特征,而LBP-top算法处理包含多个连续帧的时空空间。 f这类帧是LBP-顶参数,可以更改。使用原始分辨率的图像作为qlzm算法的输入,而对于lbp和lbp顶部的视频帧图像则调整了f的大小。 ROM 1280:1024分辨率达到200像素宽,节省了宽度与高度的比例.对于LBP算法,采用了以下参数:均匀映射类型,8个采样点,半径-1 。LBP-顶参数:沿X,Y和T轴的半径-(1;1;1),XY,XT和YT平面上的取样点数-(8;8;8)。
通过对整个音频/视频序列的平均处理,构造出一个音频/视频记录的特征向量。
对所有数据进行归一化处理,并将PCA应用于数据集中进行降维。用Kaiser规则截断主成分数:主成分 H值小于或等于1被从模型中删除,其中h指数据集协方差矩阵特征值。
表1描述了提取的音频和视频样本。
3.2医学分级
所得到的音频和视觉特征的单峰集被用作2种分类算法的输入:一种用序列最小优化算法(W-SM)训练的支持向量分类器。 (Platt,1998年),和前馈神经网络。采用RapidMiner和R语言实现算法。将分类算法应用于音频和各种视频数据集中。 单峰系统的情感分类精度。同时,对每一种数据-算法组合确定情感类的准确性。最有希望的分类数据集将离子精度组合成一个单一的数据集,即进行特征级数据融合。同时,通过合并所有可用的数据集,构建了视听数据集。
一些数据-算法组合在不同的情感类上显示出更好的分类精度。这些数据-算法组合输出通过应用几个tec在决策级别进行融合:
投票-在基础学习者中得票最多的班级被选中;
平均类概率-基本学习者的类概率输出被平均;
最大类概率-在所有基础学习者中选择最大类概率;
Data |
# of attributes |
# of attributes (PCA) |
# of cases |
Audio |
984 |
131 |
480 |
QLZM |
656 |
36 |
480 |
LBP |
59 |
4 |
480 |
LBP-TOP |
177 |
10 |
480 |
Audio LBP-TOP |
- |
140 |
480 |
Audio-visual (Audio QLZM LBP LBP-TOP) |
- |
180 |
480 |
表1:音频、视频和组合数据集描述,属性(PCA)-降维后的属性数,QLZM-量化的局部Zernike矩,LBP-局部二进制模式,在三个正交平面上的LBP顶部局部二进制模式,每一个音频/视频文件的一个特征向量。
120
60
0
Anger
Disgust
Fear Happiness Neutral Sadness Surprise
图1:数据库的情感类的分布。
SVM元分类器-一个额外的SVM元学习者被训练,基本学习者的类概率输出作为输入变量,真正的类标签作为输出变量。基本Lea 远程培训和元学习者培训是在培训集的不相交部分进行的。
四、数据库描述
这项工作使用Savee数据库(Haq等人,2009年)作为数据源。该数据库包括4名男性发言人的视听信息,他们正在阅读一组预定义的短语,其中包含7个主要的情感、动作:愤怒,厌恶,恐惧,快乐,中立,悲伤和惊讶。音像制品的总数量是480。该数据库包括音频数据、视听剪辑和一组拆分。图1示出数据库情感类分布。可以观察到,除了中立状态之外,所有情感的视频文件数量都是相同的。小数据集大小和实际情况中,在数据集中只有男性发言者是一个缺点,这意味着在未来的工作中,本出版物中所呈现的结果应该在更大的数据集上尝试。
五、实验设置和结果
采用两种分类算法来解决情感分类问题:W-SMO和神经网络,采用了独立的说话人分类方案,这就意味着在t上的数据是独立的。 演讲者被用作培训数据集,其余发言者的数据被用作在四种不同的数据集、训练、测试分割(4倍交叉验证)上,对分类精度进行了平均。神经网络参数:#隐层-2,#神经元 隐藏层
(#属性#)/21,培训周期
200,学习率-0.3。W-SMO参数:复杂度常数C=1,归一化开,公差参数L=0.001,对支持向量机输出的拟合Logistic模型为零,采用多项式核。
实验结果见表2。从表2中可以看出,音频和LBP顶部特征在这两种算法上都具有更好的分类精度。这可以用事实来解释 T音频和LBP顶级功能比QLZM和LBP更能掌握人类情感的信息。结合音频和LBP-顶部特征有助于提高分类准确率高达40.78%。
表4显示了不同数据算法组合的类精度。可以观察到,除了悲伤之外,所有的情绪都可以通过使用单峰和多模数据集很好地识别出来。通过在LBP-顶层数据集上应用W-SMO算法,GER得到最好的识别,通过在组合的视听数据集上应用神经网络来更好地识别幸福。
表3显示了将决策级融合技术应用于在不同情感类上获得最佳精度的数据-算法组合上的分类精度。基本学习者的G类概率输出使分类率提高到43.48%,比采用特征级融合的分类精度提高了近3%。
在表4的底部,给出了
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22847],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。