移动设备上即时通信的文本驱动对话头像界面外文翻译资料

 2022-12-03 11:28:02

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


人机系统IEEE事务 43(2013)5-3

移动设备上即时通信的文本驱动对话头像界面

摘要

在这篇文章中,我们调查了使用会话头像作为一种手段来改善移动设备的即时通信的用户体验。我们描述了一个界面的设计和实现,这个界面是由聊天参与者之间交换的文本信息驱动的。在现有的移动设备的有限计算能力是可以承受我们的设计的。我们通过用户研究来评估用户的接受度和反应,将其与更传统的IM界面进行比较,并为移动应用程序的对话虚拟界面的有效设计提供建议。

关键词:情感界面,会话头像,移动设备,短信,用户体验,用户建模

  1. 介绍

可以说,移动电话是目前最重要的通信工具之一。在这种情况下,即时通信(IM)在最突出的移动电话应用程序中脱颖而出。根据2012年全球移动统计数据,Facebook Messenger、WhatsApp、微信、Line、Kiko和黑莓Messenger等应用程序每年都要发送约1亿条消息。(http://mobithinking.com/mobile-marketing-tools/latest-mobile-stats)

尽管即时通信已经被广泛和成功地采用了,但是它的传统文本格式缺少对有效沟通所需要的许多非语言暗示的支持。面对面的交流,面部表情,声音韵律,手势都是至关重要的元素来传递有意义的信息和建立上下文的沟通[1]。

为了达到这个效果,对话式的虚拟界面可以成为一种替代并有效的方式来满足手机中非语言表达的需求。著名的应用,如视频会议(Skype, iOS FaceTime,探戈),有可能满足同样的需求。然而,在某些情况下,高度逼真的头像比视频聊天更可取。例如,如果参与者想要影响其他参与者通过改变图像来感知他/她[2](如项目参与者生病了并想表现是健康的),或参与者希望保持匿名,然后头像将更为可取。在娱乐方面,会话型虚拟人物也比视频会议更有优势,因为用户可以很容易地改变他们的功能(例如:发型和颜色、珠宝、肤色,雀斑)与自我形象他们希望项目[3]。用户体验[5]中利用高现实主义头像能有效沟通[4],而利用象征性头像能提高表现力和可享用性。现实的三维头像可以是一个有吸引力的选择,因为他们审美和行为之间的妥协现实主义(如高保真的表示:视频会议)和语义和情感的灵活性(如抽象表示:二维头像/漫画)。

在这篇文章中,我们研究了一些新颖的方法来提高用户在移动设备上的体验,通过使用现实的对话头像来提高移动设备的用户体验。我们的目标是用高水平的美学和行为现实主义来给这些头像留下印记。我们描述了一个手机即时通讯软件的设计和实现,它的特点是一个生动的对话式3d头像界面。在聊天参与者之间交换的文本信息推动了虚拟人物的动作,这些信息展示了逼真的假面表情,以及头部和凝视的动作。我们采用eFASE框架为嘴唇同步动画合成[6]。我们所描述的框架在目前的移动设备提供的有限的计算能力下是可以承受的。我们通过用户研究比较传统的即时通讯接口,来评估对话的虚拟界面系统,并对用户的接受度和反应进行调查。从我们开发应用程序的经验以及我们的用户研究中的教训,我们提供我们认为有用的建议和指导,使得在移动设备上多功能现实对话头像应用程序接口能有效地设计。

  1. 相关工作

在虚拟环境[7],他们的控制[8],和他们的个性化[3]都已经被广泛地研究过后。网络聊天空间,象征性的二维头像被史密斯等人用于社会交往[5]。他们报告说,用户需要复杂操作的控制功能往往会随着时间的推移而下降。根据这个建议,我们选择完全由文本驱动的头像控制,因为它只需要用户很少的努力。即时通信中低现实主义象征性的头像,和相关的应用程序,作为媒介来提高用户体验,对非言语交际线索的表达,也被广泛的研究。用户验收和情感纽带对手机应用程序进行象征性的头像[9]和[10]。象征性的系统连接动画二维头像和将它们附加到消息中描述[11]。使用高度现实交往的头像仍然是一个活跃的研究领域[4],[12]。我们钻研设计决策铭记的高现实对话头像在之前报道的证据表明,更高的审美和行为现实主义利用接触,并导致更高意义上的“社会共处”[4],[12]。即现实表示帮助参与者感觉目前通信发生在一个共享空间,并增加他们获得彼此的想法和意图,使电脑提高沟通的有效性。

  1. 文本驱动头像界面

提议的虚拟头像界面在用户的最高忠诚度表现(例如:视频聊天)和低现实主义/象征性的头像之间。它能够自动创造出具有高度逼真的唇同步动画和语言的动画,以及从交换的信息中获得头部动作和眼睛凝视等非语言线索。图1显示了我们的文本驱动的头像消息传递系统的体系结构概述。整个过程开始于用户的文本输入。所有的输入文本中的词被送入一个模块的语音合成(TTS)产生一个音素序列与时间信息,和相应的音轨的演讲。然后,将音素序列输入一个模块,用于假唱的面部动画合成。这个模块使用了脸部、头部和凝视运动的动作捕捉数据。面部运动数据库拥有面部标记帧的序列(即:标记位置),对应于每一个可能的音素的话语。头部和凝视运动的数据库包含旋转角度、旋转角度和头部和眼睛的偏航角。动画合成通过连接和平滑动作捕捉数据,以及头部和凝视运动的旋转角度,产生一系列的帧序列。标记位置在新序列作为控制点来驱动人脸模型的变形动画,和旋转角度是用来改变模型的头部和眼睛。然后在设备屏幕上以同步的方式显示和显示动画帧,并与音轨一起显示。图2显示了我们的IM客户端图形用户界面的屏幕截图。

图1.语义解释的架构设计的头像聊天应用程序/接口

图2.头像消息传递接口的截图。(左)传统界面。(右)头像对话界面

  1. 嘴唇同步面部动画合成

我们采用eFASE框架为嘴唇同步动画合成[13]。eFASE技术是数据驱动技术,利用面部动作捕捉数据来选择一个最优的运动序列节点代表观察到的面部运动由一个给定的音素序列的话语(算法细节请参考[6]和[13])。运动节点是面部标记帧的一部分,在我们的例子中,它代表一个音素的面部动作。eFASE框架是基于动态编程算法,它可以最小化一个支持合成自然和平滑面部动画的惩罚功能。

我们调整eFASE框架来应对移动设备的设备限制,以及由IM应用程序所暗示的响应性约束,通过集群化和减少使用的面部动作数据集。此外,我们采用线性壳面网格变形算法[14]。为了使头部和眼睛在我们的头像上动起来,我们也使用了动作捕捉数据。除了面部动画之外,还可以选择头部和眼球运动来让我们的头像移动他们的头部和眼睛。从数据集中选择旋转角度的顺序,仅基于对面部运动的相应帧序列的长度。我们随机选择数据集内的一个序列,将其一直播放到一半的人脸序列,然后再重复。在每一个话语中,我们的头像的头在完成动作后,以静止的姿势开始和结束。眼球运动是用相似的方式创造的。虽然这个动作与头像的演讲没有直接的关联,但动作捕捉数据的使用却使被选中的头部和凝视运动的真实性得到了加强。

  1. 在移动设备上实现

我们的应用程序是针对Nexus One Android手机的。我们的大部分程序都是在Java中使用Google Android SDK实现的。Flite库,用C编写的,用于TTS合成,我们eFASE实现是用c 写性能的原因。创建Java本地接口(JNI)通过使用Android NDK的图书馆,为了从Java应用程序使用。Flite库,我们有一个通用的女性和一个通用的男性声音与中性为英语韵律基调。聊天客户端通过套接字建立一个TCP连接,并且来自其他客户端的IP地址被从一个日志服务器接收。使用Android SDK支持OpenGL ES的模型渲染。在GLSL中写了一个小的漫射光着色器,用于渲染模型。模型几何存储在顶点缓冲对象中,每一个动画帧都被离线呈现给OpenGL渲染缓冲区对象,然后重新显示以满足动画同步和计时需求。它展示一个小延迟3秒左右的平均25个音素组成的句子。

将eFASE与移动平台相适应的主要技术挑战与它的性能有关。合成算法具有O(N 2 T)时间复杂度,其中N是在运动捕捉数据库中,节点的数目和T的长度(音素)输入文本。由于IM可以在同步和异步模式中进行,所以我们希望我们的框架能够同时处理这两种情况。我们加快动画合成为了符合的响应时间约束通过减少运动捕捉数据库同步消息传递。我们将数据库内的所有动作节点规范化,以相同的帧长度和通过k-均值对数据库进行集群。在合成速度和结果动画的质量之间有一个权衡。动画的质量与数据库所覆盖的脸部运动空间的大小成比例。我们减少数据库10%的原始大小的移动节点(减少数据库包含1076运动节点),确保至少一个移动节点对应于每一个音素。尽管原始数据库包含音素发出的样品使用不同的情绪,减少数据库不提供足够的覆盖率的面部表情空间合成高质量的面部表情动作。在这封信中包含情绪的另一个问题是TTS综合情感,这实际上是一个在语音合成中正在进行的研究问题。Flite库中的语音数据库和其他现有的TTS系统通常不支持这一特性。对于网格的变形和网格的变形,网格的分辨率也必须进行调整。高分辨率的网格在设备上的渲染速度太慢,合成时间也很慢。对网格的采样不足解决了这个问题,但代价是降低了网格的变形质量。在我们的数据库中需要建立网格顶点和控制标记点之间的对应关系,它们应该紧密地对应以获得更好的结果。这需要对网格进行仔细的编辑,这可能会耗费大量时间。

  1. 用户研究设计

我们调查用户对我们的虚拟头像界面的接受和反应,从潜在用户获得关于期望和不受欢迎的特性的信息,以及获得类似应用程序设计的良好指导。为此,我们招募了20名参与者。他们的年龄在18岁到35岁(平均:25.80;标准差:25.80),15个男性和5女性。我们的一些参与者以前认识彼此。我们所有的参与者都是普通用户的即时通讯,和报告的平均每周10.85小时花在消息传递活动。他们中的大多数都是一所大学(本科生和研究生)的学生,他们有着平衡的种族背景。每位参与者都要奖励星巴克10美元的礼品卡,以补偿他们在研究中所花的时间。

用户研究是在两周内进行的,由两组参与者组成。在第一次会议期间,在适当的光照条件下,拍摄参与者的正面、右侧和左侧的照片。然后,通过使用FaceGen软件,我们创建一个个性化的(即Individual specific)对于每一个参与者,拿着高相似性方面的实际参与者几何和纹理。这些模型使用拍摄的照片进行纹理的纹理,包括皮肤细节(如:正确的色调,雀斑,标志),面对珠宝,眼睛的颜色相同。然而,我们的模特不包括头发,牙齿,舌头,或者像眼镜这样的头部道具。在第一次会话之后,每个模型被设置为用于动画,包括手动建立模型顶点和动作捕捉数据集的面部标记位置之间的一对一对应关系。图2显示了一个构建的头像示例。

在第二个会话中,每一对的参与者被要求相互之间聊天的流逝12分钟。参与者坐在小孤立隔间提供隐私和减少会话双方的压力。此外,还提供了耳机,以避免参与者从自己发送的信息中合成语音。因此,在会话的聊天部分中,参与者不能看到对方,也不能听到对方的声音。为了忠实地像一个真实的IM通信,参与者被告知要有定期的谈话时,他们通常会做使用即时通讯,而不是让他们为了实现某一目标或在一个人工任务中发挥作用。在研究之前,参与者要解释应用程序的功能。两个Nexus One HTC手机在聊天会话中使用。Nexus One手机功能多点触控电容屏,3.7英寸(94毫米)对角线长度和分辨率为480times;800像素。

在我们的用户研究中有两种不同的方式收集数据:1)参与者被要求回答一个5-scale Likert-type问卷调查,2)短期面试是获得用户的反馈和自由进行评论。我们问卷调查的目的是捕获参与者的印象在头像的消息传递接口的可用性,以及获得可享用性的偏好对每个消息传递模式和接口特性的感知。

A.即时通讯方式

IM客户机具有两种不同的消息传递模式。消息传递模式的屏幕截图显示在图2中。聊天模式的选择在我们的实验中,考虑到以下两个标准:1)实现的难度和2)表达式它允许的水平。每种模式的目标是评估价值的考虑到可享用性模式与实施成本。

  1. 图片和TTS模式(PS)显示一个静态图片的其他终端用户(即聊天伙伴)和合成语言音轨为每个消息被收到。消息历史被显示出来,使用减色的蓝色发送消息和衰减的红色接收消息。这种模式可以通过用户和TTS的照片来实现非语言表达。使用TTS在这个层次上表达情感,需要为每个激活的表达式创建音素数据库,这在现实中是困难的。在我们的实现中,我们只使用中立的表达式。
  2. 个性化的头像(PA)显示一个三维动画头像。虚拟头像是根据聊天参与者的正面和侧面的图片来进行建模和纹理的。当收到的每一条信息都被接收时,虚拟头像的假动作就会发出消息的内容,并与TTS合成的语音一起播放。该模式要求为每个用户创建一个3-d PA模型,就像之前描述的那样。设置PA模型可以用半自动化的方式执行。
  3. 用户研究结果分析
  4. 头像消息传递接口

参与者被要求评价规模从1到5(5表示“强烈同意”和1表示“强烈反对”)在他们的协议条款与下列语句。

感知的现实主义

1)模型:我认为我的聊天伙伴的脸模型看起来很现实。

2)动画:我认为头像的动画看起来自然。

3)头:我注意到头像的接口上的头部运动。

参与度

1)参与:在使用PA接口时,我感觉更像是参与对话,而不是PS界面。

2)同理心:我觉得更同情我的聊天伙伴在使用比PS PA接口。

3)分散:我觉得动画头像太让人分心了谈话的内容。

可用性

1)每天: 如果有的话,我将使用文本驱动的虚拟头像聊天应用来进行日常聊天

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25500],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。