一、引言
情感计算用来研究和开发具有认知、解释和模拟人类情感的系统和设备,是计算机科学、心理学和认知科学的交叉学科。情感计算的起源可追溯到早期对情感的哲学探讨,现在更多的是做为计算机科学人工智能的分支,最早由1995年的论文《affective
computing》提出。情感计算研究的一个动机是得到模拟同理心的能力,机器能解释并根据人类的情感状态来调整行为并能做出适当的反应来应对各种情绪[1]。对智能体的情感有两个研究方向,首先,他必须能预测别人的行为,通过理解他们的动作和情感状态(这涉及到博弈论、决策论以及人类情感建模和情感检测技术)。其次,对于好的人机交互,一个智能体需要表现出情感。至少它必须显得礼貌且对跟它互的人表现出情感。最好的是它拥有自主的情感[2]。
二、情感计算的两个研究领域
1.
检测和认知情感信息
检测情感信息从收集使用者的身体状态和行为的数据开始,这些数据用传感器收集且没有经过解释处理。这些采集人类感知他人情感所表现出来的信号的数据是相似的。例如,一个摄像机能记录面部表情,身体姿势和手势,同样一个麦克风能记录谈话。其他的传感器检测情感信号通过直接测量生理数据,如皮肤温度和电阻力。认知情感信息需要从采集的数据中提取有意义的样式。它需要使用机器学习技术来处理不同的谈话认知、自然语言处理形态或面部表情检测,对每一个产生一个标签(如“困惑”)[1]。
2. 机器情感
另一个情感计算的领域是设计有情感计算能力的设备,该设备能展示出天生的情感能力或由模拟情感的能力。一个更实际的方式,基于现在的工艺水平,是模拟谈话智能体的情感,以便丰富和便利人类和机器的交互。人类情感经常伴随荷尔蒙和神经肽水平的高涨,机器的情感在一个自治学习系统里可能要与抽象状态相关,如进度(或缺乏进度)[1]。
三、基于情感计算的技术
1.
富有情感的讲话方式
神经系统不自主的变化会改变讲话方式,我们可以利用这个信息通过提取谈话特征来制造有认知能力的系统。例如,在一种害怕、愤怒或高兴的状态下谈话会变得更快,更大声,发音更准确清晰。其他的情绪如疲倦、厌烦或悲伤,会导致谈话速度慢,音调低和发音含糊。富有情感的谈话通过分析谈话模式会认知使用者的情绪状态。通过模式识别分析发音和节奏的情况如音调变化和谈话速率[1]。
谈话认知是一个识别情感状态的好办法,研究报告表明平均成功率为63%[3],在人类识别情感的成功率方面这个结果是令人满意的。但与其他形式的情感识别比较还有一点不足(如那些利用生理状态或面部处理)。此外很多的谈话的特征是与语义和文化相关的。
a.
算法
谈话情绪波动检测的处理依赖于创建可靠的数据库——一个足够丰富的数据库来满足应用的需求,拥有快又准的情绪认定的选择分类能力。目前用得最多的分类器是线性判别分类器(LDC)[4],高斯混合模型(GMM)[5]等。很多研究表明选择合适的分类器能显著的提高系统的总体表现。
b.
数据库
现行的主要系统是依赖数据的(data-dependent),这是检测谈话情绪的最大挑战之一,因为它牵涉到选择一个合适的数据库用来训练分类器。大部分已经部署的数据是从部署者得到的因此表现出部署者的情绪。那些所谓演示的数据库通常基于基本情绪理论,该理论假设存在六种基本的情绪(愤怒,害怕,方案,惊喜,高兴,悲伤),其他仅仅是前面的混合。尽管如此,这些仍然提供高音质和稳定的分类,使得认知情感成功率提高。
然而,在实质生活应用中,自然的数据是首选的。一个自然的数据库是由观察和在自然环境下分析产生的。这种类型的数据的特性允许在真正的现实生活实施,因为它描述了在人机交互过程中自然发生的状态。
尽管自然地数据有诸多的好处,但它很难获得,且获得的数据中情绪方面的数据比率少。再者,在自然情况下得到的数据有较低的信号质量,因为周边麦克风环境噪音和被试者的距离[1]。
c.
谈话特征描述符
情感认知处理难度随着情感种类和在分类器里谈话描述符的增加而增加,它对选择最相关特征来确认模型成功识别情绪的能力是致命的。可能的选择范围太大了,有研究指出超过200个截然不同的特征。这对最优化的识别系统和提高正确情绪检测成功率是不利的。最常用的谈话特性如下[6]:
l
频率特性:口音情况,平均音调,频率变化线,最低频率,音调范围。
l
时间相关特性:谈话速度,重音频率。
l
声音特点参数和精力描述:气息,宏亮度,响度。
2.
面部情感检测
面部表情检测和处理可以通过多种方法如光流动,Markov统计模型,神经网络处理等来完成。多种模型可联合来判断测试者情绪状态。
a.
情绪分类
60年代末Paul
Ekman通过在巴布亚新几内亚的跨种族研究提出面部表情跟文化无关,是统一的,因此它们能正确的归类,90年代,Paul Ekman提出如下基本情绪[7]:
l
惊喜
l
轻视
l
满足
l
尴尬
l
兴奋
l
内疚
l
骄傲
l
宽慰
l
满意
l
快乐
l
害羞
b.
面部动作编码系统
通过肌肉动作定义表情,构建正式分类自然情绪表情的系统。1978年Paul Ekman和Wallace V.Friesen构建的面部表情系统(FACS)[8]的核心概念是动作单元(Action
Units),它们收缩或松弛一个或多个肌肉。为识别不同的面部信息,科学家他们跟动作单元(Action
Units)代码一一对应。因此,他们根据动作单元(Action Units)提出下面基本情绪分类(“+”表示“和”):
情绪Action Units
惊喜1+2+5B+26
悲伤1+4+15
快乐6+12
害怕1+2+4+5+20+26
反感9+15+16
轻视R12A+R14A
愤怒4+5+7+23
c.
面部检测遇到的挑战
众所周知,面部识别精度不能达到普遍使用的程度(经过很多尝试,特别是法律方面不能成功识别罪犯[9])。扫描脸部的硬件没有和软件没有提高精度,进展非常缓慢。其他的挑战包括:部署的表情大部分是进行各种测试而部署的,不是100%自然的,精准度不高;缺乏旋转运动自由度,情绪检测正面的时候运行的很好,但是头部旋转超过20度就会出问题[10]。
3.
身体姿势检测
姿势能为检测一个特别的情绪状态提供高效的方法,特别在谈话和面部识别混合系统中。依赖详细的动作,姿势对应的身体反应容易对应,就像你不知道回答一个问题你会耸肩,或用手语交流时也是有意义的。不需使用任何物体或依赖于环境,我们的手能挥动、击掌和招手。另一方面,使用物体时,我们能对着它们,移动它、接触和操作它们。电脑应该能识别这些,分析这些情况并能正确的响应。
有很多方法被提议来检测身体姿势。有些身体姿势识别的方法在文字上就能区别开来:基于3D模型和基于外表模型[11]。最著名的方式是使用身体部位的关键元素的3D信息来得到一些重要参数,像手掌位置或连接处位置。另一方面,基于外表的系统使用图像和视频来直接解释。手势一直是身体姿势检测普遍关注的,外表和3D模型的方法一直都有使用[1]。
4.
生理监测
通过观察和分析生理信号能检测测试者的情绪状态。这些信号范围从脉搏和心跳速率到面部肌肉的收缩分钟数。这个领域发展势头良好,而且可以看到真正的产品实施。三个主要能被分析的生理信号如下[1]:
a.
血容量脉冲
b.
面部肌电图
c.
皮电反应
5.
审美
判断美丽与否和美的质量是一个高度主观的任务。宾夕法尼亚大学的计算机科学家把这个挑战做为机器学习的一个问题来对待,他们让系统自动推理图片美的质量通过一个在线图片网站做为数据源。它们基于直觉提取特定视觉元素来判断美学上令人愉悦和不愉悦的图像[1]。
四、应用实例
1.
穿戴式电脑
在很多应用场合,用户的皮肤,手,声音,眼睛,手臂同运动和注意力一样和所处的环境有密切关系。穿戴式电脑的研发初衷就是检测人体在不同环境下相关的参数。已经实施的有:行为模型系统,健康护理检测系统[12]。
2.
人机交互
人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。目前的应用有:
l
扩展实境(augmented reality)
指的是指把虚拟信息添加到使用者感官知觉上,致使使用者所感知的世界为真实世界物体与虚拟物体所组合而成的技术。如微软Xbox360 Kinect体感系统[13]。
3.
机器人
Kismet由MIT Cynthia Breazeal博士在90年代末制作出来,它的听觉、视觉和表达系统让它能参与人类社交和显示出模拟的人类情感和行为。它的软件系统包括下面六个子系统[14]:
l
底层物理抽象系统
l
专注系统
l
高层感知系统
l
运动系统
l
行为系统
l
动力系统
五、总结
目前情感计算研究面临的挑战还很多,例如,情感信息的获取与建模问题,情感识别与理解问题,情感表达问题,以及自然和谐的人性化和智能化的人机交互的实现问题。显然,为解决上述问题,我们需要知道人是如何感知环境的,人会产生什么样的情感和意图,人如何作出恰当的反应。而人类的情感交流是个非常复杂的过程,不仅受时间、地点、环境、人物对象和经历的影响,而且有表情、语言、动作或身体的接触。情感计算研究的发展在很大程度上依赖于心理科学和认知科学对人的智能和情感研究取得新进展[15]。麻省理工一直是该领域的活跃团体,他们团队成员有各种专业背景的人组成如哲学,心理学,生理学,人类学等。他们提出以后的研究方向:开发新的机器学习算法和可穿戴传感器来重建情感认知模型,加入机器自我意识,自主选择交流方式和加入伦理道德的问题[16]。
参考文献
[3]
Hudlicka, Eva: To feel or not to feel: The role of affect in
human-computer interaction In: International Journal of
Human-Computer Studies, Vol. 59 , Nr. 1-2 (2003), S. 1-32. p. 24.
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.180.6429&rep=rep1&type=pdf
[6] Steidl, Stefan.
[7] Ekman, Paul (1999). "Basic
Emotions"
[8] Facial Action Coding System (FACS) and the
FACS Manual
[10] Williams, Mark. “Better
Face-Recognition Software – Technology Review.”
[11] Vladimir I. Pavlovic,
Rajeev Sharma, Thomas S. Huang, Visual Interpretation of Hand
Gestures
for Human-Computer Interaction; A Review, IEEE Transactions on
Pattern Analysis
and Machine Intelligence, 1997
[13] Human–computer
interaction
[16] Affective Computing Research Group at the MIT
Media Laboratory