情绪分析在数字世界中被广泛应用,用于评估消费者对产品或品牌的情绪。然而,在线下环境中,用户与品牌和产品进行互动的场所(如零售店、展示厅)仍然面临着自动测量用户反应的挑战。使用人工智能进行面部表情情绪检测可以成为衡量消费者对内容和品牌参与度的可行替代方案。 ParallelDots结合了心理学、人类表情和人工智能,开发出一种能够自动识别个人脸上不同情绪的面部情绪检测算法。该算法能够实时识别七种不同类型的情绪状态。
当前情感识别市场预计在未来五年内将呈指数级增长,从2020年的195亿美元增长到2026年的371亿美元。其他消息来源称,可能会达到850亿美元的更高数字。这些估计表明,情感识别市场正在不断增长。尽管当前的情绪识别技术存在一些明显和隐藏的缺陷,但业务需求依然存在。
AI情绪检测器是一种利用人工智能从各种数据源(如面部表情、声音、肢体语言、文本或生理信号)检测和解释人类情绪的系统。它为各个行业和应用提供有价值的见解和反馈,例如营销、医疗保健、教育、娱乐、安全等。
想象一下,如果您能够读懂周围人的想法和内心。如果您只需观察他们的脸、听他们的声音或阅读他们的文字就能了解他们的感受、想法和需求,那会有怎样的结果?这将如何改变您的个人和职业关系、您的决策以及您的幸福感?
现在,您无需再想象了。借助人工智能(AI),您可以访问一个强大的系统,该系统可以从各种数据源检测和解释人类情绪。这个系统被称为人工智能情绪检测器,它正在彻底改变我们对自己和他人的理解,以及与他人互动的方式。
世界各地的汽车制造商越来越注重让汽车变得更加个性化和安全。在追求打造更多智能汽车功能的过程中,制造商使用人工智能来帮助他们理解人类情感是有意义的。使用面部情绪检测智能汽车可以在驾驶员感到困倦时发出警报。
根据中国交通安全年报数据,大约 20%~30% 的致命道路事故是由疲劳驾驶造成的。面部情绪检测可以发现困倦之前面部微表情的微妙变化,并向驾驶员发送个性化警报,要求他停下来喝杯咖啡,改变音乐或温度。
候选人与面试官的互动很容易受到多种判断和主观性的影响。这种主观性使得很难确定候选人的性格是否适合该工作。由于语言解释、认知偏见和介于两者之间的上下文的多层,识别候选人想要说的内容是我们无法掌控的。这就是人工智能的用武之地,它可以测量候选人的面部表情,捕捉他们的情绪,并进一步评估他们的性格特征。
值得注意的是,已经有企业开始将这项技术纳入他们的招聘流程。借助这项技术,招聘人员将能够了解面试者的整体信心水平,并决定该候选人是否能够在面向客户的工作中表现出色。同样,通过测量候选人回答过程中的情绪变化并将其与该领域的大量可用知识相关联,可以发现候选人是否诚实地回答了所有问题。
使用这项技术,还可以通过保持和记录工作中的互动来了解员工的士气。作为一种人力资源工具,它不仅可以帮助制定招聘策略,还可以帮助设计可实现员工最佳绩效的人力资源政策。
视频游戏的设计考虑到了特定的目标受众。每个视频游戏都旨在唤起用户的特定行为和情绪。在测试阶段,用户被要求在给定的时间内玩游戏,他们的反馈将被纳入最终产品的制作中。使用面部情绪检测可以帮助了解用户在玩游戏时实时经历的情绪,而无需手动分析整个视频。
可以通过分析用户的实时反馈并检测他的面部情绪来获取此类产品反馈。虽然在高级视频游戏中通常会经历沮丧和愤怒的感觉,但利用面部情绪检测将有助于了解在游戏中的哪些时刻会经历哪些情绪。也有可能在游戏过程中观察到一些意想不到的或不良的情绪。从体验过游戏的用户那里获取反馈可能效率很低。这是因为通常很难用语言表达经历。此外,用户可能无法记住他们在游戏的不同部分中到底经历了什么情绪。面部情绪检测是一种超越口头或书面反馈并了解用户体验的实用方法。当以这种格式获取反馈时,就用户体验而言,它变得真正非侵入性。同时,这种反馈比其他形式更可靠。
传统上,市场研究公司采用调查等口头方法来寻找消费者的需求。然而,此类方法假设消费者可以口头表达他们的偏好,并且所陈述的偏好对应于未来的行为,但可能并不总是正确的。
市场研究行业的另一种流行方法是采用行为方法来观察用户在与品牌或产品互动时的反应。此类方法被认为比口头方法更客观。行为方法使用用户与产品交互的视频源,然后手动分析这些视频以观察他们的反应和情绪。然而,随着样本量的增加,此类技术很快就会变得非常劳动密集。面部情绪识别可以帮助市场研究公司自动测量每时每刻的面部情绪表情(面部编码)并汇总结果。
利用技术检测情绪是一项具有挑战性的任务,但机器学习算法已显示出巨大的前景。使用 ParallelDots 的面部情绪检测 API,客户可以实时处理图像和视频,以监控视频源或自动进行视频分析,从而节省成本并改善用户的生活。该 API 采用即用即付模式定价,允许您在扩展之前测试该技术。
面部情绪检测只是视觉智能自动分析视频和图像的一部分。单击此处查看照片中的面部表情。
情感人工智能,也称为情感计算,是人工智能的一个快速发展的分支,它允许计算机分析和理解人类非语言信号,如面部表情、肢体语言、手势和语气,以评估他们的情绪状态。因此,视觉情感人工智能利用计算机视觉技术分析图像和视频中的面部外观,以分析个人的情绪状态。
情绪识别是机器试图通过面部特征分析来分析、解释和分类人类情绪的任务。
在所有高级视觉任务中,视觉情感分析(VEA)是针对低级像素和高级情感之间现有的情感差距最具挑战性的任务之一。尽管困难重重,视觉情感分析仍然很有前途,因为理解人类情感是迈向强大人工智能的关键一步。随着卷积神经网络(CNN)的快速发展,深度学习成为情感分析任务的新选择方法。
情绪识别是面部识别技术的自然发展。目前,情绪检测(或称为情绪检测)基于通用情绪理论,该理论具有六种“基本”情绪:恐惧、愤怒、快乐、悲伤、厌恶和惊讶。该理论由美国著名心理学家保罗·艾克曼提出、研究和辩护。
有些算法可能有第七种情感,比如微软的 Face API,算法中添加了蔑视。然而,从事人类心理学领域的研究人员有时认为这种传统方法是缺乏和不完整的。
基本上,情绪识别算法所做的就是根据一个人当时的面部表情来预测他们的情绪。这允许估计用户对某些内容、提供的产品、过程中的参与度等的反应(取决于情感识别算法的实施领域)。让我们更深入地了解此类算法的内部工作原理。
AI情绪检测器是利用人工智能从各种数据源中识别和理解人类情绪的过程。情绪是与生理变化、认知过程、行为表达和社会背景相关的主观心理状态。情绪可以分为两种主要类型:
基本情绪是普遍存在的(快乐、悲伤、愤怒、恐惧、惊讶、厌恶),通过面部或声音表达。
受经历和文化影响的复杂情绪包括通过肢体语言或言语表现出来的自豪、内疚、羞耻、嫉妒、感激、爱、恨。
AI 情绪检测器很重要,因为它可以通过使人机交互更加自然、真实和富有同理心来增强人机交互。通过了解人类在不同情况下的感受,人工智能系统可以提供更加个性化的服务、建议或反馈,并相应地调整他们的行为。
AI情绪检测器还可以通过测量和分析客户、员工、学生、患者或用户对不同产品、服务、内容或场景的情绪反应,为各个行业和领域提供有价值的见解。
从较高的层面来看,人工智能情感应用或视觉系统包括以下步骤:
步骤#1:从摄像机源(IP、CCTV、USB 摄像机)获取图像帧。
步骤#2:图像预处理(裁剪、调整大小、旋转、色彩校正)。
步骤#3:使用 CNN 模型提取重要特征
步骤#4:执行情绪分类 人工智能情感识别的基础基于三个连续步骤:
第一步,使用摄像机的视频来检测和定位人脸。边界框坐标用于实时指示准确的人脸位置。人脸检测任务仍然具有挑战性,并且不能保证在给定的输入图像中检测到所有人脸,特别是在具有挑战性的照明条件、不同头部姿势相距很远或遮挡的不受控制的环境中。
当检测到面部时,图像数据会在输入情感分类器之前进行优化。这一步大大提高了检测精度。图像预处理通常包括多个子步骤,以针对照明变化对图像进行归一化、减少噪声、执行图像平滑、图像旋转校正、图像调整大小和图像裁剪。
预处理后,从包含检测到的人脸的预处理数据中检索相关特征。有不同的方法可以检测多种面部特征。例如,动作单元 (AU)、面部标志的运动、面部标志之间的距离、梯度特征、面部纹理等等。一般来说,用于人工智能情感识别的分类器基于支持机器向量(SVM)或卷积神经网络(CNN)。最后,通过分配预定义的类别(标签)(例如“快乐”或“中性”),根据面部表情对识别出的人脸进行分类。
与任何其他人工智能项目一样,构建情感识别模型的过程从项目规划和数据收集开始。您可以在我们的专门文章中详细了解人工智能项目的阶段和数据集的收集。
让我们暂时停止讨论为情绪识别模型收集的数据。它是未来算法中必不可少的(也是最费力的)部分,因为它需要大量的时间和精力来收集、处理、保护和注释。这些数据是训练情感识别模型所必需的,这基本上是一个让机器了解如何解释您向其显示的数据的过程。
当然,为了情绪识别算法的正常工作,您需要确保收集的数据是高质量的,没有盲点和偏见。收集数据时,记住此过程的主要控制原则很有用:垃圾进-垃圾出。如果您将低质量的数据输入算法,则不应期望得到任何高质量的预测。
假设您收集了 10,000 张不同情绪状态的人的照片。一个盲点是数据集中没有亚洲人、中东人或拉丁人。一种偏见是收集仅皱眉或微笑的男性照片。无论哪种情况都会导致计算机无法理解和预测算法在现实生活中会遇到的这些极端情况。
然后是数据注释(又名数据标签)的过程,有助于将我们对数据的看法转化为机器可读的格式。这是通过向每个数据片段添加有意义的标签来实现的。这对于情感识别算法意味着什么?
还记得您在上一步中收集的包含 10,000 张照片的假设数据集吗?现在是时候为每张照片添加标签以进行训练(自然地,保留其中的一部分用于测试和验证)。通常,通过将关键点放置在人的脸上,然后添加“快乐”、“愤怒”、“悲伤”、“惊讶”等标签来使用关键点(或地标)注释。
你能发现问题了吗?为照片添加注释的标签人员通常不了解这些照片上人物面部表情的背景信息。这意味着注释标签可能不正确。另一方面,人类注释者并非没有自然偏见,并且可能更常见地认为某些种族、性别或民族更具敌意、不那么害怕、天生快乐等。这就是为什么仍然几乎不可能摆脱这些偏见。系统中存在数据噪声,这意味着情绪检测算法将不断重现人为错误和偏见。
AI情绪检测器的工作原理是使用人工智能来分析可以揭示人类情绪的各种数据源,例如面部表情、声音、肢体语言或文本。根据数据源的类型和质量,可以使用不同的方法或模型来检测或解释人类情绪。一些主要方法是:
面部表情分析是一种利用计算机视觉从面部图像或视频中检测和识别人类情绪的方法。面部表情是表达情绪的最常见和最普遍的方式之一,因为它们与对应不同情绪状态的特定面部肌肉的激活有关。
面部特征点检测:该技术识别并定位面部的关键点或区域,例如眼睛、鼻子、嘴巴、眉毛,并提取它们的坐标。
面部动作编码系统:该技术对面部肌肉运动或产生面部表情的动作的强度进行编码和测量。
面部情绪检测器:该技术将面部表情分类为预定义的情绪类别,例如快乐、悲伤、愤怒、恐惧、惊讶。
语音分析是一种利用自然语言处理和机器学习从语音或语音中检测和识别人类情绪的方法。声音是表达情感的另一种常见且普遍的方式,因为它受到反映不同情感状态的各种声学特征的影响,例如音调、强度、节奏或音调。
语音识别:该技术将语音或声音转换为文本或音标,并提取传达情感的单词或声音。
语音情绪识别:该技术将语音或声音分类为预定义的情绪类别,例如快乐、悲伤、愤怒、恐惧、惊讶。
情感合成:该技术根据声学特征或单词生成具有所需情感的语音或声音。
肢体语言分析是一种利用计算机视觉和机器学习从身体图像中识别情绪的方法。肢体语言是表达情感的另一种常见且普遍的方式,因为它通过表示不同情绪状态的各种手势、姿势或动作来表现,例如点头、耸肩、交叉双臂。
姿态估计:该技术识别和定位身体上的关键点或关节,例如头、肩、肘、腕、臀部、膝盖或脚踝,并提取它们的特征。
手势识别:该技术将身体的手势或动作分类为预定义的类别,例如挥手、指向、拍手或拥抱。
身体情绪识别:该技术根据姿势或手势将身体语言分为预定义的情绪类别,例如快乐、悲伤、愤怒、恐惧、惊讶或厌恶。
多模态情感识别通过使用面部表情、语音、文本和肢体语言等各种数据源来提高准确性。它通过特征级和决策级融合等技术将这些融合起来,利用优势获得稳健的结果。
情绪感知系统:这些系统可以从多个数据源检测和响应用户的情绪,并提供更具适应性和个性化的服务。
基于情绪的分析:这些分析系统可以从多个数据源测量和分析个人的情绪,并提供更全面、更有洞察力的见解。
情感增强通信:这些通信系统可以从多个数据源创建个人的情感,并提供更具表现力和现实的通信。
大多数情感图像数据库都是建立在 2D 静态图像或 2D 视频序列之上;有些包含 3D 图像。由于大多数 2D 数据库仅包含正面,因此仅在这些数据库上训练的算法对于不同的头部姿势表现出较差的性能。
视觉情感识别最重要的数据库包括:
扩展 Cohn–Kanade 数据库 (CK+):
593 视频、姿势情感、受控环境
日本女性面部表情数据库(JAFFE):
213 张图像,姿势情感,受控环境
宾厄姆顿大学 3D 面部表情数据库 (BU-3DFE):
606 个视频、摆姿势和自发情绪、受控环境
面部表情识别 2013 数据库 (FER-2013):
35'887 张图像、摆出的和自发的情感、不受控制的环境
野外情绪识别数据库 (EmotiW):
1’268 个视频和 700 个图像、自发的情感、不受控制的环境
人机界面数据库:
2’900 个视频、摆出的情感、受控环境
eINTERFACE’05视听情感数据库:
1'166 视频、自发情感、受控环境
卡罗林斯卡定向情感面孔数据库(KDEF):
4’900 张图像、摆出的情感、受控环境
Radboud 人脸数据库 (RaFD):
8’040 张图像、摆出的情绪、受控环境
人工智能模型可以检测到的情绪或情感表达取决于训练的类别。大多数情感或情感数据库都标有以下情感:
情绪#1:愤怒
情绪#2:厌恶
情绪#3:恐惧
情感#4:幸福
情绪#5:悲伤
情感#6:惊喜
情感#7:神经表达
人们对面部情绪识别的兴趣日益浓厚,新的算法和方法不断被引入。监督和无监督机器学习的最新进展给研究领域带来了突破,并且每年都有越来越多的精确系统出现。然而,尽管取得了相当大的进展,情绪检测仍然是一个非常大的挑战。
已经应用了多种方法来解决这个具有挑战性但重要的问题。早期的传统方法旨在受心理学和神经学理论的启发,手动设计手工制作的特征。这些特征包括颜色、纹理、构图、重点、平衡等等。 专注于有限的特定特征集的早期尝试未能涵盖所有重要的情感因素,并且没有在大规模数据集上取得足够的结果。毫不奇怪,现代深度学习方法优于传统计算机视觉方法。
深度学习算法基于神经网络模型,其中连接的神经元层用于与人脑类似地处理数据。多个隐藏层是深度神经网络在功能层次结构的背景下分析数据功能的基础。卷积神经网络 (CNN) 是用于图像处理任务的最流行的人工神经网络形式。 CNN 在 AI 情感识别任务中取得了总体良好的成绩。对于情感识别,广泛使用的 CNN 主干网络(包括 AlexNet、VGG-16 和 ResNet50)均使用 ImageNet 上的预训练参数进行初始化,然后在 FI 上进行微调。
大多数方法都基于从完整图像中学习情感表示的卷积神经网络,尽管不同的图像区域和图像上下文可能对诱发的情感产生不同的影响。
因此,研究人员基于CNN主干开发了用于视觉情感分析的特定神经网络,即MldrNet或WSCNet。
这种新颖方法(于 2020 年中开发)被命名为“弱监督耦合卷积网络”,即 WSCNet。该方法在给定弱注释(例如全局图像标签)的情况下自动选择相关的软建议。情感分析模型使用特定情感的软映射将情感映射与深层特征耦合作为分类分支中的语义向量。 WSCNet 在各种基准数据集上的表现优于最先进的结果。
与野生环境数据库相比,在受控环境数据库中进行测试时,通常存在准确性差异。因此,很难将受控环境(CK+、JAFFE 等)中的良好结果转化为非受控环境(SFEW、FER-2013 等)。例如,在 CK+ 数据库上获得 98.9% 准确率的模型在 SFEW 数据库上仅达到 55.27%。这主要是由于现实场景中的头部姿势变化和照明条件造成的。 可以使用大型数据集(例如具有超过 300 万张弱标记图像的 FI)对不同情感分析方法的分类准确性进行比较和基准测试。
算法#1:SentiBank(手工制作),49.23%
算法#2:Zhao 等人。 (手工制作), 49.13%
算法#3:AlexNet(CNN,微调),59.85%
算法#4:VGG-16(CNN,微调)65.52%
算法#5:ResNet-50(CNN,微调)67.53%
算法#6:MldrNet,65.23%
算法#7:WILDCAT,67.03%
算法 #8:WSCNet,70.07%
在资源有限的边缘设备上部署情感识别模型是一项重大挑战,主要是由于其计算成本。边缘人工智能需要将机器学习部署到边缘设备,这些设备会产生大量无法使用基于服务器的解决方案进行处理的数据。
高度优化的模型允许在不同类型的边缘设备上运行人工智能情感分析,即边缘加速器(例如 Nvidia Jetson 设备)甚至智能手机。使用可扩展边缘智能实施实时推理解决方案是可能的,但由于多种因素而具有挑战性:
在不同数据集上进行情感识别预训练可以在部署后无需额外成本即可提高性能。
降维实现了性能和计算要求之间的权衡。
通过剪枝缩小模型和模型压缩策略是有前途的解决方案。即使在嵌入式系统上部署经过训练的模型仍然是一项具有挑战性的任务。由于大型预训练模型的计算能力要求和模型尺寸较大,因此无法部署和定制。
去中心化、基于边缘的情感分析和情感识别允许解决方案具有私有数据处理(无视觉数据卸载)。然而,当使用情感分析进行用户分析时,仍然会出现隐私问题。
那么情绪识别有什么好处吗?嗯,是或不是——这要看情况,真的。虽然情绪检测模型确实缺乏完善和科学依据,但这并不意味着技术不好或无法改进。事实上恰恰相反:随着市场对情感识别的需求增长,这些模型将变得更好、更复杂、更适合现实生活场景。
让我们来分析一下目前人工智能情感识别问题的几个最重要的解决方案:
更好的数据。随着大数据时代的到来,获得更好的数据集变得更加容易。你收集的数据越好、越多、越干净,你的情绪识别算法的预测结果就越好。您应该记住的几件事是数据的相关性、完整性、清洁性和安全性。
高质量注释。标签过程乍一看似乎是一个简单的过程,但随着规模的扩大,它会变得令人不知所措。这就是为什么最好找到一个值得信赖的注释合作伙伴,他们将确保您的数据得到正确标记,并且您将获得高质量的情感识别训练集。
文化意识。对于当今的许多企业来说,特定于国家(或地区)的算法和培训已经是显而易见的——不仅是公众要求的必需品,而且是明智的商业决策。开发由文化决定的解决方案以避免因不准确的预测而失去客户是唯一明智的做法。
隐私法规。对面部表情的读取、测量和解释(尤其是未经明确同意)的限制对于任何企业来说都是至关重要的。随着世界变得更加数字化,对情感识别算法施加更多限制以保护人权隐私权是适当的。
2021 年关于视觉情感分析的最新研究涉及刺激感知情感识别,其性能优于视觉情感数据集上最先进的方法。该方法检测可以唤起不同情绪(积极或消极)的一整套情绪刺激(例如颜色、物体、面部)。
虽然该方法相对复杂且计算资源密集,但与 WSCNet 相比,它在 FI 数据集上实现的准确率略高(72% 准确率)。
该方法基于心理学理论检测外部因素和刺激,以分析图像中的颜色、检测到的物体和面部情绪。结果,有效图像被分析为一组情感刺激,可以进一步用于情感预测。
人工智能情绪检测超越了快乐和愤怒等基本情绪。它识别复杂的情绪,例如敬畏、无聊、好奇、内疚、骄傲或羞耻。这些情感可以提供有关人类情感和行为的更细致、更丰富的信息,并实现更多样化、更有意义的应用和体验。
人工智能情感识别并不独立于人类情感表达的环境。它还可以考虑改变人类情绪的各种因素。这些因素可以提供有关人类情感和行为的更多相关信息,并实现更具适应性和个性化的应用和体验。
人工智能情绪识别不仅仅是一种检测或识别人类情绪的工具或技术。它也可以是开发或增强能够表达或响应人类情感的人工智能系统的功能或品质。通过使用人工智能情感识别,这些人工智能系统可以变得更加人性化和富有同理心。
人类情绪并不是可以轻易测量或分类的简单或静态现象。它们是复杂且动态的过程,涉及多个维度,例如价、唤醒、强度、持续时间和频率。它们还受到多种因素的影响,例如个性、情绪、环境、文化和个体差异。
人工智能情绪检测器可能会对被检测情绪的个人或群体的隐私、自主权、同意和尊严产生重大的伦理和社会影响。人工智能情绪检测器系统需要遵循道德原则和准则,例如透明度、问责制、公平和尊重。
人工智能情绪检测系统并不完美或绝对可靠。由于各种原因,他们在检测或解释人类情绪时可能会犯错误。 AI情绪检测系统需要通过使用更多样化和更具代表性的数据源、更稳健和可解释的方法或模型来提高其准确性和可靠性。
情绪识别从数据中检测人类情绪。情感分析是其特定于文本的形式,将文本分类为积极、消极或中性情感。
[Affectiva]、[Beyond Verbal]、[Realeyes]等人工智能情感识别工具服务于不同领域。他们分析面部表情、声音等,以获取从医疗保健到营销等行业的见解。
人工智能情绪识别引发了隐私、自主、同意和尊严方面的担忧。它可能会侵犯隐私、操纵感情、缺乏同意,并通过量化情绪来非人化。
人工智能情绪识别是人工智能的一个令人着迷且前景广阔的领域,它可以从各种数据源(例如面部表情、声音、肢体语言或文本)中检测和解释人类情绪。它可以为各个行业和应用提供许多好处,例如营销、医疗保健、教育、娱乐、安全等。
AI情感识别是一个快速发展和扩展的人工智能领域,它有许多值得探索的当前趋势和未来方向,例如新的情感和情感维度的出现、AI情感识别中情境和文化的融合、开发更加人性化和具有同理心的人工智能系统。
AI 情绪检测在线体验Demo:
https://visagetechnologies.com/HTML5/latest/Samples/ShowcaseDemo/ShowcaseDemo.html
如果你对这篇文章感兴趣,而且你想要了解更多关于AI领域的实战技巧,可以关注「技术狂潮AI」公众号。在这里,你可以看到最新最热的AIGC领域的干货文章和案例实战教程。