Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理

1.摘要

多模态情感识别是人工智能领域的一个活跃的研究课题。它的主要目标是整合多种模态(如听觉、视觉和词汇线索)来识别人类的情绪状态。目前的工作通常假设基准数据集的准确情感标签,并专注于开发更有效的架构。但由于情感固有的主观性,现有数据集往往缺乏高标注一致性,导致潜在的不准确标签。因此,建立在这些数据集上的模型可能难以满足实际应用的需求。为了解决这个问题,提高情感标注的可靠性至关重要。在这篇论文中,我们提出了一个新的任务叫做“可解释的多模态情感推理(EMER)”。与以前主要集中于预测情绪的作品相比,EMER更进一步,为这些预测提供了解释。只要预测情绪背后的推理过程是可信的,预测就被认为是正确的。本文介绍了我们在EMER上的初步工作,其中我们引入了一个基准数据集,建立了基线模型,并定义了评估指标。同时,我们注意到整合多方面能力以应对EMER的必要性。因此,我们提出了影响计算中的第一个多模态大语言模型,称为AffectGPT。我们的目标是解决标签歧义的长期挑战,并为更可靠的技术指明道路。此外,EMER提供了一个机会来评估音频视频文本理解能力的最新多模态LLM。为了便于进一步的研究,我们将代码和数据发布在:https://github . com/zero qiaoba/affect GPT

  • 多模态情感识别目标:整合多种模态识别人类的情绪状态。
  • 论文提出了一个新的任务: 可解释的多模态推理EMER
  1.                 可解释性在于:为预测结果提供了解释
  2.                 提出一个数据集,作为基准
  • 情感计算的第一个大模型AffectGPT
  • 目标:解决标签歧义的长期挑战,更可靠的技术发展

2.数据集

该文章提出的数据集是新颖的,其独特之处在于:

每个标注者从四个方面标注情感线索:

1)面部表情和肢体动作;

2)声调和语调;

3)演讲内容;

4)视频内容、环境和其他线索。

线索总结:对于每个样本,三个注释者从四个方面提供线索。为了总结所有线索,我们利用chat GPT并使用图1中的提示。但是,我们仍然在生成的结果中观察到一些重复的表达式。因此,我们手动检查并优化输出。

目的:使用gpt的智能性对线索进行总结。

一段视频的多段描述如下。请将这些描述总结如下:

1.请将“线索描述”的多个段落的主语统一为“他”

2 .请将“线索描述”的多个段落进行总结,删除重复的单词、短语或句子,并用完整的句子描述最终结果

3 .检查标点符号

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第1张图片

情感总结:在这一步中,我们使用ChatGPT从汇总的线索中推断情绪状态,因为这一策略比MER2023中的原始标签提供了更微妙的情绪。然而,我们在输出中观察到一些不可靠的情绪。为了解决这个问题,我们使用few-shot

ChatGPT进行情感摘要。提示如图2所示。

请总结一下这个人的情绪状态:投入:

他看起来很开心,其实很焦虑。

输出:焦虑

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第2张图片

线索和情感的结合:我们把情绪和线索组合成一个段落:在这些“线索”的辅助下,我们可以推断出人物的情绪状态为“情绪”。然后,我们人工评估这个推理过程的合理性,得到最终的描述

总结

     Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第3张图片

可解释型多模态情感推理==(线索+情感——>预测情感)

什么是可解释性:

        我在这里的理解就是,我有一个很合理的证据去推断出当前的情感。这个证据就是线索和情感。线索是关键信息的提炼,情感是关键信息表征的情感内涵的提炼。这两个因素很大程度上能够指向一个合理的情感,且这个过程是人工可以评估的,那么我的情感预测就是可解释的。

3.任务解决思路

直接方法:使用多模态逻辑线性模型,因为这些模型能够处理各种多模态理解任务

由于情绪感知依赖于时间信息,我们只选择支持视频输入的多模态LLM,包括VideoChat [9]、Video-ChatGPT [13]、Video-LLaMA [10]、PandaGPT [11]和Valley [14]

多模态LLM背后的基本思想:将其他模态的预训练模型与文本LLM对齐。在对指令数据集进行微调后,这些模型表现出理解指令和多模态输入的非凡能力

例如,VideoChat和Video-LLaMA使用BLIP-2[15]中的Q-Former将可视查询映射到文本嵌入空间。

PandaGPT使用image bind[16]来学习六种模态之间的对齐。

Video-ChatGPT和Valley exploit CLIP[17]来获得文本对齐的视觉特征。

PandaGPT和Video-LLaMA还支持音频输入。

为了在视频中集成字幕信息,我们在提示中包含字幕作为附加内容。——即为需要提取线索信息的原料

相同的提示信息:

Prompt:The subtitle of this video is .Now answer my question based on what you have heard,seen,and given subtitles.From what clues can we infer the person’s emotional state?Please summarize the clues in a maximum of 100 words.

此视频的字幕为< Subtitle > < Subtitle _ Here > 。现在根据你所听到的、看到的和给的字幕回答我的问题。从哪些线索可以推断出这个人的情绪状态?请用不超过100字的篇幅总结这些线索

4.评价指标

评价指标主要分为自动评价和人工评价两部分。

自动评价

利用ChatGPT从三个方面评估预测结果:

1)情感相关线索之间的重叠程度;

2)概括的情绪状态之间的重叠程度;

3)推理过程的模态完备性。对于前两个指标,分数范围为0到10,分数越高表示重叠越多

对于这些指标,我们首先使用提示1总结情绪相关的线索(或情绪状态),然后使用提示2计算重叠部分(见图3和图4)。

所谓重叠度的计算即重复词的概率

##Prompt1:请提取与角色情绪状态相关的描述,然后进一步总结这些描述,

输入:{预测}

输出:##

Prompt2:“真实线索”和“预测线索”在下面给出。请计算“真实线索”和“预测线索”的重叠部分。重叠程度越高,返回的分数越高。分数范围从0-10。

真实线索:抬眉、笑脸

预测线索:抬眉

得分:5

真实线索:{ gt _ clue }

预测线索:{ pred _ clue }

得分:

图3:计算情绪相关线索重叠程度的提示。

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第4张图片

##Prompt1:请总结此人的情绪状态:

输入:他看起来很开心,但实际上很焦虑。

输出:焦虑

输入:{预测}

输出:

# #Prompt2:下面给出“真实情绪”和“预测情绪”。请计算“真实情绪”和“预测情绪”的重叠程度。重叠程度越高,返回的分数越高。分数范围从0-10。

真实情绪:快乐

预测情绪:快乐

得分:10

真实情绪:{ gt _ emo }

预测情绪:{ pred _ emo }

得分:

图4:计算情绪状态重叠程度的提示

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第5张图片

与此同时,能够从更多模态推断情绪的模型应该得到更高的分数。

因此,我们使用图5中的提示来评估推理过程的完整性

推理过程的完整性展示:

        从那种模态——什么内容——推断出什么情感

请总结输入内容涵盖了多少种模式。您可以从['音频','视觉','内容']:

输入:他看起来很开心,音乐让我开心。

输出:视觉,音频

输入:他看起来很开心,音乐让我开心。同时,他对研究人员表示感谢。

输出:视觉、听觉、内容

输入:{预测}

输出:

图5:评估模态完整性的提示。

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第6张图片

人工评估

对预测结果进行人工评估。

对于每个视频,我们雇佣五个注释者来判断推理过程的合理性。注释者有

        “完全错误”、“正确(小部分)”、“正确(大部分)”和“完全正确”四种选择。

        我们将这些选择映射到从1到4的分数范围内,分数越高表明推理能力越强

总结评价:当前的一些评价指标基本都是基于自动指标+人工指标的标准,人工指标多结合认为特别设计,而自动指标常常为该领域的常用指标。

5.AffectGPT

使用初始EMER数据集来训练音频-视频-文本对齐的多模态LLM,称为AffectGPT。

模型:主要框架来自Video-LLaMA,并做了一些修改

修改:

        (1)视频-LLaMA分别训练音频和视频分支。我们修改它以支持音频-视频-文本对齐训练

        (2)在Video-LLaMA中,不同指令数据集的输入输出格式不一致。因此,我们统一了输入和输出格式。

        代码:https://github . com/zero qiaoba/affect GPT。

数据集处理:一些初步的实验来测试不同样本选择策略的影响

1.训练测试随机划分:80个:20个

2.训练集+Video-LLaMA三个指令数据集结合【训练集扩充】

3.指令微调——模型:gt-eng-remove-test【微调】

4.去除短样本(小于2s)——模型:gt-eng-remove-test remove-short【清洗】

5.训练期间合并训练集和测试集——gt-eng【所有数据训练,测试上限性能】

重叠性与性能展示:

总结:

        EMER数据集指令微调能够给情感推理带来性能改善——原因很明显,因为EMER数据集是一个情感相关的数据集。

        gt-eng训练完美——原因测试数据集参与训练了,为了测试模型性能上限。

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第7张图片

总结:

        很少有模型从听觉推断情感,当前LLM多模态更关注视觉通道——看数据集也能看出来听觉信息不多叭

        提高多通道理解能力,考虑更多音频指令数据集——模态平衡的操作叭

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第8张图片

总结

        gt-eng-remove-test: 没有去除短视频

        gt-eng-remove test-remove-short : 去除短视频

         去除短视频模态完整性更好——短视频情感相关描述更少,取出后,倾向于更长的描述,覆盖更多的模态。

6.实验结果和讨论

评估不同基线在整个EMER数据集上的性能

视频聊天的两个版本:

        文本视频聊天:使用视觉模型将视觉数据转换为文本格式

         嵌入式视频聊天:将视觉信息与文本嵌入空间对齐的端到端模型

自动评估:

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第9张图片

1.实际和预测差异显著:现有多模态LLM在情感推理中的局限性

2.指标趋势具有相似性:        

        在所有基准中,VideoChat-Text通常表现最差,而Valley通常表现最佳。值得注意的是,音频基准(如PandaGPT和Video-LLaMA)并没有表现出优异的性能。

人工评估:

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第10张图片Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第11张图片

人工评价的设计:

        尽在20个测试样本进行人工评估

        为消除人为误差影响:将ground truth和预测放在一起,打乱评分

        结果见表2

总结

        chatGPT和人工评估有一定的相似性: VideoChat-Text 一贯表现最差,而Valley一贯实现最佳表现

        指标间存在差异:chatGPT作为参考,主要结论来自人的评价

        评估多模态集成效果:       

                基于chatGPT和人工的相似性,根据线索重叠和情感重叠从基线中选择最佳预测——标记为基线(线索)、基线(情感)

                这种策略可以提高情感推理性能,验证了多模型集成的优势

总结AffectGPT的性能-表二

        AffectGPT在情感推理中得分最高——>AffectGPT(线索)”和“AffectGPT(情感)这两个模型都最好

        最好——>在gt-eng-remove-test”和“‘gt-eng-remove-test-remove-short”两种训练集设置中,获取性能最好的模型(最佳预测)。分别被表示为“AffectGPT(线索)”和“AffectGPT(情感)”

        实验结果表明,AffectGPT在情感推理中的得分最高,充分验证了该策略的有效性

        

定性分析:

   随机选择样本进行可视化展示:

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第12张图片

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第13张图片

总结

        基线预测都是快乐,但实际标签是愤怒

        错误原因:不能理解声音线索(如颤抖的声音和激动的音调)和面部线索(如皱眉)。

        Video-LLaMA:错误识别出背景音乐的存在(当根本没有背景音乐时)

        Valley和Video-LLaMA的视频描述能力不错——他们成功地识别出一名穿着西装的男子在木窗前对着麦克风说话,尽管这些描述与他的情绪状态无关。

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第14张图片

Explainable Multimodal Emotion Reasoning 多模态可解释性的情感推理_第15张图片

总结:

        所有基线只有PandaGPT和Video-ChatGPT准确地将人的情绪状态识别为烦躁。

        Video-ChatGPT:错误识别人物正在对着电话说话(当这个人没有拿着电话时)

        大多数基线正确地识别出这个人正在喝水,但这种观察与她的情绪状态无关。

        原因:即当前的多模态LLM主要是在图像字幕数据集或视频字幕数据集上训练的,这些数据集关注于服装、环境、动作等。,而不是以面部为中心的描述。此外,这些数据集通常忽略多模态信息,从而限制了在这些数据集上训练的多模态LLM的音频-视频-文本理解能力

7.总结

总结:

        提出EMER任务,去做情感多模态。与传统情绪识别不一样,不仅预测情绪状态,还提供了解释。旨在解决:标签歧义问题,提高识别可靠性

        为促进研究,构建了初始数据集,开发了基线,并定义评估指标:自动|人工

        实验结果证明这项任务有难度——现有技术达不到预期效果。使用AffectGPT整合多方面能力来解决当前问题。EMER成为评估多通道LLM音频-视频-文本理解能力的基础任务。

        

目标

        降低标注成本,增加数据集大小

        设计更有效的基线,改善任务效果

        鼓励更多人参与,推进情感计算实际应用

8.读后感

   1.作者提出要做可解释的多模态情感推理,为了解决标签歧义和提高可靠性。

    2.什么是作者说的可解释多模态情感推理呢? 不仅预测情绪状态还提供解释

    3.作者怎么实现即预测情绪又解释的?分两部分:

                第一步从现有ground truth中,通过GPT提取线索,然后人工微调重复的生成。然后通过重叠率进行评价。

                第二步根据线索,通过GPT提取情感。通过重叠率进行评价。

                可解释性==>提线索(重叠率)->提情感(重叠率)

                根据情感重叠率,约束情感的提取,且约束线索能够提取更好的情感。

                根据线索重叠率,约束线索总是提取出了关键信息。

                所以线索总是能支撑情感提取的,即提取的情感的可解释性来自线索,线索是情感预测的解释

        4.实验是怎么做的? 作者实验了很多现有的多模态LLM。

                整个流程中第一步和第二步使用两个LLM模型,他们可以是不一样的。

                最好的模型,挑选了提取线索最好的模型和提取情感最好的模型的组合,集模型集成的优势。

                两步提取都是通过大模型的微调+模板信息提示的模式进行提取的。

你可能感兴趣的:(论文与代码,人工智能,情感计算)