【无标题】

多模态情感分析的难点:模态之间如何更好的融合?多模态特征的信息冗余
以语音+文本(双模态)为例,语音模态可以提供音色特征来辅助情感分析任务,接下来就是将语音特征和文本特征融合,来生成更好的句子表示,更好的句子表示可以提高分类精确度。
目前主流的解决方案是动态融合两种特征,使用注意力机制,大多数成果都是对注意力的花式改进。
设计一种新的注意力机制,可以参考机器翻译领域对注意力改进的一些技术,新的注意力机制可以融合两种模态,还能解决信息冗余问题或者其他的问题。
师哥的改进:多步交互注意力机制,让两种模态一块不断做注意力操作,逐步分离出最重要的信息,类似于蒸馏操作。
【无标题】_第1张图片

目前多模态领域的最好模型:让两种模态分别做注意力操作,先分离出各自模态的重要信息,然后在拼接这些重要的信息。
两种方式都是对注意力机制进行调整
【无标题】_第2张图片

技术路线:
和上面两种方式类似,文本方面用Bert进行编码,音频方面用BiGRU进行编码,设计新的注意力机制来融合两种模态,并且通过该注意力机制动态选择出对分类最有用的局部信息,解决信息冗余问题或其他问题。

由于Bert是预训练模型,产生的词向量非常好,但是其他模态的表征可能并不好,可以使用对比学习的方式来增强其他模态的句子表示。

你可能感兴趣的:(论文分享,人工智能)