多模态理论与论文研究,如何入门及理解,学习分享-深度之眼多模态情感识别

学习经验

多模态学习旨在使计算机拥有处理不同来源信息的能力,近年来成为了人工智能领域的研究热点。多模态学习将不同模态信息进行融合,学习不同模态信息之间的关联。

和朋友搭伙研究了多模态,学习了 深度之眼的多模态人类情感识别和多模态理解科研论文,思路清晰了,有自己总结的经验图

总结了一些经验,可自取

资料获取地址哈

链接:https://pan.baidu.com/s/1eh8cj9-Pr63lK8hSbjJ3dg 
提取码:ytk8 

 

什么是多模态?

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。

这就涉及到图像和文本领域的内容。

多模态的任务和数据集有哪些?

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

一、VQA(Visual Question Answering)视觉问答

输入:一张图片、一个自然语言描述的问题

输出:答案(单词或短语)

二、Image Caption 图像字幕

输入:一张图片

输出:图片的自然语言描述(一个句子)

三、Referring Expression Comprehension 指代表达

输入:一张图片、一个自然语言描述的句子

输出:判断句子描述的内容(正确或错误)

四、Visual Dialogue 视觉对话

输入:一张图片

输出:两个角色进行多次交互、对话

五、VCR (Visual Commonsense Reasoning) 视觉常识推理

输入:1个问题,4个备选答案,4个理由

输出:正确答案,和理由

 

多种模态融合的方式有哪些?

常用的多模态交叉的方式有两种。

【1】点乘或者直接追加。

【2】另外一种模态交叉的方式是最近用得比较多的Transformer。

文献

[1] T. Baltrušaitis, C. Ahuja and L. Morency, “Multimodal Machine Learning: A Survey and Taxonomy,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 2, pp. 423-443, 1 Feb. 2019, doi: 10.1109/TPAMI.2018.2798607.
[2] Adrian E D . The Sherrington Lectures. I. Sensory integration.[J]. Sherrington Lectures.i.sensory Integration, 1949.
[3] Ghazanfar AA, Schroeder CE. Is neocortex essentially multisensory? Trends Cogn Sci. 2006 Jun;10(6):278-85. doi: 10.1016/j.tics.2006.04.008. Epub 2006 May 18. PMID: 16713325.
[4] J. Ngiam, A. Khosla, M. Kim, J. Nam, H. Lee, and A. Y. Ng, “Multimodal deep learning,” in Proc. 28th Int. Conf. Machine Learning (ICML-11), 2011, pp. 689–696.

你可能感兴趣的:(人工智能,transformer)