多模态(multi-modal)和多视图(multi-view)有什么区别?

简单来说 multiview一般指同一个对象不同的表现形式。比如一个3D物体不同角度或者不同频谱下的成像图像。

multimodality指不同模态,它们所表现的可能是不同的对象,但之间有联系。比如文本和对应的音视频。这两者之间最关键的区别是后者可能不是描述完全一样的物体或对象,所以往往需要有个预对齐或者建立两者间的对应关系,既correspondence

以看电视为例,A在看视频,B在听声音,C在看字幕,ABC接收的数据放在一起叫做多模态;

A在近处正对着看,B在远处看,C在左边看,D在右边看,ABCD接收的视觉信息放在一起叫做多视图。

当然在具体使用时可能不会刚好这样区分,例如有的采用不同网络或者特征提取器处理过的原始输入得到的结果也会称为多模态数据。最主要还是看当前各路数据是否存在本质上的形态区别。

参考
https://www.zhihu.com/question/364465426
https://zhuanlan.zhihu.com/p/473760099

你可能感兴趣的:(机器学习,计算机视觉,人工智能)