跨模态/多模态 cross-modal

模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的

 

 

常见的多模态问题有

视觉问答:针对图片提问题让计算机回答

多模态建索,用自然语言问句来搜图

 

多模态任务还有的比如模型在RGB数据集上训练,然后让在深度图或光流图上预测

 

 

你可能感兴趣的:(跨模态,多模态)