cross-modal retrieval and multi-modal retrieval的区别
与unimodal检索不同,在cross-modal检索中,检索结果的模态和查询的模态是不同的。比如,用户使用图像检索文本,视频和音频。cross-modal检索的关键在于对不同模态的关系进行建模,难点就是bridgingthesemanticgap。 然而,当要检索的文档包含多模态的时候,一般的cross-modal方法就无法直接应用到multi-modalretrieval。multi-mod