跨模态检索论文阅读:Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器
Plug-and-PlayRegulatorsforImage-TextMatching用于图像文本匹配的即插即用调节器利用细粒度的对应关系和视觉语义比对在图像-文本匹配中显示出巨大的潜力。通常,最近的方法首先使用跨模态注意力单元来捕捉潜在的区域-单词交互,然后整合所有比对以获得最终的相似性。然而,它们大多采用具有复杂结构或额外信息的一次性前向关联或聚合策略,而忽略了网络反馈的调节能力。在本文中,