#今日论文推荐# CVPR2022|比VinVL快一万倍,人大提出交互协同的双流视觉语言预训练模型COTS,又快又好

#今日论文推荐# CVPR2022|比VinVL快一万倍,人大提出交互协同的双流视觉语言预训练模型COTS,又快又好

大规模的单流预训练在图文检索中表现出显着的性能。遗憾的是,由于注意力层重,它面临着推理效率低的问题。最近,具有高推理效率的 CLIP 和 ALIGN 等双流方法也显示出了可观的性能,但是它们只考虑了两个流之间的实例级对齐(因此仍有改进的空间)。为了克服这些限制,作者提出了一种新的协作双流视觉语言预训练模型,称为 COTS,用于通过增强跨模态交互来进行图像文本检索。除了通过动量对比学习进行实例级对齐之外,作者还在 COTS 中利用了两个额外级别的跨模态交互:(1) token级交互——在不使用跨流网络的情况下设计了掩蔽视觉语言建模 (MVLM) 学习目标模块,其中变分自动编码器被施加在视觉编码器上,为每个图像生成视觉token。(2) 任务级交互——在文本到图像和图像到文本检索任务之间设计了一个 KL 对齐学习目标,其中每个任务的概率分布是用动量对比学习中的负队列计算的。在公平的比较设置下, COTS 在所有双流方法中实现了最高性能和可比性能(但推理速度快 10,800 倍)。重要的是,本文的 COTS 也适用于文本到视频的检索,在广泛使用的 MSR-VTT 数据集上产生了新的最新技术。

pretrain-then-finetune 范式在自然语言处理 (NLP) 领域取得了巨大成功,其中模型首先使用大规模数据(例如 BERT 、RoBERTa  和 GPT3 ),然后针对每个下游任务进行微调。最近,在视觉语言 (VL) 领域也显示了它的有效性,其中在各种 VL 任务(例如,图像文本检索、视频文本检索和视觉问题回答)通过视觉语言预训练(VLP)得到了显着改善。VLP 模型通常以巨大的图像-文本对作为输入,旨在学习具有单模态和跨模态预训练目标的联合图像-文本表示,例如掩码token预测和图像-文本匹配。

论文题目:COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval
详细解读:https://www.aminer.cn/research_report/6311fdc17cb68b460f125113icon-default.png?t=M7J4https://www.aminer.cn/research_report/6311fdc17cb68b460f125113
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(AI,深度学习,计算机视觉,人工智能)