multimodal efficient tuning

Multimodal Few-Shot Learning with Frozen Language Models

论文想要将单模态few-shot的能力转化为多模态场景下,提出了Frozen的框架。该框架的具体做法是将图片encoder训练到word embedding的空间当中,

Modular and Parameter-Efficient Multimodal Fusion with Prompting

提出了pomptfuse模块。这篇工作是基于以前Frozen的。Frozen当中的visual encoder承担了两个任务,第一个任务是将图片进行encode,第二个任务是对齐图片模态以及文本模态。PromptFuse将两个任务进行disentangle,visual encoder的任务就是进行特征提取,并且不会再进行更新,而利用soft prompt来作为fusion的部分进行fine tune。

VL-ADAPTER: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA

Multimodal Prompting with Missing Modalities for Visual Recognition

CLIP-ViP

CLIP这种预训练的image-text模型能够通过将图片表征迁移到视频domain中从而帮助视频领域的任务。然而将image-text模型直接转移到video-text pretrain的方法还没有明显的优势。这篇文章提出了两个疑问:1. 什么因素阻碍了在视频领域预训练后的Clip这种模型取得比较好的效果?2.如何减轻这些因素的影响。

文章发现post-pretraining的数据集过小会导致灾难性遗忘以及过拟合的问题;同时由于post-pretraining的任务采用subtitle,而例如video-text retrieval的任务采用的文本一般是caption,两者存在差距。为了解决这两个问题,文章使用大数据集进行post-pretraining并且使用,并利用多种对比损失函数来减少caption和subtitle两种不同模态之间的差异。

仍然要大量的预训练,而且预训练的代价也很大,video frame都要同时输入到clip的image encoder中。

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

直接利用CLIP对于image-text任务的优势迁移到video-text领域中。

OmniVL: One Foundation Model for Image-Language and Video-Language Tasks

CPT: COLORFUL PROMPT TUNING FOR PRE-TRAINED VISION-LANGUAGE MODELS

Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

你可能感兴趣的:(深度学习,人工智能,自然语言处理)