coop:Learning to Prompt for Vision-Language Models
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录摘要一、Introduction摘要像CLIP这样的大型预训练视觉语言模型在学习表征方面显示出了巨大的潜力,这些表征可在广泛的下游任务中迁移。与传统的基于离散标签的表示学习不同,视觉语言的预训练将图像和文本对齐在一个共同的特征空间中,通过提示将零射转移到任何下游任务,即从描述感兴趣类的自然语言合成分类权值。在这项工作中,我们表