【Image captioning】论文阅读八—ClipCap: CLIP Prefix for Image Captioning_2021
中文标题:ClipCap:CLIP前缀用于图像描述(ClipCap:CLIPPrefixforImageCaptioning)文章目录1.介绍2.相关工作3.方法3.1综述3.2语言模型微调3.3映射网络架构3.4推理4.结果5.结论摘要:图像描述是视觉语言理解中的一项基础任务,模型会对给定的输入图像预测出一段文本信息性描述。本文提出了一种简单的方法来解决这个任务。我们使用CLIP编码作为描述的前