VLM 系列——Object Recognition as Next Token Prediction——论文解读
一、概述1、是什么结合了CLIP的视觉编码器+语言模型Llama的部分参数,将常见的图片描述任务转变为只输出属性,换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的topK属性(英文),用于开放域的图片Tag场景。2、亮点*对图像-标题(从原始标题中提取名词作为参考标签)对进行训练,比图像-问题-答案三元组更容易收集和注释。对于推理,生成文本片段作为标签而不是句子。*解码器具