minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning
1.introduction不同任务下的回答不同,提出一种以任务为导向的指导训练方法,为每个人物提供一个独特的任务标识符token,为训练视觉问答任务的所有数据样本提供一个[vqa]标识符token,总共提供6个不同的任务标识符。2.method2.1modelarchitecturevisionbackbone:采用EVA作为视觉backbone,在全部训练中都冻结,图像分辨率为448x448,