minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning

1.introduction

不同任务下的回答不同,提出一种以任务为导向的指导训练方法,为每个人物提供一个独特的任务标识符token,为训练视觉问答任务的所有数据样本提供一个[vqa]标识符token,总共提供6个不同的任务标识符。

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning_第1张图片

2.method

2.1 model architecture

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning_第2张图片

vision backbone:采用EVA作为视觉backbone,在全部训练中都冻结,图像分辨率为448x448,并将位置编码插值到更高的图像分辨率。

线性投影层:目标是将所有来自冻结的视觉backbone的视觉token投影到语言模型空间中,对于448x448这样的高分辨率图像,投影所有图像token会导致一个非常长的序列输入(1024个token),因此,简单的将embedding空间中4个相邻的数据token连接起来,并将他们一起投影到用一个特征空间的一个单一的embedding中,从而将视觉token的数量减少4倍。

LLM:LLaMA2-chat 7B

2.2 multi-task instruction template

当训练一个统一的模型用于多种不同任务,如视觉问答、图像描述、指代表达、图像描述和区域识别,多模态模型可能无法仅通过将视觉标记与语言模型对齐来区分每个任务。

一般输入格式:

[INST] [Task Identifier] Instruction [/INST]

INST代表user,[/INST]代表assistant, 输入是三个部分,第一部分是图像特征,第二部分是任务标识,第三部分是指令输入。

任务标识符token:

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning_第3张图片

空间位置标识:

{ }

X和Y坐标由范围在[0,100]内归一化的整数值表示,前两个表示生成的边界框的左上角xy坐标,后两个表示右下角的xy坐标。

2.3 multi-task instruction training

将设计的多任务指令模版用于指令训练,以任务特定的标识符token作为输入,对minigptv2进行任务导向的指令训练。

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning_第4张图片

第一阶段:在一组弱标注和精细数据集上训练,8XA100,训练400000步,bs=96,le-4,90h。

第二阶段:只使用精细化数据训练,4XA100,训练50000步,le-5,bs=64,20h。

第三阶段:多模态指导数据集,4xA100,35000步,1e-5,bs=24,7h

3.指标

minigpt-v2:large language model as a unified interface for vision-lanuage multi-task learning_第5张图片

你可能感兴趣的:(大模型,多模态和生成,语言模型,人工智能,自然语言处理,minigpt)