Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond

1.introduction

Qwen-VL和QWen-VL-chat,QWen-VL是一个预训练模型,通过连接一个视觉编码器扩展了QWen-7B语言模型的视觉能力,经过三个阶段训练后,QWen-VL具有感知和理解多层次尺度视觉信号的能力,QWen-VL-chat是基于Qwen-VL的交互式视觉语言模型,使用对齐机制。

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第1张图片

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第2张图片

2.Methodology

2.1 Model architecture

QWen-VL整体网络由三个组件组成,

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第3张图片

大语言模型:QWen-7B;视觉编码器:ViT,openclip的ViT-bigG的预训练权重初始化,在训练和推理阶段,输入图像会被调整为特定的分辨率,视觉编码器通过将图像划分为大小为14的patch并进行处理,生成一组图像特征;Position-aware Vision-Language adapter:为了缓解长图像特征序列所带来的效率问题,QWen-VL引入了一个视觉-语言adapter来压缩图像特征,该adapter包括一个从随机初始化开始的单层cross-attention模块,该模块使用一组可训练的向量作为query,使用视觉编码器生成的图像特征作为key,进行cross-attention,该机制将视觉特征序列压缩为固定长度的256,此外考虑到位置信息对细粒度图像理解的重要性,二维绝对位置编码被引入到cross-attention的query-key对中,以减轻在压缩过程中可能丢失的位置细节,长度为256的压缩图像特征序列被馈送到大语言模型中。

2.2 Inputs and Outputs

图像输入:图像经过视觉编码器和adapter进行处理,生成固定长度的图像特征序列,为了区分图像特征输入和文本特征输入,特殊标记符号(和)被附加在图像特征序列的开头和结尾,以表示图像内容的开始和结束。

边界框输入和输出:为了增强模型对细粒度视觉理解和定位的能力,QWen-VL的训练涉及以区域描述、问题和检测形式的数据。与涉及图像文本描述或问题的传统任务不同,该任务要求模型准确理解和生成指定格式的区域描述。对于任何给定的边界框,会应用一个归一化过程,并转换成指定的字符串格式:"(Xtopleft,Ytopleft),(Xbottomright,Ybottomright)"。该字符串被分词为文本,不需要额外的位置词汇表,为了区分检测字符串和普通字符串,会在边界框字符串的开头和结尾添加两个特殊标记符号(),此外,为了适当的将边界框与响应的描述词或句子关联起来,还引入了另一组特殊标记符号(),标记边界框所指的内容。

3.training

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第4张图片

QWen-VL模型的训练过程包括三个阶段:两个预训练阶段和最后一个指令微调阶段。

3.1 Pre-training

预训练使用了一个大规模的,弱标注,通过网络爬取的图像-文本对数据集,清洗之后保留14亿数据,其中77.3%为英文,22.7%为中文。

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第5张图片

在这个阶段,冻结了大语言模型,只优化视觉编码器和VL adapter,输入图像被调整为224x224,训练目标是最小化文本token的交叉熵,adamw,余弦学习率,最大lr=2e-4,最小lr=1e-6,训练过程中,图像-文本对的bs=30720,第一阶段预训练总共50000步,大约消耗了15亿图像-文本对样本和5000亿个图像-文本token。 

3.2 Multi-task pre-training

在预训练第二阶段,引入了高质量和精细化的VL注释数据,使用更大输入分辨率图片,同时训练了7个任务,

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第6张图片

将视觉编码器的输入分辨率从224x224增加到448x448,减少了下采样导致的信息丢失,解锁了大语言模型并对整个模型进行了训练,进行了19000步。

3.3 Supervised fine-tuning

在这个阶段,通过指令微调对QWen-VL预训练模型进行了改动,以增强它的指令遵循和对话能力,从而建立互动式的QWen-VL-Chat模型,多模式指令微调数据主要来源于标题数据或通过LLM自我生成的对话数据,这些数据通常只涉及单幅图像的对话和推理,并且仅限于对图像内容的理解,通过手动标注、模型生成和策略连接构建了一组额外的对话数据,已将定位和多图理解能力纳入QWen-VL中。总量为350k。

为了更好的适应多图像对话和多图像输入,在不同图像前添加了字符串"Picture id:",其中id对应图像输入对话的顺序。在对话格式方面,使用chatlm格式构建了指令微调数据集,其中每个互动的陈述都使用了两个特殊token(<|im_start|>和<|im_end|>)标记,以便于对话终止。

Qwen-VL:A versatile vision-language model for understanding,localization,text reading and beyond_第7张图片

在训练过程中,仅通过监督答案和特殊标记(蓝色标记)来确保预测和训练分布的一致性,在这个阶段,将视觉编码器冻结,优化语言模型和adapter,QWen-VL-Chat的bs=128,最大lr=1e-6,最小lr=1e-6。

你可能感兴趣的:(大模型,多模态和生成,语言模型,人工智能,自然语言处理,多模态大语言模型)