哈工大讯飞联合实验室发布图文多模态预训练模型VLE

来自:HFL实验室

进NLP群—>加入NLP交流群

哈工大讯飞联合实验室(HFL)开源预训练模型家族迎来首个多模态预训练模型VLEVision-Language Encoder)。借助更强的单模型编码器、更细致的预训练目标和更契合下游任务的适配方案,VLE模型不仅具有良好的多模态理解能力,还具备了出色的多模态推理能力,此前荣登VCR评测榜首,相比其他同等规模模型具有显著的优势。此外,借助大型语言模型(LLM)出色的零样本学习能力,本项目设计了一种VQA+LLM方案,将大型语言模型集成到视觉问答任务中,帮助视觉问答模型生成更准确和流畅的答案。目前VLE相关预训练模型、精调模型、源代码等资源已开源,欢迎读者下载使用。

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第1张图片

项目地址:https://github.com/iflytek/vle

演示地址:https://huggingface.co/spaces/hfl/VQA_VLE_LLM

简介

多模态预训练模型通过在多种模态的大规模数据上的预训练,可以综合利用来自不同模态的信息,执行各种跨模态任务。本项目提出图像-文本多模态预训练模型VLE(Vision-Language Encoder),可应用于如视觉问答、图像-文本检索等多模态判别式任务。特别地,VLE在对语言理解和推理能力有更强要求的视觉常识推理(VCR)任务中取得了公开模型中的最佳效果。

  • 模型结构

VLE模型采用双流结构,与METER模型结构类似,由两个单模态编码器(图像编码器和文本编码器)和一个跨模态融合模块构成。文本编码器初始化采用了DeBERTa-v3,图像编码器初始化采用了CLIP-ViT。输入的图片和文本分别经过图像编码器和文本编码器进行编码,送入跨模态融合模块进行信息交互,再经由任务特定的预测模块得到最终输出。

  • 预训练任务‍‍

VLE使用图文对数据进行预训练。在预训练阶段,VLE采用了四个预训练任务:

    • MLM (Masked Language Modeling):掩码预测任务。给定图文对,随机遮掩文本中的部分单词,训练模型还原遮掩的文本。

    • ITM (Image-Text Matching):图文匹配预测任务。训练模型判断图像和文本是否匹配。

    • MPC (Masked Patch-box Classification):遮掩Patch分类任务,给定图文对,并遮掩掉图片中包含具体对象的patch,训练模型预测对象种类。

    • PBC (Patch-box Classification):Patch分类任务。给定图文对,预测图片中的哪些patch与文本描述相关。

这些预训练任务各有侧重:MLM任务提升模型的语言理解能力;ITM和MPC任务提升模型的图文交互能力;PBC任务提升模型的精确定位能力。下图展示了模型的结构和部分预训练任务(MLM、ITM和MPC)的流程。

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第2张图片

VLE模型结构与预训练任务示意图

  • 下游任务适配

本项目将VLE应用于视觉问答(VQA)和视觉常识推理(VCR)两个多模态任务。对于VCR任务,我们采用了基于目标信息的图文对齐增强机制,并扩展了token_type_ids,为图片和文本中的对象添加了对象表示嵌入,实现“物”与“名”的对应。

效果对比

下表中对比了VLE、METER以及其他多模态模型的参数量、预训练数据和下游任务效果。其中VQA任务展示的的是test-dev集效果,VCR任务展示的是dev集效果。通过观察实验结果可以发现,

    • VLE的预训练更高效:与大小相近的模型相比,VLE使用了更少的预训练数据,并在视觉问答上取得了相当的效果。

    • VLE有更强的推理能力:在对推理能力要求更高的视觉常识推理VCR任务上,VLE显著地超过了具有相似结构的METER。

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第3张图片

†:复现效果

* :Pairs: 图文对数量;I:图片数据数量;T:文本数据大小

VQA+LLM:结合大模型的视觉问答

近期,随着指令微调、RLHF等技术的发展,LLM在多种文本任务中取得了显著性能提升。虽然大多数LLM是单模态模型,但它们的能力也可用于辅助多模态理解任务。具体而言,本项目提出了一种VQA + LLM方案,将多模态模型与LLM集成到视觉问答任务中,从而帮助VQA模型生成更准确和流畅的答案。下图展示了系统流程。

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第4张图片

首先,本项目利用captioning模型生成图片的描述,然后将图片描述、问题以及VQA模型的预测结果进行拼接,构造合适的prompt送入LLM,最后要求LLM模型回复最合理的答案。下面给出了两组示例,不难看出VQA+LLM生成的答案更准确并且具有更好的可读性。读者可通过以下链接体验视觉问答Demo。‍‍‍

视觉问答Demo:https://huggingface.co/spaces/hfl/VQA_VLE_LLM

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第5张图片

哈工大讯飞联合实验室发布图文多模态预训练模型VLE_第6张图片

模型下载与使用

目前,本项目发布了VLE-base和VLE-large两个版本的预训练模型,还公开了VQA和VCR两个任务上的精调模型。请访问以下transformers模型库页面获取更多详细信息,并了解更多HFL开源预训练模型。

https://huggingface.co/HFL

模型的具体使用方式和更详细的技术内容,请访问本项目GitHub地址。

https://github.com/iflytek/vle


进NLP群—>加入NLP交流群

你可能感兴趣的:(人工智能,深度学习,机器学习,自然语言处理,计算机视觉)