多模态大模型综述: LLaVA, MiniGPT4

文章目录

  • LLaVA
    • 一. 简介
  • 1.1. 摘要
  • 1.2. 引言
    • 二. 相关工作


LLaVA

一. 简介

题目: Visual Instruction Tuning
机构:微软
论文: https://arxiv.org/pdf/2304.08485.pdf
代码:https://github.com/haotian-liu/LLaVA
任务:
特点:
方法:
前置相关工作:

1.1. 摘要

用机器instruction-following的数据来instruct tuning LLMs已经在NLP领域被证明能够提升模型在未见任务上的zero shot能力,但是这个想法在多模态领域极少被探索。在这篇文章中,第一个提出了利用GPT4生成多模态language-image instruction-following数据。通过在这样的数据上进行instruct tuning,本文提出了LLaVA: Large Language and Vision Assistant,一个端到端训练的大规模多模态模型,其将视觉encoder与LLM连接起来实现更加广义上的视觉语言理解。我们初步的实验表明,LLaVA展现了令人印象深刻的多模态对话能力,有时保留了多模态GPT4在未见过的图像/指令下的一些行为,在一个构建的多模态指令数据集上,取得了相比于GPT4 85.1%的相对分数。当在science QA数据集上面进行finetune时,LLaVA与GPT4进行协同时,能够取得92.53%的SOTA结果。GPT4生成的视觉指令微调数据,模型,以及代码我们都进行了开源。

1.2. 引言

人类通过许多渠道来与世界进行交互,比如视觉以及语言,每一种渠道在表征以及交流某个特定的世界概念时都有属于它独特的优势,因此能够促进人类对世界一个更好的理解。人工智能领域一个核心的愿景就是希望能够建立起一个通用目的的助手,它能够很有效地遵循多模态视觉语言的指令,理解人类的意图并且完成各种各样的现实世界的任务。

到目前为止,人工智能社区已经见证了致力于建立语言增强的视觉模型,让它具备开放世界的强大视觉理解能力,比如分类,检测,分割以及caption,视觉生成以及编辑。我们推荐读者在**Computer Vision in the Wild**这个阅读清单里面去了解更多最新的文献汇总。在这一系列的工作当中,每一个任务都被一个独立的视觉大模型所解决,模型在设计的时候也显式地考虑了任务的指令,除此之外,语言仅仅用来描述以及刻画图像的内容。尽管这使得语言在将视觉信号映射到语言意义上扮演了一个重要的角色,即:一个人类交流的公共渠道,但是它也使得这些视觉模型往往只能拥有一个固定的接口,这样的接口对用户的指令往往在交互性以及适用性上都是受限的。

LLM,另一方面,以及证明语言能够发挥更大的作用(play a wider role),一个通用目的的统一接口,各种各样的任务指令都能够被明确地(explicitly)用语言表征以及指引端到端训练的神经网络助手来进行任务的转换,并且处理。比如,最近取得成功的ChatGPT以及GPT4已经表现出LLMs能够对齐人类指令的能力,这也激起了建立开源的LLMs的极大的兴趣。比如LLaMA就是其中的一个开源模型,它能够对标GPT3的能力。Alpaca, Vicuna, GPT4-LLM使用了各种各样机器生成的高质量的遵循指令(instruction-following)样本,用以提升LLM的对齐能力,与专有的(proprietary)LLMs相比,取得了令人印象深刻的表现。但,这一系列的工作都仅仅是基于文本的。

在这篇文章当中,我们提出了视觉指令微调(visual instruction tuning),这是第一次尝试将文本领域的instruction-tuning拓展到多模态领域,旨在为建立通用目的的视觉助手铺平道路。具体而言,我们的文章做了如下的贡献:

  • 多模态遵循指令数据(multimodal instruction-following data). 一个关键的挑战是缺乏视觉语言遵循指令的数据,我们提出了一个数据改造(data reformation)视角以及流水线(pipeline),利用chatgpt/GPT4来将图文对转化成合适的遵循指令格式。
  • 大多模态模型. 我们建立起了一个大的多模态模型(LMM),通过连接开放域的视觉encoder CLIP以及语言的coder LLaMA,并在构建的基于指令的视觉语言数据上进行端到端finetune。我们的实证研究(empirical study)验证了用生成的数据来进行LMM instruction tuning的有效性。并且提出了切实可行的一些建议用于建立一个通用目的的遵循指令的视觉代理。在GPT4的加持之下,我们在多模态推理数据集Science QA上取得了SOTA的结果。
  • 开源. 我们开放了数据集,代码(数据构建,模型训练),模型文件以及视觉对话的demo.

二. 相关工作

Multimodal Instruction-following Agents. 在计算机视觉领域,现有的致力于建立遵循指令的代理(agents)的工作可以从广义的角度上划分为两种类型:

  1. 端到端训练的模型.(在特定的研究领域分别被探索),比如,在视觉语言导航任务以及Habitat需要一个embodied AI agent 来遵循自然语言指令,并且执行一系列的动作来在视觉环境中完成目标。在视觉编辑领域,给定一张输入图像以及一条告诉agent如何去做的指令,InstructPix2Pix通过人类的指令来编辑图像。
  2. 通过LangChain/ LLMs 来协调各种模型系统。比如Visual ChatGPT, X-GPT, MM-REACT. 尽管在建立遵循指令的代理系统上共享一颗北极星,我们致力于建立一个端到端训练的多模态模型来处理各种各样的任务。

你可能感兴趣的:(人工智能,深度学习,计算机视觉,论文阅读)