VLM 系列——Llava1.6——论文解读

一、概述

1、是什么

    Llava1.6 是llava1.5 的升级暂时还没有论文等,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答、根据图片写代码(HTML、JS、CSS),潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。

    本文基于CLIP的视觉编码器,以及多个版本语言解码器,使用最简单的两层FC构成MLP映射视觉特征到文本长度,构建了一个大规模的多模态模型,并且将该模型在指令视觉-语言数据上进行了微调。最大的区别是仿照monkey这篇论文也将图片分割成几个部分然后拼接送入LLM,不同是他们有使用query这种降维方式。

2、亮点

    作者认为的亮点:

    *对比开源模型CogVLM o、 Yi-VL获得更好的性能,赶超商用模型 Gemini Pro 、Qwen-VL-Plus。

    *强大的中文zero-shot能力,虽然训练数据多为英文,但是在MMBench-CN上取得SoTA结果。

    *很低的训消耗:32 GPUs 训练约一天,总共仅仅需要 1.3M数据. 计算和数据消耗仅仅是其他模型的 100-1000分之一。

    *将输入图像分辨率提升4 倍,支持三种宽高比,最高可达 672x672、336x1344、1344x336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。

    *通过改进的视觉指令调整数据混合,LLaVA-1.6 获得了更好的视觉推理和 OCR 能力。

    *更好的视觉对话,更多场景,覆盖不同应用。LLaVA-1.6 掌握了更多世界知识,具备更好的逻辑推理能力。

    *使用 SGLang 进行高效部署和推理。

PS

    目前论文、代码、数据、模型还没开源,作者承诺开源,筹备中。后续需要继续更新。

二、模型

    1、模型结构

    主体结构还是lava系,如第一张图,区别在于对于高分辨率图像的处理,如第二章图,将图片分割成几个部分然后拼接送入LLM。

    *图像编码器:CLIP-ViT-L -336px。

    *MLP 投射层:复用LLava1.5权重。

    *文本解码器:Vicuna-1.5-7B、Mistral-7B、Vicuna-1.5-13B、Nous-Hermes-2-Yi-34B。

    VLM 系列——Llava1.6——论文解读_第1张图片

    VLM 系列——Llava1.6——论文解读_第2张图片

    2、模型亮点

    仿照monkey,将高分辨率图像进行拆分拼接,提高高分辨率图像的识别降低幻觉。

    PS

    *这种暴力拼接会导致图片的token比较长,是不是下一步就变成monkey的结构了。

    *现在还没有论文和代码,这里面的分割方式672x672、336x1344、1344x336和 {2×2,1×{2,3,4},{2,3,4}×1}不太一样,最后看是最终怎么实现吧。

三、数据

    1、数据标签

    数据的label构成,主要会涉及到loss计算。

    2、数据构成

     train stage1

    暂时看不到第一阶段数据。

     train stage2

    *高质量的用户指令数据。LAION-GPT-V、ShareGPT-4V和私有数据1.5K。

    *多模态文档 / 图表数据。DocVQA 和 SynDog-EN 替换了 TextCap。添加ChartQA、DVQA 和 AI2D。

    3、数据清洗

     train stage1

    暂时看不到第一阶段数据。

     train stage2

    *高质量的用户指令数据。两个主要标准:首先,任务指令的多样性,确保充分代表现实场景中可能遇到的广泛用户意图,特别是在模型部署阶段。其次,响应的优先级至关重要,旨在征求有利的用户反馈。因此,考虑了两个数据源:现有的 GPT-V 数据 (LAION-GPT-V 和 ShareGPT-4V);为了进一步促进更多场景下更好的视觉对话,研究团队收集了一个涵盖不同应用的小型 15K 视觉指令调优数据集,仔细过滤了可能存在隐私问题或可能有害的样本,并使用 GPT-4V 生成响应。

    *多模态文档 / 图表数据。(1) 从训练数据中删除 TextCap,因为研究团队意识到 TextCap 使用与 TextVQA 相同的训练图像集。这使得研究团队能够在评估 TextVQA 时更好地了解模型的零样本 OCR 能力。为了保持并进一步提高模型的 OCR 能力,该研究用 DocVQA 和 SynDog-EN 替换了 TextCap。(2) 借助 Qwen-VL-7B-Chat,该研究进一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解图和图表。

四、策略

    1、训练过程

两阶段训练。      

    2、推理过程

    推理的时候是不是有后处理等等

五、结果

1、多维度对比。

    与 CogVLM 或 Yi-VL 等开源 LMM 相比,LLaVA-1.6 实现了 SOTA 性能。与商用产品相比,LLaVA-1.6 在选定的基准测试中可以媲美 Gemini Pro,并且优于 Qwen-VL-Plus。

    

2、消融实验

暂无

六、使用方法

暂无

七、待解决

等论文、代码、模型更新。

八、参考链接

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

LLaVA-1.6: Improved reasoning, OCR, and world knowledge | LLaVA

你可能感兴趣的:(AIGC算法,人工智能,AIGC,深度学习,计算机视觉)