VLM 系列——LLaVA-MoLE——论文解读

一、概述

1、是什么

         Llava-MoLE 是Llava1.5 的改进 全称《LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。
    整体基于Llava1.5,主要变化在于LLM增加了moe+lora模块,进行了两阶段训练( 冻结图像编码器、投射层、文本编码器,只训练Lora和moe)。具体结构包含:基于CLIP的视觉编码器,文本解码器(attention层添加Lora,FFN层添加Lora版的MOE),使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2、亮点

    论文中作者认为的亮点:
    *基于 MLLM 模型和大规模数据集,在明显不同指令数据集的混合上微调 MLLM 时发现数据冲突问题。
    *提出了使用 LoRA MOE 进行指令微调以解决数据冲突问题,而不会显

你可能感兴趣的:(AIGC算法,深度学习,人工智能,AIGC,transformer,计算机视觉)