多模态视觉语言模型

文章目录

  • 1. 多模态大模型概述
    • 1.1 模型范式
    • 1.2 训练范式
  • 2. BLIP
  • 3. BLIP 2
  • 4. LLaVa & LLaVA 1.5
  • 5. QwenVL
    • 5.1 模型结构
    • 5.2 训练过程
  • 6. 参考

1. 多模态大模型概述

1.1 模型范式

1)模态编码器:模态编码器主要是对来自不同模态的输入进行编码,来获得相应的特征,如视觉方面用ViT,CLIP VIT;音频模态用 C-Former,Whisper 等进行编码;
2)输入 Projector:输入projector 的任务是将其他模态的编码特征与文本特征空间的特征进行对齐,然后输入到 LLM Backbone 内,给定 X 模态-text数据集目标是最小化生成损失
3)LLM Backbone: 处理来自各种模态的表示,参与有关输入的语义理解、推理和决策。它产生输出 (A) 直接文本输出 (B) 其他模式的信号token ,这些信号token充当指导生成器是否生成 MM 内容的指令,如果是,则指定要生成的内容
4)Output Projector:将 LLM 的输出的 token 表征 S X S_X SX 转变成特征 H X H_X HX,然后输给生成器 M G X MG_X MGX。给定数据X-text数据集 { I

你可能感兴趣的:(计算机视觉,语言模型,人工智能,自然语言处理,多模态)