[论文笔记] LLaVA

一、LLaVA 论文中的主要工作和实验结果

  1. Existing Gap: 之前的大部分工作都在做模态对齐,做图片的 representation learning,而没有针对 ChatBot(多轮对话,指令理解)这种场景优化。

  2. Contribution: 这篇工作已经在 BLIP-2 之后了,所以 Image 的理解能力不是 LLaVA 希望提升的重点,LLaVA 是想提升多模态模型的 Instruction-Following ability,也就是特定的多轮 QA 场景。

  3. 数据构造:构造了三种 Instruction 的数据,包括多轮对话图片描述复杂推理。其中,图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

  4. <

你可能感兴趣的:(论文笔记,论文阅读)