LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

本文是LLM系列文章,针对《LLaVA-CoT: Let Vision Language Models Reason Step-by-Step》的翻译。

LLaVA CoT:让视觉语言模型逐步推理

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 提出的方法
  • 4 后训练性能
  • 5 推理时间缩放
  • 6 最新VLMs的比较
  • 7 结论

摘要

大型语言模型在推理能力方面取得了长足的进步,特别是通过推理时间缩放,如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLM)往往难以执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了LLaVA CoT,这是一种设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA CoT独立地参与总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化方法使LLaVA CoT能够在推理密集型任务的精度方面实现显著提高。为了实现这一点,我们编译了LLaVA-CoT-100k数据集,整合了来自各种可视化问答源的样本,并提供了结构化的推理注释。此外,我们提出了一种推理时间级波束搜索方法,该方法能够实现有效的推理时间尺度。值得注意的是,LLaVA CoT只有10万个训练样本和一种简单而有效的推理时间缩放方法,不仅在各种多模态推理基准上比其基础模型高出7.4%,而且还超过了更大甚至闭源模型的性能,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-VisionInstruct。代码、数据集和预训练权重可在以下网址公开获取

你可能感兴趣的:(LLM,Daily,Multimodal,语言模型,人工智能,自然语言处理)