llava

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference

具体内容如下：1.研究目的考察LLaVA-NeXT、Qwen2-VL和JanusPro等MLLMs在“导演-匹配者”式参考游戏中，对颜色和空间布局的语境化语用推理能力，验证其是否能像人类一样根据视觉上下文解析指称表达

UnknownBody·2025-06-26 13:46

利用ms-swift微调LLaVA-OneVision

利用ms-swift微调LLaVA-OneVision资料合集环境安装目录详情训练模型下载模型准备训练(train)数据和验证集(validation)数据提前改一些小bug脚本Merged-LoRA脚本

moTcream·2025-06-23 07:16

[2025CVPR]Multi-Layer Visual Feature Fusion in Multimodal LLMs 多模态大语言模型中的多层视觉特征融合

当前多模态大语言模型（MLLMs）存在两大核心痛点：视觉层选择随意性：现有方法（如MiniCPM、LLaVA）常仅用最后一层特

清风AI·2025-06-09 00:34

LLaVa官网文档翻译

原文地址：LLaVa1.OverviewLLaVaisanopen-sourcechatbottrainedbyfine-tuningLlamA/VicunaonGPT-generatedmultimodalinstruction-followingdata.Itisanauto-regressivelanguagemodel

溯源006·2025-06-06 00:28

[原理理解] 超分使用到的RAM模型和LLAVA模型

文章目录前述RAM模型介绍LLAVA模型介绍前述最近在研究基于diffusion的超分模型，发现基本都文本编码的时候都需要用到RAM模型或者LLAVA模型，两个有什么区别呢？

qianx77·2025-05-24 06:14

【AI论文】HunyuanCustom：一种多模态驱动的定制视频生成架构

基于HunyuanVideo，我们的模型首先通过引入基于LLaVA的文本图像融合模块来解决图像文本条件生成任务，以增强多模态理解，以及一个图像ID增强模块

东临碣石82·2025-05-22 04:13

大厂NLP技术全景：从BERT到GPT-5的演进与优化

平台：企业级NLP微调与RAG优化实战高通骁龙AI引擎：端侧大模型的算力优化与5G混合架构华南理工NLFT技术：小样本微调的革命性突破蚂蚁集团CodeFuse：AI编程与"图生代码"的NLP创新中科院LLaVA-Mini

DeepFaye·2025-05-18 02:17

LLaVA：开源多模态大语言模型深度解析

一、基本介绍1.1项目背景与定位LLaVA（LargeLanguageandVisionAssistant）是由HaotianLiu等人开发的开源多模态大语言模型，旨在实现GPT-4级别的视觉-语言交互能力

kakaZhui·2025-05-11 08:30

[论文阅读] Improved Baselines with Visual Instruction Tuning

启发：1、LLaVA-1.5和LLaVA以及其他大模型相比，做出了哪些改进？

零澪灵·2025-04-26 18:19

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

数据准备快速开始LLaMABoard可视化微调（由Gradio驱动）构建Docker利用vLLM部署OpenAIAPI从魔搭社区下载从魔乐社区下载使用W&B面板使用SwanLab面板项目特色多种模型：LLaMA、LLaVA

Jackilina_Stone·2025-04-13 07:52

多模态大模型常见问题

1.视觉编码器和LLM连接时，使用BLIP2中Q-Former那种复杂的Adaptor好还是LLaVA中简单的MLP好，说说各自的优缺点？

cv2016_DL·2025-03-23 12:06

LLaVA-Mini用一个视觉Token革新多模态大模型

SGG_CV·2025-03-18 05:18

ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集

2025-01-15，由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。

·2025-03-17 15:12

ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘ (/root/LLaVA/llava/model

[Question]ImportError:cannotimportname‘LlavaLlamaForCausalLM’from‘llava.model’(/root/LLaVA/llava/model

Lemon J Lee·2025-03-02 12:25

多模态｜开源多模态模型Emu3 & 多模态预训练模型CLIP对比

Emu3在生成和感知方面都表现出色Emu3在生成和感知任务方面都优于几个成熟的任务特定模型，超越了SDXL、LLaVA-1.6和OpenSora-1.2等旗舰开放模型，同时消除了对扩散或组合架构的需求

产品媛Gloria Deng·2025-02-27 03:08

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

本文是LLM系列文章，针对《LLaVA-CoT:LetVisionLanguageModelsReasonStep-by-Step》的翻译。

UnknownBody·2025-02-22 16:08

从表征视角看VLLM--总讲（万字专栏，持续更新）

BLIP系列：BLIP1.0、BLIP2.0从表征视角看VLLM（1）——BLIP系列模型-CSDN博客LLAVA系列：LLAVA1.0、LLAVA1.5、LL

仙人球小熊·2025-02-18 19:25

TC-LLaVA论文笔记

RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q

0yumiwawa0·2025-02-10 03:27

大模型生态开源工具整理

主要功能多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-

miracletiger·2025-02-07 08:35

【无标题】

Llava环境构建遇到flash-attn问题解决flash-attn安装pip安装#使用pip安装pipinstallflash-attn--no-build-isolation使用whl文件离线安装下载

随心而动的动·2025-01-30 01:02

为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介

LLaVA最初用了简单的线性投射，然而作者提到这么做是为了做实验更快一点，使用复杂的模块可能会有更好的效果。后来就有用MLP的，代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former

同屿Firmirin·2025-01-30 01:01

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

完整报错信息：ImportError:/home/linjl/anaconda3/envs/sd/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN3c105ErrorC2ENS_14SourceLocationENSt7__cxx1112basic_s

同屿Firmirin·2025-01-28 00:46

多模态视觉语言模型

文章目录1.多模态大模型概述1.1模型范式1.2训练范式2.BLIP3.BLIP24.LLaVa&LLaVA1.55.QwenVL5.1模型结构5.2训练过程6.参考1.多模态大模型概述1.1模型范式1

funNLPer·2025-01-20 16:48

工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！

随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能

大模型扬叔·2025-01-19 20:29

使用LLaVa和Ollama实现多模态RAG示例

本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!

llzwxh888·2024-09-16 09:20

[论文笔记] LLaVA

一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化

心心喵·2024-09-03 08:53

VLM 系列——Llava1.6——论文解读

一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-02-12 06:10

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型

TigerZ*·2024-02-12 06:40

VLM 系列——LLaVA-MoLE——论文解读

一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs

TigerZ*·2024-02-12 06:37

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

本文是LLM系列文章，针对《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》的翻译。

UnknownBody·2024-02-07 16:53

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。为增强LVLMs提供了更高效、更有效的解决方案，而不受传统缩放方法的典型限制。

deephub·2024-02-07 11:01

LLaVA：GPT-4V(ision) 的新开源替代品

LLaVA：GPT-4V(ision)的新开源替代品。LLaVA（https://llava-vl.github.io/，是LargeLanguage和VisualAssistant的缩写）。

代码讲故事·2024-02-05 06:12

微软开源多模态模型LLaVA-1.5

随着OpenAI发布GPT-4V后，多模态功能逐渐成为主流，并涌现出了MiniGPT-4、LLaVA等卓越多模态开源模型。

RPA中国·2024-02-01 10:27

VLM 系列——Llava1.5——论文解读

一、概述1、是什么Llava1.5是llava的升级全称《ImprovedBaselineswithVisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述

TigerZ*·2024-01-29 21:00

VLM 系列——Llava——论文解读

一、概述1、是什么Llava全称《VisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-01-29 21:57

LLaVA-Plus：多模态大模型的新突破

在这一领域中，LLaVA-Plus的推出无疑是一次重大突破。作为LLaVA团队的最新工作，LLaVA-Plus不仅继承了LLaVA的优秀特性，还在此基础上进行了显著改进和升级。

努力犯错·2024-01-19 23:55

【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

论文标题：Video-LLaVA:LearningUnitedVisualRepresentationbyAlignmentBeforeProjection论文作者：BinLin,YangYe,BinZhu

datamonday·2024-01-05 20:19

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

来源：机器之心本文约2500字，建议阅读5分钟尽管LLaVA是用一个小的多模态指令数据集训练的，但它在一些示例上展示了与多模态模型GPT-4非常相似的推理结果。GPT-4的识图能力什么时候能上线呢？

数据派THU·2024-01-04 12:43

熔岩羊驼LLaVA：社区又一个多模态大模型，像GPT-4一样可以看图聊天

本文来源机器之心编辑：赵阳尽管LLaVA是用一个小的多模态指令数据集训练的，但它在一些示例上展示了与多模态模型GPT-4非常相似的推理结果。GPT-4的识图能力什么时候能上线呢？

机器学习与AI生成创作·2024-01-04 12:42

LLaVA：大型语言和视觉助手

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态和Transformer】交流群在CVer微信公众号后台回复：LLaVA，可以下载本论文pdf、代码和数据集，学起来

Amusi（CVer）·2024-01-04 12:12

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

论文标题：AligningLargeMultimodalModelswithFactuallyAugmentedRLHF论文作者：ZhiqingSun,ShengShen,ShengcaoCao,HaotianLiu,ChunyuanLi,YikangShen,ChuangGan,Liang-YanGui,Yu-XiongWang,YimingYang,KurtKeutzer,TrevorDarr

datamonday·2024-01-02 13:58

多模态大模型的前世今生

微软发了一篇长达166页的GPT-4V测评论文，一时间又带起了一阵多模态的热议，随后像是LLaVA-1.5、CogVLM、MiniGPT-5等研究工作紧随其后，到处刷屏。

智慧医疗探索者·2024-01-02 12:57

【LMM 001】大型语言和视觉助手 LLaVA

论文标题：VisualInstructionTuning论文作者：HaotianLiu,ChunyuanLi,QingyangWu,YongJaeLee作者单位：UniversityofWisconsin-Madison,MicrosoftResearch,ColumbiaUniversity论文原文：https://arxiv.org/abs/2304.08485论文出处：NeurIPS2023

datamonday·2024-01-02 06:13

浙大校友开源多模态大模型LLaVA-1.5

来源：新智元【导读】GPT-4V风头正盛，LLaVA-1.5就来踢馆了！它不仅在11个基准测试上都实现了SOTA，而且13B模型的训练，只用8个A100就可以在1天内完成。

人工智能与算法学习·2024-01-01 23:48

浙大校友开源多模态大模型LLaVA-1.5

这才没过多久，GPT-4V的开源竞争对手——LLaVA-1.5，就已经来了！4月，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员开源了一款全新的端到端多模态大模型LLaVA。

深度学习技术前沿·2024-01-01 23:48

LLaVA-Med 论文阅读笔记

LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDay论文阅读笔记Abstract本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉

夏洛特兰兰·2024-01-01 23:18

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

Title:LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDayPDF:https://arxiv.org

Python算法实战·2024-01-01 23:17

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

论文标题：LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDay论文作者：ChunyuanLi∗,CliffWong

datamonday·2024-01-01 23:47

6、LLaVA

简介LLaVA官网LLaVA使用Vicuna(LLaMA-2)作为LLMfϕ(⋅)f_\phi(·)fϕ(⋅)，使用预训练的CLIP图像编码器ViT-L/14g(Xv)g(X_v)g(Xv)。

C--G·2023-12-30 02:34

多模态大模型：关于RLHF那些事儿

Overview多模态大模型关于RLHF的代表性文章一、LLaVA-RLHF二、RLHF-V三、SILKIE多模态大模型关于RLHF的代表性文章一、LLaVA-RLHF题目:ALIGNINGLARGEMULTIMODALMODELSWITHFACTUALLYAUGMENTEDRLHF

猴猴猪猪·2023-12-25 05:10

推荐频道

llava

Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference

利用ms-swift微调LLaVA-OneVision

[2025CVPR]Multi-Layer Visual Feature Fusion in Multimodal LLMs 多模态大语言模型中的多层视觉特征融合

LLaVa官网文档翻译

[原理理解] 超分使用到的RAM模型和LLAVA模型

【AI论文】HunyuanCustom：一种多模态驱动的定制视频生成架构

大厂NLP技术全景：从BERT到GPT-5的演进与优化

LLaVA：开源多模态大语言模型深度解析

[论文阅读] Improved Baselines with Visual Instruction Tuning

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

多模态大模型常见问题

LLaVA-Mini用一个视觉Token革新多模态大模型

ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集

ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘ (/root/LLaVA/llava/model

多模态｜开源多模态模型Emu3 & 多模态预训练模型CLIP对比

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

从表征视角看VLLM--总讲（万字专栏，持续更新）

TC-LLaVA论文笔记

大模型生态开源工具整理

【无标题】

为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

多模态视觉语言模型

工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！

使用LLaVa和Ollama实现多模态RAG示例

[论文笔记] LLaVA

VLM 系列——Llava1.6——论文解读

VLM 系列——MoE-LLaVa——论文解读

VLM 系列——LLaVA-MoLE——论文解读

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

LLaVA：GPT-4V(ision) 的新开源替代品

微软开源多模态模型LLaVA-1.5

VLM 系列——Llava1.5——论文解读

VLM 系列——Llava——论文解读

LLaVA-Plus：多模态大模型的新突破

【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

熔岩羊驼LLaVA：社区又一个多模态大模型，像GPT-4一样可以看图聊天

LLaVA：大型语言和视觉助手

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

多模态大模型的前世今生

【LMM 001】大型语言和视觉助手 LLaVA

浙大校友开源多模态大模型LLaVA-1.5

浙大校友开源多模态大模型LLaVA-1.5

LLaVA-Med 论文阅读笔记

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

6、LLaVA

多模态大模型：关于RLHF那些事儿