LLAVA

[论文阅读] Improved Baselines with Visual Instruction Tuning

启发：1、LLaVA-1.5和LLaVA以及其他大模型相比，做出了哪些改进？

零澪灵·2025-04-26 18:19

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

数据准备快速开始LLaMABoard可视化微调（由Gradio驱动）构建Docker利用vLLM部署OpenAIAPI从魔搭社区下载从魔乐社区下载使用W&B面板使用SwanLab面板项目特色多种模型：LLaMA、LLaVA

Jackilina_Stone·2025-04-13 07:52

多模态大模型常见问题

1.视觉编码器和LLM连接时，使用BLIP2中Q-Former那种复杂的Adaptor好还是LLaVA中简单的MLP好，说说各自的优缺点？

cv2016_DL·2025-03-23 12:06

LLaVA-Mini用一个视觉Token革新多模态大模型

SGG_CV·2025-03-18 05:18

ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集

2025-01-15，由北航大学、合肥工业大学、中科院信息工程研究所和美团等机构联合创建介绍了一种名为LLaVA-ST的多模态大型语言模型。

·2025-03-17 15:12

ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘ (/root/LLaVA/llava/model

[Question]ImportError:cannotimportname‘LlavaLlamaForCausalLM’from‘llava.model’(/root/LLaVA/llava/model

Lemon J Lee·2025-03-02 12:25

多模态｜开源多模态模型Emu3 & 多模态预训练模型CLIP对比

Emu3在生成和感知方面都表现出色Emu3在生成和感知任务方面都优于几个成熟的任务特定模型，超越了SDXL、LLaVA-1.6和OpenSora-1.2等旗舰开放模型，同时消除了对扩散或组合架构的需求

产品媛Gloria Deng·2025-02-27 03:08

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

本文是LLM系列文章，针对《LLaVA-CoT:LetVisionLanguageModelsReasonStep-by-Step》的翻译。

UnknownBody·2025-02-22 16:08

从表征视角看VLLM--总讲（万字专栏，持续更新）

BLIP系列：BLIP1.0、BLIP2.0从表征视角看VLLM（1）——BLIP系列模型-CSDN博客LLAVA系列：LLAVA1.0、LLAVA1.5、LL

仙人球小熊·2025-02-18 19:25

TC-LLaVA论文笔记

RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q

0yumiwawa0·2025-02-10 03:27

大模型生态开源工具整理

主要功能多种模型：LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Qwen2-

miracletiger·2025-02-07 08:35

【无标题】

Llava环境构建遇到flash-attn问题解决flash-attn安装pip安装#使用pip安装pipinstallflash-attn--no-build-isolation使用whl文件离线安装下载

随心而动的动·2025-01-30 01:02

为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介

LLaVA最初用了简单的线性投射，然而作者提到这么做是为了做实验更快一点，使用复杂的模块可能会有更好的效果。后来就有用MLP的，代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former

同屿Firmirin·2025-01-30 01:01

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

完整报错信息：ImportError:/home/linjl/anaconda3/envs/sd/lib/python3.10/site-packages/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so:undefinedsymbol:_ZN3c105ErrorC2ENS_14SourceLocationENSt7__cxx1112basic_s

同屿Firmirin·2025-01-28 00:46

多模态视觉语言模型

文章目录1.多模态大模型概述1.1模型范式1.2训练范式2.BLIP3.BLIP24.LLaVa&LLaVA1.55.QwenVL5.1模型结构5.2训练过程6.参考1.多模态大模型概述1.1模型范式1

funNLPer·2025-01-20 16:48

工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！

随着GPT-4o、Gemini1.5Pro、LLaVA1.6的发布，基于Transformer架构和海量数据训练的多模态大模型再次点燃通用人工智能（AGI），其对文本、图像等多模态输入的支持和强大的理解能力也象征着人工智能迈向通用人工智能

大模型扬叔·2025-01-19 20:29

使用LLaVa和Ollama实现多模态RAG示例

本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!

llzwxh888·2024-09-16 09:20

[论文笔记] LLaVA

一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化

心心喵·2024-09-03 08:53

VLM 系列——Llava1.6——论文解读

一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-02-12 06:10

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型

TigerZ*·2024-02-12 06:40

VLM 系列——LLaVA-MoLE——论文解读

一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs

TigerZ*·2024-02-12 06:37

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

本文是LLM系列文章，针对《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》的翻译。

UnknownBody·2024-02-07 16:53

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

MoE-LLaVA利用了“专家混合”策略融合视觉和语言数据，实现对多媒体内容的复杂理解和交互。为增强LVLMs提供了更高效、更有效的解决方案，而不受传统缩放方法的典型限制。

deephub·2024-02-07 11:01

LLaVA：GPT-4V(ision) 的新开源替代品

LLaVA：GPT-4V(ision)的新开源替代品。LLaVA（https://llava-vl.github.io/，是LargeLanguage和VisualAssistant的缩写）。

代码讲故事·2024-02-05 06:12

微软开源多模态模型LLaVA-1.5

随着OpenAI发布GPT-4V后，多模态功能逐渐成为主流，并涌现出了MiniGPT-4、LLaVA等卓越多模态开源模型。

RPA中国·2024-02-01 10:27

VLM 系列——Llava1.5——论文解读

一、概述1、是什么Llava1.5是llava的升级全称《ImprovedBaselineswithVisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述

TigerZ*·2024-01-29 21:00

VLM 系列——Llava——论文解读

一、概述1、是什么Llava全称《VisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位

TigerZ*·2024-01-29 21:57

LLaVA-Plus：多模态大模型的新突破

在这一领域中，LLaVA-Plus的推出无疑是一次重大突破。作为LLaVA团队的最新工作，LLaVA-Plus不仅继承了LLaVA的优秀特性，还在此基础上进行了显著改进和升级。

努力犯错·2024-01-19 23:55

【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

论文标题：Video-LLaVA:LearningUnitedVisualRepresentationbyAlignmentBeforeProjection论文作者：BinLin,YangYe,BinZhu

datamonday·2024-01-05 20:19

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

来源：机器之心本文约2500字，建议阅读5分钟尽管LLaVA是用一个小的多模态指令数据集训练的，但它在一些示例上展示了与多模态模型GPT-4非常相似的推理结果。GPT-4的识图能力什么时候能上线呢？

数据派THU·2024-01-04 12:43

熔岩羊驼LLaVA：社区又一个多模态大模型，像GPT-4一样可以看图聊天

本文来源机器之心编辑：赵阳尽管LLaVA是用一个小的多模态指令数据集训练的，但它在一些示例上展示了与多模态模型GPT-4非常相似的推理结果。GPT-4的识图能力什么时候能上线呢？

机器学习与AI生成创作·2024-01-04 12:42

LLaVA：大型语言和视觉助手

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态和Transformer】交流群在CVer微信公众号后台回复：LLaVA，可以下载本论文pdf、代码和数据集，学起来

Amusi（CVer）·2024-01-04 12:12

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

论文标题：AligningLargeMultimodalModelswithFactuallyAugmentedRLHF论文作者：ZhiqingSun,ShengShen,ShengcaoCao,HaotianLiu,ChunyuanLi,YikangShen,ChuangGan,Liang-YanGui,Yu-XiongWang,YimingYang,KurtKeutzer,TrevorDarr

datamonday·2024-01-02 13:58

多模态大模型的前世今生

微软发了一篇长达166页的GPT-4V测评论文，一时间又带起了一阵多模态的热议，随后像是LLaVA-1.5、CogVLM、MiniGPT-5等研究工作紧随其后，到处刷屏。

智慧医疗探索者·2024-01-02 12:57

【LMM 001】大型语言和视觉助手 LLaVA

论文标题：VisualInstructionTuning论文作者：HaotianLiu,ChunyuanLi,QingyangWu,YongJaeLee作者单位：UniversityofWisconsin-Madison,MicrosoftResearch,ColumbiaUniversity论文原文：https://arxiv.org/abs/2304.08485论文出处：NeurIPS2023

datamonday·2024-01-02 06:13

浙大校友开源多模态大模型LLaVA-1.5

来源：新智元【导读】GPT-4V风头正盛，LLaVA-1.5就来踢馆了！它不仅在11个基准测试上都实现了SOTA，而且13B模型的训练，只用8个A100就可以在1天内完成。

人工智能与算法学习·2024-01-01 23:48

浙大校友开源多模态大模型LLaVA-1.5

这才没过多久，GPT-4V的开源竞争对手——LLaVA-1.5，就已经来了！4月，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员开源了一款全新的端到端多模态大模型LLaVA。

深度学习技术前沿·2024-01-01 23:48

LLaVA-Med 论文阅读笔记

LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDay论文阅读笔记Abstract本文提出了一种经济有效的方法训练一个可以回答生物医学图像开放研究问题的视觉

夏洛特兰兰·2024-01-01 23:18

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

Title:LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDayPDF:https://arxiv.org

Python算法实战·2024-01-01 23:17

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

论文标题：LLaVA-Med:TrainingaLargeLanguage-and-VisionAssistantforBiomedicineinOneDay论文作者：ChunyuanLi∗,CliffWong

datamonday·2024-01-01 23:47

6、LLaVA

简介LLaVA官网LLaVA使用Vicuna(LLaMA-2)作为LLMfϕ(⋅)f_\phi(·)fϕ(⋅)，使用预训练的CLIP图像编码器ViT-L/14g(Xv)g(X_v)g(Xv)。

C--G·2023-12-30 02:34

多模态大模型：关于RLHF那些事儿

Overview多模态大模型关于RLHF的代表性文章一、LLaVA-RLHF二、RLHF-V三、SILKIE多模态大模型关于RLHF的代表性文章一、LLaVA-RLHF题目:ALIGNINGLARGEMULTIMODALMODELSWITHFACTUALLYAUGMENTEDRLHF

猴猴猪猪·2023-12-25 05:10

LLM之RAG实战（七）| 使用llama_index实现多模态RAG

最近还有一些其他的多模态模型：LLaVa和Fuyu-8B。在过去的一年里，大部分应用程序开发都是围绕文本输入/文本输出范式。最典型的例子之一是检索增强

wshzd·2023-12-23 09:27

论文阅读——llava

VisualInstructionTuningLLaVA指令智能体分为两类：端到端的，通过LangChain[1]/LLM[35]协调各种模型的系统。数据集生成用GPT辅助生成的，具体不写了。模型结构：inputimageXvLLM：Vicunavisualencoder：pre-trainedCLIPvisualencoderViT-L/14W是为了和词向量一个维度（weapplyatraina

じんじん·2023-12-23 06:39

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

当前领先的范例，例如LLaVA，依赖于仅语言的GPT-4来生成数据，这需要预先注释的图像标题和检测边界框，这在理解图像细节方面遇到了困难。

Mars_prime·2023-12-21 08:35

北京通用人工智能研究院提出了首个三维世界中的具身多任务多模态的通才智能体 LEO

今年以来，以GPT-4(V)[1]、LLaVA[2]、PALM-E[3]等为代表的多模态大语言模型（Multi-modalLargeLanguageModel）在自然语言处理、视觉理解、机器人等任务上取得了显著的成功

xwz小王子·2023-12-15 00:41

多模态模型的语言幻觉和视觉幻觉

AnImage-ContextReasoningBenchmarkChallengingforGPT-4V(ision),LLaVA-1.5,andOtherMulti-modalityModels论文链接

huahuahuahhhh·2023-11-28 19:27

视觉CV-AIGC一周最新技术精选(2023-11)

PG-Video-LLaVA:PixelGroundingLargeVideo-LanguageModelshttps://github.com/mbzuai-oryx/Video-LLaVA将基于图像的大型多模态模型

机器学习与AI生成创作·2023-11-26 13:14

盘点2023年Q3的开源模型，这些值得推荐！

基座模型LLaMA2Baichuan2ChatGLM2-6BQwen-14BInternLM-20BTigerbot-13BTigerbot-70B多模态模型LLaVA1.5VisualGLM-6BVisCPMNexT-GPTMiniGPT

快乐小码农·2023-11-26 10:57

llava1.5模型安装、预测、训练详细教程

引言本博客介绍LLava1.5多模态大模型的安装教程、训练教程、预测教程，也会涉及到huggingface使用与wandb使用。

tangjunjun-owen·2023-11-06 22:11

推荐频道

LLAVA

[论文阅读] Improved Baselines with Visual Instruction Tuning

【微调大模型】轻松微调百余种大模型：LLaMA-Factory

多模态大模型常见问题

LLaVA-Mini用一个视觉Token革新多模态大模型

ST-Align：一个包含430万训练样本，涵盖了15种细粒度多模态数据集

ImportError: cannot import name ‘LlavaLlamaForCausalLM‘ from ‘llava.model‘ (/root/LLaVA/llava/model

多模态｜开源多模态模型Emu3 & 多模态预训练模型CLIP对比

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

从表征视角看VLLM--总讲（万字专栏，持续更新）

TC-LLaVA论文笔记

大模型生态开源工具整理

【无标题】

为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介

LLaVA微调debug：ImportError: xxx/flash_attn_2_cuda.cpython-310-x86_64-linux-gnu.so: undefined symbol:

多模态视觉语言模型

工业场景将成为AI大模型的重要战场！零基础入门AI大模型，看这篇就够了！

使用LLaVa和Ollama实现多模态RAG示例

[论文笔记] LLaVA

VLM 系列——Llava1.6——论文解读

VLM 系列——MoE-LLaVa——论文解读

VLM 系列——LLaVA-MoLE——论文解读

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型

LLaVA：GPT-4V(ision) 的新开源替代品

微软开源多模态模型LLaVA-1.5

VLM 系列——Llava1.5——论文解读

VLM 系列——Llava——论文解读

LLaVA-Plus：多模态大模型的新突破

【LMM 007】Video-LLaVA：通过投影前对齐以学习联合视觉表征的视频多模态大模型

熔岩羊驼LLaVA来了：像GPT-4一样可以看图聊天，无需邀请码，在线可玩

熔岩羊驼LLaVA：社区又一个多模态大模型，像GPT-4一样可以看图聊天

LLaVA：大型语言和视觉助手

【LMM 004】LLaVA-RLHF：用事实增强的 RLHF 对齐大型多模态模型

多模态大模型的前世今生

【LMM 001】大型语言和视觉助手 LLaVA

浙大校友开源多模态大模型LLaVA-1.5

浙大校友开源多模态大模型LLaVA-1.5

LLaVA-Med 论文阅读笔记

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

6、LLaVA

多模态大模型：关于RLHF那些事儿

LLM之RAG实战（七）| 使用llama_index实现多模态RAG

论文阅读——llava

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

北京通用人工智能研究院提出了首个三维世界中的具身多任务多模态的通才智能体 LEO

多模态模型的语言幻觉和视觉幻觉

视觉CV-AIGC一周最新技术精选(2023-11)

盘点2023年Q3的开源模型，这些值得推荐！

llava1.5模型安装、预测、训练详细教程