vlm

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。

寻丶幽风·2025-03-13 01:33

Mark Github上的一个项目，VLM-R1。GRPO为什么促使MLLM在部分垂域比SFT更好的表现

项目地址：GitHub-om-ai-lab/VLM-R1:SolveVisualUnderstandingwithReinforcedVLMs最近做毕设，看到VLM-R1项目，一个有趣的现象：在Grounding

朱韬韬·2025-03-08 16:40

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。

zhangjiaofa·2025-03-06 23:21

基于DeepSeek 的图生文最新算法 VLM-R1

目录一、算法介绍二算法部署三模型下载四算法测试五可视化脚本一、算法介绍VLM-R1：稳定且可通用的R1风格大型视觉语言模型自从Deepseek-R1推出以来，出现了许多专注于复制和改进它的作品。

AI算法网奇·2025-03-03 18:02

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

本文是LLM系列文章，针对《Xmodel-VLM:ASimpleBaselineforMultimodalVisionLanguageModel》的翻译。

UnknownBody·2025-02-23 14:58

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

然而，当前的视觉语言模型（VLM

UnknownBody·2025-02-22 16:08

SGlang 专为大模型设计的高效服务框架

SGlang是一种专为大型语言模型（LLM）和视觉语言模型（VLM）设计的高效服务框架，旨在提升模型的推理速度和灵活性。

kcarly·2025-02-06 08:52

WiseAD：基于视觉-语言模型的知识增强型端到端自动驾驶

随着视觉语言模型(VLM)的快速发展，人类通用知识和令人印象深刻的逻辑推理能力的出现，推动人们对将VLM应用于高级自动驾驶任务（如场景理解和决策）的兴趣日益浓厚。

硅谷秋水·2025-01-24 07:41

VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器+LLM形式（可以认为没有任何投射层）。比较创新的是图像缩放方式+3DLLM位置编码+（预估后面的训练方式也不太一样）。能够处理包括文本、图像在内的多种数据类型，具备图片描述、单图文问答、多图问对话、视频理解对话、json格式、多语言、agent、高清图理解（代码编写和debug论文暂时

TigerZ*·2025-01-16 18:48

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

整体含义逐行解读create_optimizer函数（重构）整体含义逐行解读create_optimizer_and_scheduler函数（重构）整体含义逐行解读参考repo:WatchTower-Liu/VLM

FlowerLoveJava·2024-08-24 22:40

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

多模态学习笔记-语言模型篇（3）参考repo:WatchTower-Liu/VLM-learning;url:VLLM-BASE吐槽今天接着昨天的源码继续看，黑神话：悟空正好今天发售，希望广大coder

FlowerLoveJava·2024-08-24 22:10

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

多模态学习笔记-语言模型篇（2）参考repo:WatchTower-Liu/VLM-learning;url:vlm-learning吐槽今天的源码看的欲仙欲死，NTK(neuraltangentkernel

FlowerLoveJava·2024-08-23 09:14

VLM 系列——Llava1.6——论文解读

一、概述1、是什么Llava1.6是llava1.5的升级暂时还没有论文等，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及多个版本语言解码器，使用最简单的两层FC构成MLP映射视觉特

TigerZ*·2024-02-12 06:10

VLM （MLLM）系列——论文解读总结

建议以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。CLIP*数据：用了4亿的互联网自有图文对数据。*模型：由一个视觉编码器、一个文本编码器*训练：一阶段预训练，在32768的batchsize下做的对比学习。中文CLIP*数据：由LAION5B等构成一个2亿的图文对数据。*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。*训练：两阶段预训练，权重来

TigerZ*·2024-02-12 06:40

VLM 系列——MoE-LLaVa——论文解读

一、概述1、是什么moe-Llava是Llava1.5的改进全称《MoE-LLaVA:MixtureofExpertsforLargeVision-LanguageModels》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片写代码（HTML、JS、CSS）。支持单幅图片输入（可以作为第一个或第二个

TigerZ*·2024-02-12 06:40

VLM 系列——LLaVA-MoLE——论文解读

一、概述1、是什么Llava-MoLE是Llava1.5的改进全称《LLaVA-MoLE:SparseMixtureofLoRAExpertsforMitigatingDataConflictsinInstructionFinetuningMLLMs》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答，潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述），未知是否能偶根据图片

TigerZ*·2024-02-12 06:37

（2024，VLM，操纵链）CogCoM：训练大型视觉语言模型，通过操作链深入细节

CogCoM:TrainLargeVision-LanguageModelsDivingintoDetailsthroughChainofManipulations公和众和号：EDPJ（进Q交流群：922230617或加VX：CV_EDPJ进V交流群）目录0.摘要2.方法2.1.术语2.2.数据生成2.3训练3.实验5.局限性0.摘要视觉-语言模型（Vision-LanguageModels，VL

EDPJ·2024-02-08 20:52

CodeFuse-VLM 开源，支持多模态多任务预训练/微调

CodeFuse-MFT-VLM项目地址：https://github.com/codefuse-ai/CodeFuse-MFT-VLMCodeFuse-VLM-14B模型地址：CodeFuse-VLM

CodeFuse·2024-02-06 22:37

VLM 系列——Llava1.5——论文解读

一、概述1、是什么Llava1.5是llava的升级全称《ImprovedBaselineswithVisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视

TigerZ*·2024-01-29 21:00

VLM 系列——Qwen-VL 千问—— 论文解读

一、概述1、是什么Qwen-VL全称《Qwen-VL:AVersatileVision-LanguageModelforUnderstanding,Localization,TextReading,andBeyond》，是一个多模态的视觉-文本模型，当前Qwen-VL（20231707）可以完成：图像字幕、视觉问答、OCR、文档理解和视觉定位功能，同时支持多语言对话、多图像交错对话、细粒度识别。基

TigerZ*·2024-01-29 21:00

VLM 系列——Monkey——论文解读

一、概述1、是什么Monkey全称《Monkey:ImageResolutionandTextLabelAreImportantThingsforLargeMulti-modalModels》，是一个多模态的视觉-文本模型，当前版本（20231130）为基于Qwen-vl的三阶段微调（增加了Lora+visualadapter支持更高的分辨率）可以完成对一幅图片进行描述（强项，更细节）、相关事物（

TigerZ*·2024-01-29 21:30

VLM 系列——Object Recognition as Next Token Prediction——论文解读

一、概述1、是什么结合了CLIP的视觉编码器+语言模型Llama的部分参数，将常见的图片描述任务转变为只输出属性，换言之将图片分类转变为预测下一个文本输出token。这样就能够生成图片的topK属性（英文），用于开放域的图片Tag场景。2、亮点*对图像-标题（从原始标题中提取名词作为参考标签）对进行训练，比图像-问题-答案三元组更容易收集和注释。对于推理，生成文本片段作为标签而不是句子。*解码器具

TigerZ*·2024-01-29 21:29

VLM 系列——Instruct BLIP——论文解读

一、概述1、是什么InstructBLIP全称《InstructBLIP:TowardsGeneral-purposeVision-LanguageModelswithInstructionTuning》，是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代

TigerZ*·2024-01-29 21:29

VLM 系列——COGVLM—— 论文解读

一、概述1、是什么COGVLM全称《VISUALEXPERTFORLARGELANGUAGE》，是一个多模态的视觉-文本模型，当前CogVLM-17B（20231130）可以完成对一幅图片进行描述、图中物体或指定输出检测框、相关事物进行问答，但是这个版本只支持一个图片（为且必为首次输入），只支持英文，几乎不支持写代码（目前测试是的）。2、亮点论文认为：在不损害NLP模型原本能力的情况下，通过“视觉

TigerZ*·2024-01-29 21:29

VLM 系列——Llava——论文解读

一、概述1、是什么Llava全称《VisualInstructionTuning》，是一个多模态视觉-文本大语言模型，可以完成：图像描述、视觉问答、根据图片写代码（HTML、JS、CSS），潜在可以完成单个目标的视觉定位、名画名人等识别（问答、描述）。支持单幅图片输入（可以作为第一个或第二个输入），多轮文本对话。本文基于CLIP的视觉编码器，以及LLaMa语言解码器，构建了一个大规模的多模态模型（

TigerZ*·2024-01-29 21:57

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉语言导航

分类:大语言模型LLM视觉模型VLM扩散模型视觉语言导航VLN具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享(有中文摘要，源码或项目地址)==LLM==标题:SpeechTokenizer

晓理紫·2024-01-28 05:10

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--强化学习、模仿学习、机器人、开放词汇

分类:大语言模型LLM视觉模型VLM扩散模型视觉语言导航VLN强化学习RL模仿学习IL机器人开放词汇，检测分割==RL==标题:BeyondTaskPerformance:EvaluatingandReducingtheFlawsofLargeM

晓理紫·2024-01-28 05:38

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享(有中文摘要，源码或项目地址)==LLM==标题:VisualWebArena:EvaluatingMultimodalAgentso

晓理紫·2024-01-27 19:07

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享(有中文摘要，源码或项目地址)==humanrobotinteraction==标题:

晓理紫·2024-01-27 19:07

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==LLM==标题:SpeechGPT-Gen:ScalingChain-of-InformationSpeechGeneration

晓理紫·2024-01-27 19:07

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

专属领域论文订阅VX扫吗关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持如果你感觉对你有帮助可以扫吗关注，每日准时为你推送最新论文分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能

晓理紫·2024-01-27 19:37

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关、强化学习

专属领域论文订阅VX扫吗关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫

晓理紫·2024-01-27 19:36

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习、开放词汇

专属领域论文订阅VX扫吗关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持.非常感谢提供建议分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-27 19:36

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习、开放词汇

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==roboticagent==标题:TheConversationistheCommand:InteractingwithReal-WorldAuto

晓理紫·2024-01-25 13:01

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==chatgpt@largelanguagemodel@LLM==标题:HAZARDChallenge:EmbodiedDecisionMakingi

晓理紫·2024-01-25 13:01

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)-大模型、扩散模型、视觉导航

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==LLM==标题:MindYourFormat:TowardsConsistentEvaluationofIn-ContextLearningImpr

晓理紫·2024-01-25 12:31

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==roboticagent==标题:WorkspaceOptimizationTechniquestoImprovePredictionofHuman

晓理紫·2024-01-25 12:26

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 17:05

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注，并留下邮箱可获得每日定时推送分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-20 17:34

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持关注留下邮箱可每日定时收到论文更新服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇

晓理紫·2024-01-20 02:51

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--具身智能、强化学习

专属领域论文订阅VX关注晓理紫，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 02:51

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

专属领域论文订阅VX关注晓理紫，每日定时更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓理紫]每日论文分享

晓理紫·2024-01-20 02:21

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--大模型，扩散模型...

专属领域论文订阅关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓丽紫]每日论文分享

晓理紫·2024-01-17 20:28

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关

专属领域论文订阅VX关注{晓理紫|小李子}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割[晓丽紫]

晓理紫·2024-01-17 20:27

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航

VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能，机器人强化学习开放词汇，检测分割==LLM==标题:ACloserLookatAUROCandAUPRCunderClassImbalance

晓理紫·2024-01-17 20:27

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关

专属领域论文订阅VX关注{晓理紫}，每日更新论文，如感兴趣，请转发给有需要的同学，谢谢支持VX关注晓理紫，并留下邮箱可免费获取每日论文推送服务分类:大语言模型LLM视觉模型VLM扩散模型视觉导航具身智能

晓理紫·2024-01-17 20:57

CTF CRYPTO 密码学-4

密文：VlM5WnlXc0ZibEhmMmE1ZHYxMDlhVkdmMlk5WmtRPT0=分析应该是根据题目提示解出压缩包的密码，查看flag。

Brucye·2024-01-17 13:42

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM（目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。

TigerZ*·2024-01-09 12:45

基于亚马逊云科技Amazon SageMaker的多模态模型训练、推理及批量表征提取

背景随着大语言模型（LLM）的发展，视觉语言模型（VLM）的应用及落地也在越来越多的场景中被关注及提出。

ZAKER科技动态·2023-12-22 13:45

CogVLM与CogAgent：开源视觉语言模型的新里程碑

引言随着机器学习的快速发展，视觉语言模型（VLM）的研究取得了显著的进步。今天，我们很高兴介绍两款强大的开源视觉语言模型：CogVLM和CogAgent。

超级人工智能·2023-12-20 16:08

推荐频道

vlm

论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control

Mark Github上的一个项目，VLM-R1。GRPO为什么促使MLLM在部分垂域比SFT更好的表现

重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！

基于DeepSeek 的图生文最新算法 VLM-R1

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

SGlang 专为大模型设计的高效服务框架

WiseAD：基于视觉-语言模型的知识增强型端到端自动驾驶

VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（2）

VLM 系列——Llava1.6——论文解读

VLM （MLLM）系列——论文解读总结

VLM 系列——MoE-LLaVa——论文解读

VLM 系列——LLaVA-MoLE——论文解读

（2024，VLM，操纵链）CogCoM：训练大型视觉语言模型，通过操作链深入细节

CodeFuse-VLM 开源，支持多模态多任务预训练/微调

VLM 系列——Llava1.5——论文解读

VLM 系列——Qwen-VL 千问—— 论文解读

VLM 系列——Monkey——论文解读

VLM 系列——Object Recognition as Next Token Prediction——论文解读

VLM 系列——Instruct BLIP——论文解读

VLM 系列——COGVLM—— 论文解读

VLM 系列——Llava——论文解读

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉语言导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--强化学习、模仿学习、机器人、开放词汇

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习、开放词汇

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习、开放词汇

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)-大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--机器人、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--具身智能、强化学习

[晓理紫]每日论文分享(有中文摘要，源码或项目地址)--大模型、扩散模型、视觉导航

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--大模型，扩散模型...

[晓丽紫]每日论文分享(有中文摘要，源码或项目地址)--机器人相关

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--大模型相关、扩散模型、视觉导航

[晓理紫]每日论文推送(有中文摘要，源码或项目地址)--机器人、视觉相关

CTF CRYPTO 密码学-4

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

基于亚马逊云科技Amazon SageMaker的多模态模型训练、推理及批量表征提取

CogVLM与CogAgent：开源视觉语言模型的新里程碑