MLLM

大模型日报｜9 篇必读的大模型论文

苹果新研究：「3D空间理解」通用MLLM多模态大语言模型（MLLM）擅长2D视觉理解，但在3D空间推理方面能力有限。

AI大模型头条·2025-04-02 13:14

效果媲美GPT4V的多模态大型语言模型MiniCPM-V-2_6详细介绍

MiniCPM-V-2.6概述1.1模型背景MiniCPM-V-2.6是由nuoan开发的一款达到GPT-4V级别的多模态大型语言模型（MLLM）。

我就是全世界·2025-03-20 19:54

复旦：过程奖励优化多模态推理

来源：arXiv,2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型（MLLM

大模型任我行·2025-03-20 13:59

整理：开启新征程！四篇文章助力 AI，告别 “3D理解困难户”

近年来，人工智能的发展让大语言模型（MLLM）变得越来越强大，它们可以理解和处理文字、图片、视频等多种信息，在很多领域都有很好的应用。然而，当这些模型需要理解3D（立体）场景时，仍然面临一些困难。

mslion·2025-03-13 07:17

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力

·2025-03-11 20:10

GRPO为什么促使MLLM在部分垂域比SFT更好的表现

项目地址：GitHub-om-ai-lab/VLM-R1:SolveVisualUnderstandingwithReinforcedVLMs最近做毕设，看到VLM-R1项目，一个有趣的现象：在Grounding任务中，GRPO训练的模型不仅展现出更稳定的训练曲线，其域外泛化能力更是远超传统SFT方法。这种差异在OCR等视觉-语言交叉任务中尤为显著。在追求大模型垂直领域落地的道路上，我们是否过度依

朱韬韬·2025-03-08 16:40

【Mamba之模型训练系列（四）】将 mamba 扩展到多模态大型语言模型，实现高效推理

语言模型主干训练策略训练数据训练阶段预训练阶段多模态指令调整阶段微调策略训练细节训练策略的关键结论实验验证实验设置性能比较推理速度消融研究关键结论参考文献这篇文章介绍了一个名为Cobra的新型多模态大型语言模型（MLLM

愷创作者·2025-02-06 00:45

PyQt6医疗多模态大语言模型（MLLM）实用系统框架构建初探（下.代码部分）

医疗MLLM框架编程实现本医疗MLLM框架结合Python与PyQt6构建，旨在实现多模态医疗数据融合分析并提供可视化界面。

Allen_LVyingbo·2025-01-25 12:23

使用Llama 3.2-Vision多模态LLM与您的图像聊天

介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。

AI程序猿人·2025-01-20 12:01

VLM 系列——Qwen2 VL——论文解读——前瞻（源码解读）

一、概述1、是什么是一系列多模态大型语言模型（MLLM），其中包括2B、7B、72B三个版本，整体采用视觉编码器+LLM形式（可以认为没有任何投射层）。

TigerZ*·2025-01-16 18:48

腾讯发表多模态综述，一文详解多模态大模型

多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。

存内计算开发者社区·2024-09-15 21:57

多模态大语言模型(MLLMs)-一般架构（非常详细）零基础入门到精通，收藏这一篇就够了

多模态大语言模型(MultimodalLargeLanguageModel,MLLM），在LLM原有的强大泛化和推理能力基础上，进一步引入了多模态信息处理能力。

程序员_大白·2024-09-14 11:40

A Survey on Benchmarks of Multimodal Large Language Models

多模态大型语言模型基准研究综述摘要1引言2前言3感知与理解4认知与推理5特定领域6关键能力7其他模态8结论摘要多模态大型语言模型（MLLM）在学术界和工业界越来越受欢迎，因为它们在视觉问答、视觉感知、理解和推理等各种应用中表现出色

UnknownBody·2024-08-29 11:20

VLM （MLLM）系列——论文解读总结

建议以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。CLIP*数据：用了4亿的互联网自有图文对数据。*模型：由一个视觉编码器、一个文本编码器*训练：一阶段预训练，在32768的batchsize下做的对比学习。中文CLIP*数据：由LAION5B等构成一个2亿的图文对数据。*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。*训练：两阶段预训练，权重来

TigerZ*·2024-02-12 06:40

苹果推出新型开源AI图像编辑模型“MGIE”；可汗学院辅助学习的GPT,Prompt 质量非常高

MGIE，全称MLLM-GuidedImageEditing，依赖于多模态大型语言模型（MLLM）来解释用户指令，并执行精细的像素级编辑操作。

go2coding·2024-02-08 22:07

【多模态MLLMs+图像编辑】MGIE：苹果开源基于指令和大语言模型的图片编辑神器（24.02.03开源）

项目主页：https://mllm-ie.github.io/论文:基于指令和多模态大语言模型图片编辑2309.GuidingInstruction-basedImageEditingviaMultimodalLargeLanguageModels

曾小蛙·2024-02-06 20:52

V∗: Guided Visual Search as a Core Mechanism in Multimodal LLMs

然而，这种视觉搜索机制的缺乏，在目前的多模态LLM（MLLM）阻碍了他们的能力，专注于重要的视觉细节，特别是在处理高分辨率和视觉拥挤的图像。

这家伙是个好家伙·2024-01-24 12:37

VCoder：大语言模型的眼睛

简介VCoder的一个视觉编码器，能够帮助MLLM更好地理解和分析图像内容。提高模型在识别图像中的对象、理解图像场景方面的能力。

AI 研习所·2024-01-13 00:49

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM（目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。

TigerZ*·2024-01-09 12:45

burpsuite 爆破

pwd=mllm提取码：mllm--来自百度网盘超级会员V2的分享一、暴力破解-基于表单的暴力破解1）先抓包在bp中找到登录请求2）

狗蛋的博客之旅·2024-01-06 04:27

多模态大模型MLLM 指令微调相关文章

文章目录LLM“家谱树”MLLM使用指南--任务导向上手大模型多模态大模型的发展多模态数据!

榴莲_·2024-01-04 12:43

腾讯发布实体任务规划基准，GPT-4V也频频出错！迈向大模型与物理世界交互！

多模态大型语言模型（MLLM）目前主要通过数字化的方式与信息世界进行交互，涉及自然语言处理、计算机视觉和多模态生成任务等领域。

夕小瑶·2023-12-27 03:26

VIGC: Visual Instruction Generation and Correction---------VIGC：视觉指令生成和纠正

上海人工智能实验室Abstract视觉编码器和大语言模型（LLM）的集成推动了多模态大语言模型（MLLM）的最新进展。然而，视觉语言任务的高质量指令调整数据的稀缺仍然是一个挑战。

Mars_prime·2023-12-21 08:35

探索AIGC未来：CPU源码优化、多GPU编程与中国算力瓶颈与发展

★人工智能；大数据技术;AIGC;Turbo;DALL·E3;多模态大模型；MLLM；LLM；Agent；Llama2；国产GPU芯片；GPU;CPU；高性能计算机；边缘计算；大模型显存占用；5G;深度学习

高性能服务器·2023-12-15 04:30

Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟：多模态大语言模型的幻觉校正

Abstract幻觉是笼罩在快速发展的多模态大语言模型（MLLM）上的一个大阴影，指的是生成的文本与图像内容不一致的现象。为了减轻幻觉，现有的研究主要采用指令调整的方式，需要用特定的数据重新训练模型。

Mars_prime·2023-12-01 19:41

新王加冕，GPT-4V 屠榜视觉问答

当前，多模态大型模型（Multi-modalLargeLanguageModel,MLLM）在视觉问答（VQA）领域展现了卓越的能力。

夕小瑶·2023-11-25 01:02

视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务

近年来，研究人员对多模态大模型（MLLM）理解能力进行探索，旨在将强大的纯文本LLM扩展到处理多模态输入。如图1(a)所示，常规方法主要将由预训练视觉主干编码的视觉特

夕小瑶·2023-11-16 11:37

微软多模态ChatGPT来了？搞定看图答题、智商测验等任务！

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【计算机视觉】微信技术交流群转载自：机器之心|编辑：杜伟、陈萍从大型语言模型（LLM）到多模态大型语言模型（MLLM），微软又迈出了重要一步

Amusi（CVer）·2023-11-11 10:46

多模态大语言模型综述来啦！一文带你理清多模态关键技术

夕小瑶科技说原创作者|智商掉了一地、Python随着ChatGPT在各领域展现出非凡能力，多模态大型语言模型（MLLM）近来也成为了研究的热点，它利用强大的大型语言模型（LLM）作为“大脑”，可以执行各种多模态任务

夕小瑶·2023-11-07 06:01

基于自然语言处理的多模态模型_综述

mingqian_chu·2023-11-07 06:52

解决多模态大模型幻觉问题的秘密武器：“啄木鸟”免重训方法！哪里出问题啄哪里！

▲给定一幅图像，MLLM会输出的回应，包括了物体层面和属性层面的幻觉。为了缓解这个问题，中科大开发了一种名为Woodpecker（啄木鸟）的新方法。这个方法可以从生成的文本中挑选出幻觉并进行纠正。

夕小瑶·2023-11-01 12:20

微软多模态ChatGPT来了？16亿参数搞定看图答题、智商测验等任务

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G从大型语言模型（LLM）到多模态大型语言模型（MLLM

计算机视觉研究院·2023-11-01 04:49

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

目录前言一、多模态模型进展与探索1、GPT-4V(多模态)测试2、LLM时代文档图像处理技术趋势3、LLM时代文档图像技术机会4、MLLM时代文档图像处理技术趋势5、知名文档图像大模型OCR性能分析二、

不叫猫先生·2023-10-28 22:56

LLaVA:visual instruction tuning

对近期一些MLLM(MultimodalLargeLanguageModel)的总结-知乎本文将从模型结构，训练方法，训练数据，模型表现四个方面对近期的一些MLLM（Multi-modalLargeLanguageModels

Kun Li·2023-10-28 09:30

文档图像前沿技术探索 | 多模态及图像安全

目录前言多模态模型进展与探索大语言模型（LLM）多模态大语言模型（MLLM）图像安全研究背景系统架构生成式AI合合信息前言近期，第六届中国模式识别与计算机视觉大会（厦门PRCV2023）顺利闭幕。

@每天都要敲代码·2023-10-25 07:19

Can We Edit Multimodal Large Language Models?

UnknownBody·2023-10-14 15:58

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

MME:一个多模态大型语言模型的综合评估基准摘要1引言2MME评估套件3实验4分析5结论摘要多模态大语言模型（MLLM）依靠强大的LLM来执行多模态任务，在最近的研究中显示出惊人的涌现能力，例如基于图像写诗

UnknownBody·2023-08-19 15:20

【深度学习】骨干网络大一统！Meta-Transformer

仅作学术分享，不代表本公众号立场，侵权联系删除转载于：机器之心在迈向通用人工智能（AGI）的诸多可能的方向中，发展多模态大模型（MLLM）已然成为当前炙手可热的重要路径。

风度78·2023-08-01 18:07

12种模态，一个学习框架，Meta-Transformer实现骨干网络大一统

在迈向通用人工智能（AGI）的诸多可能的方向中，发展多模态大模型（MLLM）已然成为当前炙手可热的重要路径。在GPT4对图文理解的冲击下，更多模态的理解成为学术界关注的焦点，通感时代真要来了吗？

我爱计算机视觉·2023-07-30 23:10

多模态大模型（MLLM）之VisCPM：支持中文对话文图双向生成

2020年12月发布的CPM-1是国内首个中文大模型；2022年9月发布的CPM-Ant仅微调0.06%参数就能超越全参数微调效果；2023年5月发布的WebCPM是中文首个基于搜索的问答开源模型。CPM-Bee百亿大模型是团队最新发布的基座模型，中文能力登顶权威榜单ZeroCLUE，英文能力打平LLaMA。VisCPM是清华系面壁智能开源的多语言多模态大模型。它基于百亿参数基座模型CPM-Bee

wshzd·2023-07-26 00:13

Shikra：新一代多模态大语言模型，理解指向，说出坐标

我们将这种对话模式称为参考对话（ReferentialDialogue）；如果多模态大语言模型（MLLM）擅长这项技能，它将带来许多令人兴奋的应用。

TechBeat人工智能社区·2023-07-23 10:03

从LLM到MLLM，多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力

来自：机器之心在NLP领域，大规模语言模型（LLM）已经成功地在各种自然语言任务中充当通用接口。只要我们能够将输入和输出转换为文本，就能使得基于LLM的接口完成一个任务。举例而言，对于摘要任务，我们能够将文档输入到语言模型，语言模型就可以生成摘要。尽管LLM在NLP任务中取得了成功的应用，但研究人员仍努力将其原生地用于图像和音频等多模态数据。作为智能的基本组成部分，多模态感知是实现通用人工智能的必

zenRRan·2023-04-01 03:46

推荐频道