大家好,今日必读的大模型论文来啦!
多模态大语言模型(MLLM)擅长 2D 视觉理解,但在 3D 空间推理方面能力有限。
在这项工作中,苹果团队利用带有开放集注释的大规模高质量 3D 场景数据,推出了:1)一个新的监督微调数据集;2)一个新的、重点关注室内场景的评估基准。他们的 Cubify Anything VQA(CA-VQA)数据涵盖多种空间任务,包括空间关系预测、度量尺寸和距离估计以及 3D 接地。
此外,他们基于 CA-VQA 训练了一种通用 MLLM,即 MM-Spatial,其在 3D 空间理解基准上也达到了 SOTA。他们展示了如何结合度量深度和多视角输入(在 CA-VQA 中提供)来进一步提高 3D 理解能力,并证明仅凭数据就能让 MM-Spatial 实现与专用单目深度估计模型相当的深度感知能力。
论文链接:
https://arxiv.org/abs/2503.13111
验证,对于有效的数学推理至关重要。在这项工作中,普林斯顿大学王梦迪教授团队提出了一种新的时间一致性方法。在这种方法中,验证者会根据之前的评估反复完善自己的判断。与单轮验证或多模型辩论方法不同,这一方法利用一系列自我反思行动的一致性来提高验证的准确性。
在各种数学流程错误识别基准(如 Mathcheck、ProcessBench 和 PRM800K)上进行的经验评估显示,与基准方法相比,这一方法在性能上有了持续的提高。当应用于 DeepSeek R1 精馏模型时,这一方法使 7B/8B 蒸馏模型在 ProcessBench 上优于所有 70B/72B 模型和 GPT-4o。值得注意的是,采用他们的方法蒸馏的 14B 模型的性能可与 Deepseek-R1 相媲美。
论文链接:
https://arxiv.org/abs/2503.14495
GitHub 地址:
https://github.com/jcguo123/Temporal-Consistency
多模态大语言模型(MLLMs)在细粒度感知和复杂推理方面面临挑战。由于收集思维链(CoT)推理数据的成本极高,因此主流多模态预训练方法侧重于通过在高质量图像描述上进行训练来提高感知能力。虽然利用 MLLM 生成描述可以提高可扩展性,但其输出往往缺乏全面性和准确性。
在这项工作中,来自清华大学和香港中文大学的研究团队提出了自我改进认知(Self-Improving cognition,SIcog),这是一个自学习框架,旨在通过使用自生成的数据进行多模态预训练,增强 MLLM 的系统认知能力,从而构建下一代基础 MLLM。
具体来说,他们提出了“描述链”(Chain-of-Description)这一方法,通过逐步实现视觉理解来提高 MLLM 的系统感知能力,从而确保更高的全面性和准确性。此外,他们还采用了结构化 CoT 推理技术,使 MLLM 能够整合深入的多模态推理。为了构建具有自我改进认知能力的下一代基础 MLLM,SIcog 首先使用很少的外部注释为 MLLM 提供系统的感知和推理能力。然后,增强后的模型会生成详细的说明和 CoT 推理数据,并通过自我一致性对这些数据进行进一步整理。这些经过整理的数据最终将用于多模态预训练,以开发下一代基础模型。
在不同基准的低分辨率和高分辨率 MLLM 上进行的广泛实验表明,SIcog 只需 213K 个自生成的预训练样本,就能生成认知能力大大提高的下一代基础 MLLM,与流行的预训练方法相比,其性能达到了领先水平。
论文链接:
https://arxiv.org/abs/2503.12303
GitHub 地址:
https://github.com/thunlp/SICOG
音频和音乐生成已成为许多应用中的关键任务,然而现有方法却面临着很大的局限性:它们彼此独立,没有跨模态的统一能力,缺乏高质量、多模态的训练数据,难以有效整合各种输入。
在这项工作中,香港科技大学团队提出了 AudioX 模型,这是一种统一的扩散 Transformer(DiT)模型,适用于“任何事物到音频和音乐生成”。与以往针对特定领域的模型不同,AudioX 可以生成高质量的音频和音乐,同时提供灵活的自然语言控制,以及对文本、视频、图像、音乐和音频等各种模态的无缝处理。它的主要创新点在于多模态掩码训练策略,该策略可掩码跨模态输入,并迫使模型从掩码输入中学习,从而产生鲁棒、统一的跨模态表征。为了解决数据稀缺的问题,他们策划了两个综合数据集:vggsound-caps(包含 190K 基于 VGGSound 数据集的音频字幕)和 V2M-caps(包含来自 V2M 数据集的 600 万条音乐字幕)。
广泛的实验证明,AudioX 不仅能与 SOTA 专业模型相媲美,甚至更胜一筹,而且在统一架构内处理各种输入模态和生成任务方面具有显著的多功能性。
论文链接:
https://arxiv.org/abs/2503.10522
项目地址:
https://zeyuet.github.io/AudioX/
大语言模型(LLM)可以通过简单的提示处理各种不同任务,而无需进行特定任务的训练。建立在 LLM 基础上的多模态大语言模型(MLLM)在处理涉及视觉、听觉和文本数据的复杂任务方面表现出了巨大潜力。然而,与真实性、安全性、o1 类推理以及与人类偏好对齐相关的关键问题仍未得到充分解决。这一空白促使各种对齐算法应运而生,它们分别针对不同的应用场景和优化目标。最近的研究表明,对齐算法是解决上述挑战的有力方法。
在这项工作中,来自中国科学院的研究团队及其合作者旨在对 MLLM 的对齐算法进行全面系统的综述。具体来说,他们探讨了四个关键方面:(1)对齐算法涵盖的应用场景,包括通用图像理解、多图像、视频和音频以及扩展的多模态应用;(2)构建对齐数据集的核心因素,包括数据源、模型响应和偏好注释;(3)用于评估对齐算法的基准;以及(4)讨论对齐算法未来的潜在发展方向。
这项工作旨在帮助研究人员整理该领域当前的进展,并启发更好的对齐方法。
论文链接:
https://arxiv.org/abs/2503.14504
GitHub 地址:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment
如今,合成视频被广泛用于补充真实世界视频数据的稀缺性和多样性。目前的合成数据集主要是复制真实世界的场景,对不可能的、反事实的和反现实的视频概念缺乏探索。
在这项工作中,新加坡国立大学团队旨在回答两个问题:(1)当今的视频生成模型能否有效地根据提示创建不可能的视频内容?(2)当今的视频理解模型是否足以理解不可能的视频?
为此,他们提出了 IPV-Bench 基准,旨在评估和促进视频理解和生成方面的进步。IPV-Bench 以全面的分类法为基础,包括 4 个领域、14 个类别,其特点是各种场景都违背了物理、生物、地理或社会规律。根据分类法,他们构建了一个提示套件来评估视频生成模型,挑战它们的提示遵循能力和创造能力。此外,他们还策划了一个视频基准,以评估视频 LLM 理解不可能视频的能力,这尤其需要对时间动态和世界知识进行推理。
综合评估揭示了视频模型的局限性和未来发展方向。
论文链接:
https://arxiv.org/abs/2503.14378
项目地址:
https://showlab.github.io/Impossible-Videos/
个性化图像生成旨在生成用户指定概念的图像,同时实现灵活编辑。与基于训练的方法相比,最近的免训练方法虽然显示出更高的计算效率,但在身份保持、适用性以及与扩散 transformers(DiT)的兼容性方面却存在问题。
在这项工作中,来自北京航空航天大学和清华大学的研究团队揭示了 DiT 尚待开发的潜力,只需将去噪 token 替换为参考对象的 token,即可实现零样本对象重建。这种简单而有效的特征注入技术可以应用于从个性化到图像编辑等多种场景。
基于这一观察结果,他们提出了 Personalize Anything,这是一个免训练的框架,通过以下方法在 DiT 中实现个性化图像生成:1)时间步长自适应 token 替换,通过早期阶段的注入加强主体一致性,并通过后期阶段的正则化增强灵活性;2)补丁扰动策略,以提高结构多样性。这一方法可无缝支持布局引导生成、多主体个性化和掩码控制编辑。评估结果表明,这一方法在特性保持和多功能性方面实现了 SOTA。
论文链接:
https://arxiv.org/abs/2503.12590
项目地址:
https://fenghora.github.io/Personalize-Anything-Page/
视频具有独特的时间维度,需要精确的“接地”理解,其答案与可解释的视觉证据直接相关。尽管大语言模型(LLM)在推理能力方面取得了重大突破,但多模态推理(尤其是视频推理)仍有待探索。
在这项工作中,来自香港理工大学和新加坡国立大学的研究团队推出了一个视频语言 agent——VideoMind,其专为“时间接地”视频理解而设计。
VideoMind 融合了两项关键创新:(1)确定了视频时间推理的基本能力,并开发了基于角色的代理工作流程,包括用于协调不同角色的规划器、用于时间定位的定位器、用于评估时间间隔准确性的验证器和用于问题解答的回答器;(2)为了有效整合这些不同的角色,他们提出了“LoRA 链”策略,通过轻量级 LoRA 适配器实现无缝角色切换,同时避免多个模型的开销,从而在效率和灵活性之间取得平衡。
在 14 个公开基准上进行的广泛实验表明,VideoMind 在各种视频理解任务上都取得了 SOTA,其中包括 3 个接地视频问题解答、6 个视频时空接地问题解答和 5 个一般视频问题解答,这凸显了它在推进视频 agent 和长形式时空推理方面的有效性。
论文链接:
https://arxiv.org/abs/2503.13444
项目地址:
https://videomind.github.io/
人形机器人研究的终极目标是建立能够在现实世界中的具身任务中达到人类水平的自主机器人 agent。近年来,人形机器人在高层认知的基础模型(FM)和低层技能开发方面取得了重大进展。然而,由于长程任务中的复合误差以及不同模块的不同延迟,直接组合这些组件往往会导致鲁棒性和效率低下。
在这项工作中没,来自北京大学和北京智源人工智能研究院(BAAI)的研究团队推出了一个分层 agent 框架——Being-0,它集成了基础模型和模块化技能库。基础模型处理指令理解、任务规划和推理等高级认知任务,而技能库则为低级控制提供稳定的运动和灵巧的操作。为了弥合这两个层次之间空白,他们提出了一个由轻量级视觉语言模型(VLM)驱动的连接器模块。连接器将基于语言的计划转化为可执行的技能指令,并动态协调运动和操纵,从而提高任务的成功率,从而增强了基础模型的具身能力。除了基础模型外,Being-0 的所有组件均可部署在低成本的板载计算设备上,从而在配备灵巧双手和主动视觉的全尺寸人形机器人上实现了高效、实时的性能。
在大型室内环境中进行的大量实验证明,Being-0 能够有效地解决复杂的长程任务,这些任务需要具有挑战性的导航和操作子任务。
论文链接:
https://arxiv.org/abs/2503.12533