[2025CVPR]Multi-Layer Visual Feature Fusion in Multimodal LLMs 多模态大语言模型中的多层视觉特征融合
深入解析:多模态大语言模型中的多层视觉特征融合——原理、实践与最佳方案论文:Multi-LayerVisualFeatureFusioninMultimodalLLMs:Methods,Analysis,andBestPractices一、问题本质:为什么需要多层视觉特征?当前多模态大语言模型(MLLMs)存在两大核心痛点:视觉层选择随意性:现有方法(如MiniCPM、LLaVA)常仅用最后一层特