月之暗面再次开源Kimi大模型——Kimi-VL-A3B-Instruct 和 Kimi-VL-A3B-Thinking
我们介绍的Kimi-VL,是一种高效的开源专家混合物(MoE)视觉语言模型(VLM),它具有先进的多模态推理能力、长语境理解能力和强大的代理能力,而在其语言解码器(Kimi-VL-A3B)中只需激活2.8B个参数。Kimi-VL在各个具有挑战性的领域都表现出了强劲的性能:作为一种通用的视觉语言模型,Kimi-VL在多轮代理交互任务(例如OSWorld)中表现出色,取得了与旗舰模型相当的先进成果。此