Are Multimodal Large Language Models Pragmatically Competent Listeners in Simple Reference
论文主要内容总结本文聚焦于多模态大语言模型(MLLMs)在指称消解任务中的语用能力研究,通过简单但抽象的视觉刺激(如颜色块和颜色网格)开展实验。具体内容如下:1.研究目的考察LLaVA-NeXT、Qwen2-VL和JanusPro等MLLMs在“导演-匹配者”式参考游戏中,对颜色和空间布局的语境化语用推理能力,验证其是否能像人类一样根据视觉上下文解析指称表达。2.实验方法模型:测试三种MLLMs的