Evaluating Object Hallucination in Large Vision-Language Models----评估大视觉语言模型中的物体幻觉
Abstract受大语言模型(LLM)卓越语言能力的启发,最近提出了大视觉语言模型(LVLM),通过集成强大的LLM来提高复杂多模态任务的性能。尽管LVLM取得了有希望的进展,但我们发现它们存在物体幻觉,即它们倾向于生成与描述中的目标图像不一致的物体。为了对此进行研究,这项工作首次对LVLM的物体幻觉进行了系统研究。我们对几个具有代表性的LVLM进行了评估实验,结果表明它们大多存在严重的物体幻觉问