Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization
超越幻觉:通过幻觉感知直接偏好优化增强LVLM上海人工智能实验室Abstract近年来,多模态大语言模型取得了显着的进步,但它们仍然面临着一个被称为“幻觉问题”的常见问题,即模型生成的文本描述包含图像中不准确或不存在的内容。为了解决这个问题,本文引入了一种新颖的策略:幻觉感知直接偏好优化(HA-DPO)。我们的方法将幻觉问题视为一个独特的偏好选择问题,其中模型经过训练,在出现同一图像的两个响应(一