VLRMBench :一个涵盖数学推理、幻觉理解、多图像理解等多种任务的视觉-语言奖励模型基准测试数据集
2025-03-10,由上海交通大学和小红书公司联合创建了VLRMBench数据集。是一个专门用于评估视觉-语言奖励模型的综合性基准测试,包含12,634个问题,覆盖数学推理、幻觉理解和多图像理解三大领域。为视觉-语言奖励模型的全面评估提供了新的标准,推动了该领域的发展。一、研究背景近年来,随着大语言模型和大视觉-语言模型的快速发展,它们在多模态任务中取得了显著进展,广泛应用于医学影像、遥感、自动