A Survey on Benchmarks of Multimodal Large Language Models

本文是LLM系列文章,针对《A Survey on Benchmarks of Multimodal Large Language Models
》的翻译。

多模态大型语言模型基准研究综述

  • 摘要
  • 1 引言
  • 2 前言
  • 3 感知与理解
  • 4 认知与推理
  • 5 特定领域
  • 6 关键能力
  • 7 其他模态
  • 8 结论

摘要

多模态大型语言模型(MLLM)在学术界和工业界越来越受欢迎,因为它们在视觉问答、视觉感知、理解和推理等各种应用中表现出色。在过去几年中,人们从多个角度对MLLM进行了大量研究。本文对MLLM的180个基准和评估进行了全面回顾,重点关注(1)感知和理解,(2)认知和推理,(3)特定领域,(4)关键能力,以及(5)其他模式。最后,我们讨论了当前MLLM评估方法的局限性,并探索了有前景的未来方向。我们的主要论点是,评估应被视为一门关键学科,以更好地支持MLLM的发展。有关更多详细信息,请访问我们的GitHub存储库:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。

1 引言

2 前言

你可能感兴趣的:(LLM,Daily,Survey,Paper,Multimodal,语言模型,人工智能,自然语言处理)