MultiCodeBench:首个涵盖 12 个特定软件应用领域和 15 种编程语言的代码生成基准测试
2024-12-25,由中山大学、西安交通大学、重庆大学共同创建的MultiCodeBench,填补了特定应用领域代码生成性能评估的空白,为开发者选择适合的LLM提供了实践洞见。一、研究背景:随着大型语言模型(LLMs)在代码生成任务中展现出卓越性能,越来越多的AI编程助手被集成到实际的软件开发环境中,显著提升了开发效率。然而,现有的代码生成基准测试主要集中在通用场景,对于LLMs在特定应用领域的