论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?
iclr2024oralreviewer评分5668现有的语言模型(LMs)的基准测试已经饱和,无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。——>要具有挑战性的基准测试论文引入了SWE-bench在现实软件工程环境中评估语言模型的基准测试模型的任务是解决提交到热门GitHub仓库的问题(通常是bug报告或功能请求)每个任务都需要生成描述对现有代码库应用的更改的补丁。然后,使用仓库的测试框