Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests

本文是LLM系列文章, 针对《Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests》的翻译。

大型语言模型中的心理理论:考察11个最先进模型与7-10岁儿童在高级测试中的表现

  • 摘要
  • 1 引言
  • 2 背景
  • 3 方法
  • 4 结果
  • 5 讨论
  • 6 结论

摘要

我们应该在多大程度上将认知能力归因于大型语言模型(LLM),例如对意图和信念进行推理的能力,即心理理论(ToM)?在这里,我们通过以下方式增加了这场新出现的辩论:(i)在占主导地位的错误信念范式之外,测试11个基于基础和指令的LLM与ToM相关的能力,包括非语言使用和递归意向性;(ii)使用标准化测试的新改写版本来衡量LLM的稳健性;(iii)开放式和封闭式问题的提示和评分;以及(iv)将LLM的表现与7-10岁儿童在相同任务中的表现进行比较。我们发现,GPT家族的指令调整LLM优于其他模型,通常也优于儿童。BaseLLM大多无法解决ToM任务,即使有专门的提示。我们认为,语言和ToM的相互关联的进化和发展可能有助于解释指令调整增加了什么:奖励考虑对话者和上下文的合作交流。最后,我们对LLM中的ToM提出了一个细致入微的观点。

1 引言

2 背景

3 方法

4 结果

5 讨论

6 结论

我们已经表明,大多数最近的LLM在与ToM相关的三项标准化测试中的表现低于7-10岁儿童。然而,那些参数最大、指令调整最严格的型号超过了儿童,GPT-4远远超过了所有其他型号,包括最近的竞争对手,如PaLM2-chat和PaLM2(见图4)。我们通过将人类进化中的指令调整和奖励合作互动进行比较来解释这些发现。我们承认,研究LLM在多大程度上能够进行人类意义上的思考才刚刚开始,这给该领域留下了令人兴奋的挑战。

你可能感兴趣的:(LLM,人工智能,语言模型)