大型语言模型能否推理医疗问题

论文链接:https://arxiv.org/abs/2207.08143

要点:

  1. 研究了GPT-3.5如何用于回答和推理医学领域的困难的真实场景问题;

  2. 通过每问题采样多思维链(CoT)来扩展推理时计算,有助于克服模型的一些局限性;

  3. 在真实临床场景部署LLM将需要开发更加鲁棒的技术。

摘要:
虽然大型语言模型(LLM)通常会产生令人印象深刻的输出,但仍不清楚它们在需要强大推理技能和专家领域知识的现实场景中的表现。本文着手调查GPT-3.5(Codex和InstructGPT)是否可用于回答和推理现实世界的困难问题。使用两个多项选择的医学考试问题(USMLE和MedMCQA)和一个医学阅读理解数据集(PubMedQA),调查了多种提示场景:思维链(CoT)、零样本和少样本(在问题前加上问答示例)和检索增强(在提示中注入维基百科段落)。对于USMLE问题的子集,一位医学专家审查并标注了模型的CoT。发现InstructGPT往往可以阅读、推理和回忆专业知识。失败主要是由于缺乏知识和推理错误,以及观察到琐碎的猜测启发式方法,例如经常预测USMLE上的标签A和D。对多补全进行采样和组合克服了其中一些限制。使用100个样本,Codex 5-shot CoT不仅提供了近距离校准良好的预测概率,而且在三个数据集上实现了人工级的性能。USMLE:60.2%,MedMCQA:57.5%,PubMedQA:78.2%。

大型语言模型能否推理医疗问题 - 智源社区

爱可可AI前沿推介(12.26)

你可能感兴趣的:(大模型(预训练模型),语言模型,人工智能,深度学习)