微软的最新研究再次证实了提示工程的强大作用——
仅仅通过使用提示,GPT-4就能够像一个专家一样发挥作用,而无需进行额外的微调或专家策划。
他们提出的最新提示策略Medprompt在医疗专业领域取得了优异的结果,在MultiMed QA的九个测试集中表现最佳。
在MedQA数据集(美国医师执照考试题)上,通过Medprompt提示,GPT-4的准确率首次超过90%,超越了BioGPT和Med-PaLM等微调方法。
研究人员还表示,Medprompt方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业领域。
这项研究在X(原Twitter)上引起了广泛关注,沃顿商学院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等纷纷转发分享。
Carlos E. Perez直言不讳地表示:“出色的提示策略可以完全颠覆微调的方法”。
一些网友表示早就预感到了这一点,现在看到结果出来,真的太酷了。
还有一些网友表示这真的是一种“激进”的方法。
GPT-4是一项可以改变行业的技术,而且我们远未触及提示的极限,也未达到微调的极限。
Medprompt是由多种提示策略组合而成的,包括动态少样本选择、自动生成思维链和选项洗牌集成。
动态少样本选择是一种快速学习上下文的有效方法,通过输入一些示例让模型适应特定领域并学习任务的格式。
自动生成思维链是一种让模型一步一步思考、生成中间推理步骤的方法。
选项洗牌集成是一种减少位置偏差的方法,通过打乱选项顺序并进行多轮预测,选择最一致和正确的选项。
通过将以上几种提示策略组合在一起,就形成了Medprompt。下面我们来看看测试结果。
在测试中,研究人员采用了MultiMed QA评估基准。使用Medprompt提示策略的GPT-4在九个基准数据集中表现最好,优于Flan-PaLM 540B和Med-PaLM 2。
研究人员还讨论了Medprompt策略在“Eyes-Off”数据上的表现,即在训练或优化过程中模型未曾见过的数据上的表现,用于检验模型是否过拟合训练数据。
结果显示,GPT-4结合Medprompt策略在多个医学基准数据集上表现出色,平均准确率达到了91.3%。
研究人员还进行了消融实验,探索了三个组件对整体性能的相对贡献。其中,自动生成思维链步骤对性能提升的贡献最大。
此外,GPT-4生成的思维链比Med-PaLM 2中专家策划的思维链更长,并且推理逻辑更细致。
最后,研究人员还探索了Medprompt的跨领域泛化能力,在包括电气工程、机器学习、哲学、专业会计、专业法律和专业心理学等领域的数据集上进行了测试。
结果显示,Medprompt在这些数据集上的表现与在医学数据集上的提升程度相当,平均准确率提高了7.3%。
论文链接:https://arxiv.org/pdf/2311.16452.pdf
参考链接:
[1]https://twitter.com/erichorvitz/status/1729854235443884385
[2]https://twitter.com/emollick/status/1729733749657473327
关注我,每天一个AI. 全部收录在ppword,同时提供chatGPT-4 Turbo.