GPT4 在医学任务表现-Capabilities of GPT-4 on Medical Challenge Problems

微软和openai在2023年4月的论文。

Capabilities of GPT-4 on Medical Challenge Problems

数据集介绍

USMLE Self Assessments:问题,有表格

USMLE Sample Exam:pdf,有图片

MedQA:多语种多选,

PubMedQA:判断题

MedMCQA:多选

MMLU:多选

评测方法

由于是评价选择题做得对不对,所以直接用准确率来衡量,即算做对了多少题。

对于需要给出原因的数据集,并没有在文中看到如何衡量gpt在这方面的表现

评测类型

1. 是zero-shot还是few-shot

2. 问题中提及了图像或图表,还是纯文本

3. 不同模型(GPT4-base、GPT-RLHF;GPT3.5、ChatGPT、Flan-PaLM 540B)在不同数据集上的表现

方向和局限

我觉得这部分写的很有意思,

1. Prompt策略

文章还尝试在prompt上做了实验,一是CoT,二是few-shot example是精心挑选的还是随机选的。对于前者,没有看到文章做什么实验,引用了别人的结果,说CoT不一定能很好的提高模型表现,还需要好好设计;而对于后者,作者也仿照前人做法进行了实验,结果example选择对模型表现结果影响不大。

2. 记忆

文章提及另外一个有意思点就是如何衡量模型数据的泄露程度,因为gpt4的训练数据没有开源,他就让模型生成给数据样本类似的样本集合,然后算这些生成样本和原始样本的相似性,来推断这个数据是不是就是训练数据。

使用的方法是memorization effects Levenshtein detector (MELD), 其实就是利用最短编辑距离算相似性

GPT4 在医学任务表现-Capabilities of GPT-4 on Medical Challenge Problems_第1张图片

 

参考

1. Levenshtein Distance(编辑距离)算法与使用场景-腾讯云开发者社区-腾讯云

2.LOOCV - Leave-One-Out-Cross-Validation 留一交叉验证_leave-one-out cross-validation_肯德基套餐的博客-CSDN博客3. Few-Shot Prompting | Prompt Engineering Guide

你可能感兴趣的:(学习笔记,深度学习,人工智能)