论文略读: ALPAGASUS: TRAINING A BETTER ALPACA WITH FEWER DATA
ICLR20241背景大模型通常需要在有监督指令数据集上进行指令微调来加强指令遵循能力但是广泛使用的数据集包含许多具有不正确或不相关响应的低质量样本,这对大模型微调具有误导性——>论文提出了一种简单有效的数据选择策略,使用ChatGPT自动识别和过滤掉低质量数据同时引入了:ALPAGASUS,它是仅对从52k训练数据中过滤出来的9k高质量数据进行微调。在多个测试集和受控人类评估上显着优于GPT-4