低成本指令数据集构建:《Self-Instruct: Aligning Language Model with Self Generated Instructions》阅读笔记
最近有点好奇指令数据集是如何构建的,就读了一下SELF-INSTRUCT的论文简介摘要翻译:大型“指令微调”语言模型(即经过微调以响应指令)已表现出对于新任务的zero-shot泛化的非凡能力。然而,它们严重依赖于人工编写的指令数据,而这些数据通常在数量、多样性和创造力方面受到限制,因此阻碍了微调模型的通用性。我们引入了SELF-INSTRUCT,这是一个用自己生成的数据自举来提高预训练语言模型的