原文:大模型训练数据集介绍 - 知乎
数据集名称:alpaca_data.json
https://github.com/tatsu-lab/stanford_alpaca
alpaca_data.json包含了我们用于微调Alpaca模型的52K条指令跟随数据。 这个JSON文件是一个字典列表,每个字典包含以下字段: instruction: str,描述模型应执行的任务。
这52K条指令中的每一条都是独特的。
input: str,任务的可选上下文或输入。例如,当指令为“总结以下文章”时,输入为文章。大约40%的示例有输入。
output: str,由text-davinci-003生成的指令答案
数据集名称:BelleGroup/generated_chat_0.4M
https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M
instruction: 指令
input: 输入(本数据集均为空)
output: 输出
数据集名称:BelleGroup/school_math_0.25M
https://huggingface.co/datasets/BelleGroup/school_math_0.25M 字段同上
数据集名称:BelleGroup/train_2M_CN
https://huggingface.co/datasets/BelleGroup/train_2M_CN
Guanaco是一个基于Meta的LLaMA 7B模型训练的指令跟随语言模型。在Alpaca模型的原始52K数据的基础上,我们添加了额外的534,530个条目,涵盖英语、简体中文、繁体中文(台湾)、繁体中文(香港)、日语、德语以及各种语言和语法任务。通过使用这些丰富的数据重新训练和优化模型,Guanaco在多语言环境中展现出了出色的性能和潜力 数据集名称:Guanaco https://guanaco-model.github.io/
我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。数据分布如下图所示
数据分布
每条数据的格式如下,包含任务类型、输入、目标输出:
{
"kind": "ClassicalChinese",
"input": "将下面句子翻译成现代文:\n石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。",
"target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。"
}
数据集名称:YeungNLP/firefly-train-1.1M https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:
数据长度统计
在alpaca_dataset的基础上,进行了翻译,并补充了相关中文数据
https://github.com/hikariming/alpaca_chinese_dataset
智源开源的数据集 我们提出了“中国开放指令通用项目(COIG)”,以维护一组无害、有用和多样化的中文指令语料库。主要包括
https://huggingface.co/datasets/BAAI/COIG
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译
对现在的开源数据集做了相关的整理和汇总,并且加上了自己开源的CoT数据集。懒人必备
https://huggingface.co/datasets/QingyiSi/Alpaca-CoT