大模型训练数据集介绍

原文:大模型训练数据集介绍 - 知乎

1、斯坦福开源数据集

数据集名称:alpaca_data.json

https://github.com/tatsu-lab/stanford_alpaca

alpaca_data.json包含了我们用于微调Alpaca模型的52K条指令跟随数据。 这个JSON文件是一个字典列表,每个字典包含以下字段: instruction: str,描述模型应执行的任务。

这52K条指令中的每一条都是独特的。

input: str,任务的可选上下文或输入。例如,当指令为“总结以下文章”时,输入为文章。大约40%的示例有输入。

output: str,由text-davinci-003生成的指令答案

2、Belle开源数据集

2-1、个性化角色对话

数据集名称:BelleGroup/generated_chat_0.4M

https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M

instruction: 指令
input: 输入(本数据集均为空)
output: 输出

2-2、中文数据题数据

数据集名称:BelleGroup/school_math_0.25M

https://huggingface.co/datasets/BelleGroup/school_math_0.25M 字段同上

2-3、中文指令数据

数据集名称:BelleGroup/train_2M_CN

https://huggingface.co/datasets/BelleGroup/train_2M_CN

3、Guanaco数据集

Guanaco是一个基于Meta的LLaMA 7B模型训练的指令跟随语言模型。在Alpaca模型的原始52K数据的基础上,我们添加了额外的534,530个条目,涵盖英语、简体中文、繁体中文(台湾)、繁体中文(香港)、日语、德语以及各种语言和语法任务。通过使用这些丰富的数据重新训练和优化模型,Guanaco在多语言环境中展现出了出色的性能和潜力 数据集名称:Guanaco https://guanaco-model.github.io/

4、Fifefly 数据集

我们收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。数据分布如下图所示

大模型训练数据集介绍_第1张图片

数据分布

每条数据的格式如下,包含任务类型、输入、目标输出:

{
  "kind": "ClassicalChinese", 
  "input": "将下面句子翻译成现代文:\n石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。",
  "target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。"
}

数据集名称:YeungNLP/firefly-train-1.1M https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 训练数据集的token长度分布如下图所示,绝大部分数据的长度都小于600:

大模型训练数据集介绍_第2张图片

数据长度统计

5、alpaca_chinese_dataset

在alpaca_dataset的基础上,进行了翻译,并补充了相关中文数据

https://github.com/hikariming/alpaca_chinese_dataset

6、Chinese Open Instruction Generalist

智源开源的数据集 我们提出了“中国开放指令通用项目(COIG)”,以维护一组无害、有用和多样化的中文指令语料库。主要包括

  • 翻译通用指令语料库
  • 考试指令语料库
  • 人类价值对齐指令语料库
  • 一个多轮反事实修正聊天语料库
  • 一个leetcode指令语料库

https://huggingface.co/datasets/BAAI/COIG

7、Alpaca_GPT4

https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

亮点是利用 GPT-4 生成的 Alpaca 数据,并做了中文的翻译

8、Alpaca-CoT

对现在的开源数据集做了相关的整理和汇总,并且加上了自己开源的CoT数据集。懒人必备

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT

9、其他数据

  • OpenDataLab 为国产大模型提供高质量的开放数据集
    • https://opendatalab.com/
  • 千言数据集
    • https://www.luge.ai/#

你可能感兴趣的:(大模型,自然语言,gpt-3,chatgpt)