OL-CC:首个众包形式、人工生成的开源中文对话指令集

数据是训练大模型必不可少的“燃料”,但目前的数据集由不同的机构构建,存储分散,难以整合;高质量数据集的建设成本高昂。当前由于商业竞争等原因,导致数据上形成了各自为战的局面,大家无法将分散的数据整合到一起发挥更大的作用。

2 月底,智源研究院发布了“OpenLabel数据飞轮”计划,旨在打造一个开源数据平台,汇聚多方力量,打破数据壁垒,克服大模型创新过程中的数据难题,推动中国大模型创新进程。

“OpenLabel数据飞轮”第一期专注于中文对话指令集建设,号召来自不同专业领域、教育背景、年龄层次的志愿者参与数据贡献。在过去 3 个月时间内,276 位志愿者通过 openlabel.baai.ac.cn 开放平台,完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。

智源现将志愿者的贡献整理成为首个以众包方式、人工生成的开源中文对话指令集:OpenLabel-Chinese Conversations dataset (OL-CC) 。

  • OL-CC 包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。

  • 根据收集到的 63 份志愿者调研问卷,志愿者男女比例约为 2:1;年龄从“18岁以下”到“40-50岁”均有分布,主要集中在“19-24岁”区间;教育程度方面,硕士及以上学历占 59%。

OL-CC 数据集已开放下载

https://data.baai.ac.cn/details/OL-CC

感谢所有276位志愿者的贡献!

OL-CC:首个众包形式、人工生成的开源中文对话指令集_第1张图片

你可能感兴趣的:(OL-CC:首个众包形式、人工生成的开源中文对话指令集)