大语言模型微调数据集(2)

CLUE 数据集
CLUE 是一个中文语言理解测评基准,包括分类、命名实体识别和机器阅读理解任务。CLUE中的数据集为JSON格式。对于分类和命名实体识别数据集,我们将JSON格式转换为TSV格式,以便TencentPretrain可以直接加载它们;对于机器阅读理解数据集,我们保留原始格式,并将数据集预处理相关代码放在项目中。

分类:

数据集 链接
TNEWS--------------- https://share.weiyun.com/maExfIeO
CSL--------------- https://share.weiyun.com/LftIGlIT
CMNLI--------------- https://share.weiyun.com/hn3kTeKm
OCNLI --------------- https://share.weiyun.com/wkltwNwg
AFQMC--------------- https://share.weiyun.com/CdlEKMON
IFLYTEK--------------- https://share.weiyun.com/ldiLjnZJ
CLUEWSC2020--------------- https://share.weiyun.com/RLL1ShBi
机器阅读理解:

数据集 链接
CMRC2018--------------- https://share.weiyun.com/KwAbnX60
C3--------------- https://share.weiyun.com/JDpgczdp
ChID--------------- https://share.weiyun.com/8KJE3NOz
命名实体识别:

数据集 链接
CLUENER2020--------------- https://share.weiyun.com/smSMtLkn
百度 ERNIE

你可能感兴趣的:(AI前沿与LLM,chatGPT,语言模型,人工智能,自然语言处理)