CLUE:中文语言理解测评基准及NLP中文数据集

1 简介

CLUE:A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准

英语有GLUE、SuperGLUE,各种预训练模型,如BERT,在其上进行评估;CLUE类比GLUE,应该是中文第一个大规模的语言评估基准。

CLUE:(1)该评估基准覆盖了9种句子分类、机器阅读理解任务,不同的困难水平、不同的大小和形式;(2)提供了一个大的预训练中文语库,214G文本,约760亿中文词语;(3)提供了一个语言学家创建的诊断评估数据集;(4)提供了友好的工具、自动评估在线排行榜。

为什么我们需要一个中文任务的基准测试?

首先,中文是一个大语种,有其自身的特定、大量的应用。

如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。

其次,相对于英文的数据集,中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。

再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展, 能缓解当前中文任务的一些问题,并促进相关应用的发展。

开源地址:https://github.com/CLUEbenchmark/CLUE

2 评测任务

下面9个。

  1. AFQMC 蚂蚁金融语义相似度 Ant Financial Question Matching Corpus
  2. TNEWS’ 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News
  3. IFLYTEK’ 长文本分类 Long Text classification
  4. OCNLI 中文原版自然语言推理 Original Chinese Natural Language Inference
  5. CLUEWSC2020: WSC Winograd模式挑战中文版,新版2020-03-25发布
  6. CSL 论文关键词识别 Keyword Recognition
  7. CMRC2018 简体中文阅读理解任务 Reading Comprehension for Simplified Chinese
  8. ChID 成语阅读理解填空 Chinese IDiom Dataset for Cloze Test
  9. C3 中文多选阅读理解 Multiple-Choice Chinese Machine Reading Comprehension
    CLUE:中文语言理解测评基准及NLP中文数据集_第1张图片

3 公开的预训练数据集

214G文本,约760亿中文词语。包括下面三个子语库:
CLUECorpus2020-small:14G
CLUECorpus2020:100G
CLUEOSCAR:100G

4 实验、开源代码

也提供了下面几个模型的开源代码,评测结果如下:
CLUE:中文语言理解测评基准及NLP中文数据集_第2张图片

5 CLUE诊断数据集

下面9中语言类型:

CLUE:中文语言理解测评基准及NLP中文数据集_第3张图片

你可能感兴趣的:(NLP,人工智能)