CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model
整篇文章,很好理解,建议大家读一下。0摘要主要是使用CLUECorpus2020,100G语料预训练模型。他们在小数据及以及大数据集上做了实验,表明这个语料训练的模型,更适合中文。他们使用的vcoba_clue是8k,是google的ChineseBert的1/3。他们发布了这个语料训练的小模型和大模型。大模型能达到最高的水平,小模型在保留大部分精度的情况下加速了训练,并且预测速度是bert-ba