中文Transformer(BERT,GPT,T5等)预训练模型权重

中文Transformer预训练模型权重

最近业余时间把我们去年和今年之前训练的基于开源语料的预训练权重适配到了Huggingface model hub中。用户可以通过Huggingface Transformers项目代码或者Huggingface网站上提供的在线推理接口轻易的使用这些权重。

这些权重有如下特点:

  1. 可复现;我们在huggingface上开源的所有权重,均是使用公开的语料进行训练的,并且我们在huggingface模型权重的readme中给出了详细的训练过程的说明,用户如果有足够的算力可以轻易的复现。我们认为这些权重可以作为一个可靠的中文基准。
  2. 模型质量较好;我们通过定量和定性的方式对这些预训练权重进行了评估。这些预训练权重有着比较有竞争力的表现。
  3. 类型丰富;我们提供了各种类型的预训练权重,后面会具体介绍。
  4. 所有的权重均使用 UER-py 预训练得到,然后通过转换脚本进行转换,用Huggingface Transformers进行加载推理。这套流程在我们的实践中用起来比较可靠和舒服。当然UER项目内部也提供了比较完善的微调推理相关的脚本,欢迎大家使用。

这里对我们目前开源的权重进行简要的描述:
1 我们借鉴Google在英文上的工作,预训练24个不同大小的RoBERTa权重:

https://huggingface.co/uer/chinese_roberta_L-2_H-128
中文Transformer(BERT,GPT,T5等)预训练模型权重_第1张图片

Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果:
中文Transformer(BERT,GPT,T5等)预训练模型权重_第2张图片

2 目前主流的中文预训练模型是基于字的。但是我们发现相同条件下,基于词的预训练模型往往有着更好的表现。其他工作,例如WoBERT也有类似的结论。并且基于词的模型由于有着比较短的sequence length,速度会更快一些。这里我们发布了5个大小不同的基于词的RoBERTa预训练模型:
https://huggingface.co/uer/roberta-tiny-word-chinese-cluecorpussmall

中文Transformer(BERT,GPT,T5等)预训练模型权重_第3张图片

并对基于词和基于字的预训练模型进行了系统的比较。下面是基于词的Tiny,Mini,Small,Medium,Base模型在六个常用的分类数据集上的效果(和基于字的模型进行对比):
中文Transformer(BERT,GPT,T5等)预训练模型权重_第4张图片

可以看到基于词的模型相对于基于字的模型,在效果上有一定的优势。再考虑到推理速度,在实际场景中我们更推荐使用基于词的模型。

3 通用语料GPT-2权重。我们利用CLUECorpusSmall语料训练了两个尺寸的GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-cluecorpussmall
https://huggingface.co/uer/gpt2-distil-chinese-cluecorpussmall

4 古诗GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-poem
中文Transformer(BERT,GPT,T5等)预训练模型权重_第5张图片

5 对联GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-couplet
中文Transformer(BERT,GPT,T5等)预训练模型权重_第6张图片

6 古文GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-ancient

中文Transformer(BERT,GPT,T5等)预训练模型权重_第7张图片

7 歌词GPT-2权重:
https://huggingface.co/uer/gpt2-chinese-lyric

8 利用三个经典阅读理解数据集训练的中文阅读理解权重:
https://huggingface.co/uer/roberta-base-chinese-extractive-qa
中文Transformer(BERT,GPT,T5等)预训练模型权重_第8张图片

9 利用五个大规模分类数据集训练的中文分类权重。其中三个是情感分析数据集,两个是新闻主题分类数据集:
https://huggingface.co/uer/roberta-base-finetuned-jd-full-chinese
中文Transformer(BERT,GPT,T5等)预训练模型权重_第9张图片

基于JD full情感分析的微调模型在线推理接口示例:
中文Transformer(BERT,GPT,T5等)预训练模型权重_第10张图片

基于Ifeng新闻主题分类的微调模型在线推理接口示例:
中文Transformer(BERT,GPT,T5等)预训练模型权重_第11张图片

10 基于CLUECorpusSmall语料的T5预训练权重:
https://huggingface.co/uer/t5-small-chinese-cluecorpussmall
中文Transformer(BERT,GPT,T5等)预训练模型权重_第12张图片

11 基于CLUECorpusSmall语料的T5-v1_1预训练权重:
https://huggingface.co/uer/t5-v1_1-small-chinese-cluecorpussmall
中文Transformer(BERT,GPT,T5等)预训练模型权重_第13张图片

后续我们还会基于开头提到的原则,发布更多的预训练权重。如果大家有什么想法,欢迎和我们进行联系。我们可以业余时间一起做一些有意思的东西。

你可能感兴趣的:(自然语言处理,深度学习,人工智能)