yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级

公众号关注 “ ML_NLP ” 设为 “ 星标 ”,重磅干货,第一时间送达!

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第1张图片

声明:本文转载自 哈工大讯飞联合实验室 公众号

在今年3月,哈工大讯飞联合实验室推出了中文ELECTRA预训练模型,并将相关资源进行开源,目前在GitHub上已获得580个star。本次更新中,我们将预训练语料从原有的约20G提升至180G,利用接近9倍大小的数据集。在阅读理解、自然语言推断、句对分类等中文自然语言处理任务中,ELECTRA-180G相比原版ELECTRA获得了显著性能提升。欢迎各位读者下载试用相关模型。

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第2张图片

项目地址:http://github.com/ymcui/Chinese-ELECTRA

ELECTRA简介

ELECTRA提出了一套新的预训练框架,其中包含两个部分:Generator和Discriminator。

  • Generator: 一个小的MLM,在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。

  • Discriminator: 判断输入句子中的每个词是否被替换,即使用Replaced Token Detection (RTD)预训练任务,取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。

在预训练阶段结束之后,我们只使用Discriminator作为下游任务精调的基模型。

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第3张图片

更详细的技术内容请查阅ELECTRA论文:ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators(https://openreview.net/pdf?id=r1xMH1BtvB)

同时,也可通过阅读我们的讲义《Revisiting Pre-trained Models for Chinese Natural Language Processing》了解更多预训练语言模型相关前沿进展(公众号后台回复NLPCC2020即可下载)。

中文ELECTRA

除了使用与RoBERTa-wwm-ext系列模型一致的扩展训练数据(约20G)之外,我们从CommonCrawl中获取了更大规模中文文本数据,并经过数据清洗等操作,进一步将预训练语料规模扩充到180G。本次发布以下四个模型:

  • ELECTRA-180g-large, Chinese: 24-layer, 1024-hidden, 16-heads, 324M parameters

  • ELECTRA-180g-base, Chinese: 12-layer, 768-hidden, 12-heads, 102M parameters

  • ELECTRA-180g-small-ex, Chinese: 24-layer, 256-hidden, 4-heads, 25M parameters

  • ELECTRA-180g-small, Chinese: 12-layer, 256-hidden, 4-heads, 12M parameters

快速加载

哈工大讯飞联合实验室发布的所有中文预训练语言模型均可通过huggingface transformers库进行快速加载访问,请登录我们的共享页面获取更多信息。

https://huggingface.co/HFL

效果评测

在CMRC 2018(简体中文阅读理解),DRCD(繁体中文阅读理解),XNLI(自然语言推断),BQ Corpus(句对分类)任务上,ELECTRA-180G显著超过原版ELECTRA的效果。更详细的效果评测请查看项目的GitHub。

CMRC 2018

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第4张图片

DRCD

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第5张图片

XNLI

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第6张图片

BQ Corpus

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第7张图片

相关资源地址

  • TextBrewer知识蒸馏工具

    • http://github.com/airaria/TextBrewer

  • 中文BERT、RoBERTa、RBT系列模型

    • https://github.com/ymcui/Chinese-BERT-wwm

  • 中文XLNet系列模型

    • https://github.com/ymcui/Chinese-XLNet

  • 中文MacBERT模型

    • https://github.com/ymcui/MacBERT

本期责任编辑:崔一鸣

本期编辑:冯   晨

下载1:四件套

在机器学习算法与自然语言处理公众号后台回复“四件套”

即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第8张图片

下载2:仓库地址共享

在机器学习算法与自然语言处理公众号后台回复“代码”

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code

重磅!机器学习算法与自然语言处理交流群已正式成立

群内有大量资源,欢迎大家进群学习!

额外赠送福利资源!邱锡鹏深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第9张图片

获取方式:进入群后点开群公告即可领取下载链接

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主,微商请自觉绕道。谢谢!

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第10张图片

964ad300bdb190c2324f92dc4bb242fd.png

推荐阅读:

工业界求解NER问题的12条黄金法则

三步搞定机器学习核心:矩阵求导

神经网络中的蒸馏技术,从Softmax开始说起

yolov5s 预训练模型_180G!中文ELECTRA预训练模型再升级_第11张图片

你可能感兴趣的:(yolov5s,预训练模型)