BERT-wwm-ext

BERT-wwm-ext是由哈工大讯飞联合实验室发布的中文预训练语言模型，是BERT-wwm的一个升级版。

BERT-wwm-ext主要是有两点改进：

预训练数据集做了增加，次数达到5.4B；
训练步数增大，训练第一阶段1M步，训练第二阶段400K步。

Whole Word Masking (wwm)，暂翻译为全词Mask或整词Mask，是谷歌在2019年5月31日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。

需要注意的是，这里的mask指的是广义的mask（替换成[MASK]；保持原词汇；随机替换成另外一个词），并非只局限于单词替换成[MASK]标签的情况。更详细的说明及样例请参考：#4

同理，由于谷歌官方发布的BERT-base, Chinese中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词（CWS）。我们将全词Mask的方法应用在了中文中，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具，即对组成同一个词的汉字全部进行Mask。

下述文本展示了全词Mask的生成样例。注意：为了方便理解，下述例子中只考虑替换成[MASK]标签的情况。
说明样例

原始文本    使用语言模型来预测下一个词的probability。
分词文本    使用 语言 模型 来 预测 下 一个 词 的 probability 。
原始Mask输入    使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。
全词Mask输入    使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。
中文模型下载

由于目前只包含base模型，故我们不在模型简称中标注base字样。

BERT-base模型：12-layer, 768-hidden, 12-heads, 110M parameters

模型简称    语料  Google下载    讯飞云下载
BERT-wwm-ext, Chinese   中文维基+
通用数据[1]     TensorFlow 
PyTorch     TensorFlow（密码thGd） 
PyTorch（密码bJns）
BERT-wwm, Chinese   中文维基    TensorFlow 
PyTorch     TensorFlow（密码mva8） 
PyTorch（密码8fX5）
BERT-base, ChineseGoogle    中文维基    Google Cloud    -
BERT-base, Multilingual CasedGoogle     多语种维基   Google Cloud    -
BERT-base, Multilingual UncasedGoogle   多语种维基   Google Cloud    -

[1] 通用数据包括：百科、新闻、问答等数据，总词数达5.4B

以上预训练模型以TensorFlow版本的权重为准。对于PyTorch版本，我们使用的是由Huggingface出品的PyTorch-Transformers 1.0提供的转换脚本。如果使用的是其他版本，请自行进行权重转换。

中国大陆境内建议使用讯飞云下载点，境外用户建议使用谷歌下载点，base模型文件大小约400M。以TensorFlow版BERT-wwm, Chinese为例，下载完毕后对zip文件进行解压得到：

chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

其中bert_config.json和vocab.txt与谷歌原版BERT-base, Chinese完全一致。 PyTorch版本则包含pytorch_model.bin, bert_config.json, vocab.txt文件。
————————————————
版权声明：本文为CSDN博主「sliderSun」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_37947156/article/details/99235621

BERT-wwm-ext

你可能感兴趣的:(BERT-wwm-ext)