Roberta-wwm-ext-large模型中的wwm理解

Roberta:Robust optimize bert approach(名字来自于一篇论文题目的缩写)

wwm:whole word masking的缩写;经典的bert作mask是随机的,且是基于WordPiece token之上的,没有约束条件。

而wwm是将一个单词分成多个word piece后,mask其中一个,那么整个word必须全部被mask,换句话说,mask的最小单位是整个word,而原来是word piece(part of 整个word)

案例:

[OriginalSentence]
使 下一个 probability
[OriginalSentence with CWS]
使 用  言  型  来  测  下 一个  词  的  probability 
 
[OriginalBERTInput]
使  用  语  言  [MASK]  型  来  [MASK]   测  下 一 个  词  的  pro [MASK] ##lity 
[WholdWordMaskingInput]
使  用  语  言  [MASK][MASK]  来  [MASK] [MASK]  下 一 个  词  的  [MASK] [MASK] [MASK]
“模型” 为一个word(本质上理解为token),原来随机mask的时候, 是可以只mask一部分。比如“模"被替换成mask;而”型"保持不变。
而wwm就单个word必须全部被Mask,否则就不要mask。
 
ext:extended data

你可能感兴趣的:(nlp)