BERT和ERNIE中[PAD],[CLS],[SEP],[MASK],[UNK]所代表的含义

在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中,有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token,它们代表的具体含义如下:

1,[PAD]

要将句子处理为特定的长度,就要在句子前或后补[PAD]

2,[CLS]

这个标志放在句子的首位,表示句子的开始

3,[SEP]

这个标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。

4,[MASK]

这个标志用于遮盖句子中的一些单词

5,[UNK]

词典内没有的词被标为[UNK]

你可能感兴趣的:(自然语言处理,bert,nlp)