BERT论文

预训练

MLM

图片来自预训练之MLM详解_哔哩哔哩_bilibili

BERT论文_第1张图片

BERT对于GPT的创新点是:双向性。即根据左面和右面的词来猜测mask的词是什么,可以更加充分地运用语义信息。

NSP

输入的句子A和句子B有两种关系:

1.在原来的文段里相连。

2.两个句子毫无关系。

通过NSP学习句子A和B是否有关系,提取更加丰富的语义信息。


微调

图片来自:预训练之NSP任务详解_哔哩哔哩_bilibili

BERT论文_第2张图片

微调的意思是预训练后的BERT模型基本不用改变,改变的是输入端和输出端,就能用来解决不同的任务。

你可能感兴趣的:(多模态学习,bert,人工智能,深度学习)