[模型]什么是BERT 模型

参考链接:BERT模型图解

1、BERT 结构图

如图:


图 1.1

2、官方论文

https://arxiv.org/pdf/1810.04805.pdf


3、BERT 模型简述

BERT 是基于 Transformer 的双向编码表示模型,被用于作为预训练模型,给下游任务使用。它由对 Transformer 的编码器进行堆叠而成。每个编码器都包含了两个子层,第一个子层是多头注意力层,可以在对某个特定字进行编码时,也可以注意到其他字;第二个子层则是前向反馈层。而 BERT 还是一个遮蔽语言模型,因为输入给 BERT 的语料中,有部分的字会被随机替换为 mask 符号。

你可能感兴趣的:([模型]什么是BERT 模型)