memory network 没有成为BERT的基石的原因

transformer在预训练时,靠attention matrix能学到 预训练数据 里两两token之间的关系,也就是所说的上下文关系,然后在fine-tune时只会重写 fine-tune数据集 里的两两token之间的关系。

memory network 不能学到这些两两token之间的关系。

你可能感兴趣的:(深度学习,bert,人工智能,自然语言处理)