XLNet

1.克服了BERT没有考虑文本顺序的缺陷。
2.可以考虑文本内容,还是双向的,文本的顺序还是随机的一个模型。
3.用了最先进的transformer-XL,获得了更牛逼的性能。
它比BERT在20个任务上好,还在18个任务上实现了最好的结果。


1.作者用随机所有句子中的顺序,加上双向lstm,从而获得了context信息
(评价:完全摒弃了语句的顺序)
2、因为没有mask,所以去除了pretraining-finetune-gap , 而且可以用lstm,消除了BERT的独立性。
(我个人是不服的哈)
原来,是有一个position enccoder支撑


循环机制和Transformer-XL作为encoding输入到了文章中。
为了使Transformer适应我们这种情况,我们队transformer-XL进行了修改


这是
这是传统的LSTM模型的机制,用过去的信息去预测将来的信息,在文章中被称为AR机制,也就是auto_regressive机制;
在这里插入图片描述
这是BERT的模型机制,其中m的意思是被mask的信息,在文章中被称为AE,model,也就是autoencoding模型

在整个机制中,

INdependence Assumption: 在BERT中,每一个单词都是假设独立的,单独被mask, 所以捕捉不到其中的关联。
INPUT noise: BERT中的mask机制中的mask,会在pretrain和fine-tainne中形成语义鸿沟。
Context depencency: 更好的捕捉双向内容。

  1. denoising 降噪

Remark

XLNet_第1张图片
上图描述的是Permutation Language Modeling
其代表的意思是句子的顺序是随机采集的,而句子的连接是随机建立的
我无法理解mem是什么意思。

在这个过程中,因为很可能预测的句子和实际的值是不同的,所以可以有效的学习到语义(我无法理解)
然后句子的顺序是不变的,同样attention里面还有个mask机制

问题:
如果两个相同的输入集合,要预测的值不一样,但它们的标签都是-1,那么就使用的公式是在这里插入图片描述
为了解决某个矛盾,所以用了双层的transformer
第一层,encode context 和 x t x_t xt自己
第二层,然后是 g θ g_\theta gθ只和x_z

好吧,今天就先写到这里,这可是个大工程。

你可能感兴趣的:(深度学习trick)