Transformer and Pretrain Language Models3-3

insights of attention注意力机制的特点

我们引入的attention机制到底给端到端的模型带来了什么变化?

1、信息瓶颈问题:注意力机制的出发点首先就是为了解决信息瓶颈问题而存在的,这样我们通过注意力机制decoder端在每次生成的时候,都可以直接关注到encoder端所有位置的信息,信息瓶颈的问题就可以有效地解决了

2、注意力机制同样很有效地缓解了RNN中的梯度消失的问题,它通过在encoder和decoder之间提供了一种直接连接方式,防止了梯度在RNN中会传播过长,进而导致梯度消失

3、注意力机制也给神经网络这样一个黑匣子的模型,提供一定的可解释性,我们通过将decoder端每次的注意力分布可视化,我们可以画出右边这样的一个图,黑色表示注意力分数比较低,越接近白色,表示这个值越高。我们可以看到对于前面机器翻译的这样一个任务,注意力机制其实实现了一种短软对齐的策略,它翻译得到的英文单词会更加关注和表示相同含义的中文单词,比如这里的many更多和airport机场,这样的一个可视化,我们也可以发现模型在一定程度上,学习到这两个语言中一种语义的对齐关系,所以总体来看,注意力机制给RNN带来了很多有益的改变,而且极大地提高了RNN在不同的NLP任务上的表现

Transformer and Pretrain Language Models3-3_第1张图片

你可能感兴趣的:(大模型,transformer,语言模型,深度学习)