transformer(Bert)的多头注意力对每一个head进行降维的分析

背景:

    在用keras的multiattention模块做实验的时候,发现学习参数随着头数的增多而增多,与transformer中的实现不太一致

结果:

    本着想了解透彻的思路去网上搜索了一番,第一篇我就觉得整理的不错,附上链接:http://www.sniper97.cn/index.php/note/deep-learning/note-deep-learning/4002/

    总结一下:

        一言蔽之的话,大概是:在不增加时间复杂度的情况下,同时,借鉴CNN多核的思想,在更低的维度,在多个独立的特征空间更容易学习到更丰富的特征信息。知乎-海晨威

    详细的分析可以参考上诉的链接里的详情。

    关于Self-Attention中的详细介绍,可以见:https://jalammar.github.io/illustrated-transformer/,总结的非常好

问题:

    1. 如何做的降维并让每个head能独自学习到有用的信息,待调研

    2. 既然多头并不会带来时间负责度和参数量的问题,那是否可以将head放大?比如bert-base中的head用的是12而不是768?附链接:https://zhuanlan.zhihu.com/p/433915709(第三部分),论文:https://arxiv.org/pdf/2003.02436.pdf

你可能感兴趣的:(transformer(Bert)的多头注意力对每一个head进行降维的分析)