P51 各式各样的神奇的自注意力机制

P51 各式各样的神奇的自注意力机制_第1张图片

计算量大

当input sequence 很长时,计算量特别大

  • self-atttention 至少一个大模型的一部分
  • 当input sequence 很长时,主要运算来自self - attention, 加快 self attention ,才能有明显的加快速度
  • P51 各式各样的神奇的自注意力机制_第2张图片

变形

  1. local attention
    只计算左右两个位置的 attention weight, 其他位置设为0
    缺陷: 只看到某个小范围的咨询
    那岂不是跟CNN一样
    计算快,但是效果不一定好

P51 各式各样的神奇的自注意力机制_第3张图片
2. stride attention

如看两个间隔一个, 或者看一个间隔一个
P51 各式各样的神奇的自注意力机制_第4张图片
3. global attention

P51 各式各样的神奇的自注意力机制_第5张图片

P51 各式各样的神奇的自注意力机制_第6张图片
所有的 attention 变形一起上

P51 各式各样的神奇的自注意力机制_第7张图片

直接估计在 atteontion matrix 里哪些位置数值大,哪些小,小的直接设为0
P51 各式各样的神奇的自注意力机制_第8张图片

  • 怎么快速预估attention weights?
    (聚类,根据相似性)
    P51 各式各样的神奇的自注意力机制_第9张图片
    P51 各式各样的神奇的自注意力机制_第10张图片

是否需要所有的 attention matrix

P51 各式各样的神奇的自注意力机制_第11张图片
选择有代表性的K
P51 各式各样的神奇的自注意力机制_第12张图片

如何选择有代表性的K

CNN : 长sequence 变成 短 sequence
Linformer
P51 各式各样的神奇的自注意力机制_第13张图片
P51 各式各样的神奇的自注意力机制_第14张图片
Q K 维数需要一样,V不一定

转变计算顺序 矩阵相乘的顺序,计算量不一样
P51 各式各样的神奇的自注意力机制_第15张图片
P51 各式各样的神奇的自注意力机制_第16张图片

P51 各式各样的神奇的自注意力机制_第17张图片

P51 各式各样的神奇的自注意力机制_第18张图片

总结

P51 各式各样的神奇的自注意力机制_第19张图片

你可能感兴趣的:(李宏毅机器学习课程学习笔记,人工智能)