【无标题】

Transformer相关的问题探讨

  • attention
    • Transformer中的self-attention为什么Q和K使用不同的权重矩阵生成,为何没有使用同一个值进行自身的点乘?
      • 使用不同的权重矩阵生成的QKV可以保证word emdedding在不同空间进行投影,增强了表达能力,提高了泛化能力。
    • Multi-head Attention的意义
      • 多头注意力机制保证了transformer可以注意到不同子空间的信息,捕捉到更加丰富的特征信息;可以类比CNN中同时使用多个滤波器。
    • Self-attention计算时为什么在进行softmax之前需要除以dk的平方根
      • 对梯度进行scale,缓解梯度消失的问题,dk的平方根是根据经验选择的参数
  • 工程化
    • transfomer的并行化
      • 在encoder和decoder的训练阶段可以进行并行训练,通过teacher-forcing和sequence mask,但在transformer推理时无法进行并行,需要单步自回归推理,类似于RNN。
  • mask机制
    • transformer中的两个mask机制(transformer中包含padding mask和sequence mask,padding mask的目的是让padding不够长补0的部分不参与attention操作,sequence mask的目的是保证decider生成当前词语的概率分布时,只看到过去的信息,不用看到未来的信息,保证训练和测试的一致性。)

你可能感兴趣的:(深度学习,人工智能)