transformer里的layer-norm理解

transformer里的layer-norm理解_第1张图片

 感谢沐神的讲解。

以往由于深度网络造成的网络数值偏大,担心梯度受此影响,使用batch-norm将其标准化减小较深位置的梯度下降受此大数字的影响。

时序的翻译任务中,样例长短不一,由词语翻译而成的含义向量应该都是在同一个规模水平的上向量,如果仍然使用batch-norm,由于为了补齐长短不一的样例而添加进去的0使得较长序列中词语的含义向量规模相对变小,较短序列中的词转换为含义向量的规模相对变大。平白无故增添了误差抖动。

使用layer-norm保证每个序列中词语转成的含义向量在同一规模上。

你可能感兴趣的:(transformer,深度学习,人工智能)