bert Layer Normalization中的gamma和beta参数解析

每次读到bert中的Layer Normalization层,都会疑惑其中的alpha参数和beta参数所代表的含义,今天终于读懂其中参数的含义,特此记录
bert Layer Normalization中的gamma和beta参数解析_第1张图片可以看出其中的alpha和beta代表的含义内容
这里再写一下缪和欧米伽对应的关系式
bert Layer Normalization中的gamma和beta参数解析_第2张图片对应的a^{l}的关系式如下
bert Layer Normalization中的gamma和beta参数解析_第3张图片也就是说,综合来讲,整个LayerNormalization的对应公式为:
y = s e l f . g a m m a ∗ x − μ σ 2 + ϵ + s e l f . b e t a y = self.gamma*\frac{x-\mu}{\sqrt{\sigma^{2}+\epsilon}}+self.beta y=self.gammaσ2+ϵ xμ+self.beta

你可能感兴趣的:(bert源码解读)