标准化归一化 batch norm, layer norm, group norm, instance norm

Layer Normalization - EXPLAINED (in Transformer Neural Networks)

Layer Normalization - EXPLAINED (in Transformer Neural Networks)

0~4min:什么是multi-head attention

标准化归一化 batch norm, layer norm, group norm, instance norm_第1张图片

5~7min:layer norm图示

标准化归一化 batch norm, layer norm, group norm, instance norm_第2张图片

7~9min:公式举例layer norm

标准化归一化 batch norm, layer norm, group norm, instance norm_第3张图片

9:54-end:layer norm的代码示例

group norm

  • YK油管解说 Group Normalization (Paper Explained)
  • 论文Group Normalization
    标准化归一化 batch norm, layer norm, group norm, instance norm_第4张图片

从图中可以看出:

  1. batch norm只关心某个Channel下的所有数据点的norm
  2. layer norm只关心batch中某一例所有数据点的norm
  3. instance norm只关心某个channel中,batch中某一例所有数据点的norm
  4. group norm则会关心某一些channel中,batch中某一例所有数据点的norm

为什么group norm只关心某一些channel,而不是全部channel?因为有时候在全部特征中,某一组的特征具有相同的分布形态,而另一组特征具有另外的分布形态,而每一组就可以视为一个group。

当有8节点GPU时,随着batch size逐渐减小,batch norm的错误率不断在增加,而group norm的错误率维持低位。

标准化归一化 batch norm, layer norm, group norm, instance norm_第5张图片

你可能感兴趣的:(batch,开发语言)