normalization in nn (batchnorm layernorm instancenorm groupnorm)
本文内容为笔者学习b站deep_thought老师视频的笔记。本文将从源码角度深入学习剖析四种norm方式的区别。本文只针对norm时计算mean和std的方式进行解释,没有加入可学习的参数γ\gammaγ和β\betaβ。首先导入pytorch。importtorchimporttorch.nnasnn定义输入,本文以nlp或时间序列预测的数据结构为例。即[batch_size,time_ste