2021秋招-面试高频2-BN、LN、WN相关

面试高频2-BN、LN、WN相关

终极问题?

1. BN、LN、WN、IN、CN分别是怎样计算的? CV和NLP方面有什么区别?

参考2-知乎-如何区分并记住常见的几种 Normalization 算法⭐⭐⭐

2. BN在测试和训练时候的分别使用?

参考3-深入理解Batch Normalization

2. 几种Normalization分别有什么优点?

3. 几种Normalization 分别可以work的原因的分析整理。

参考3-深入理解Batch Normalization

4. 各自实现的代码整理。

一些参考:

参考0-知乎问题:深度学习中 Batch Normalization为什么效果好?

参考1-详解深度学习中的Normalization,BN/LN/WN⭐⭐⭐-转载

参考2-知乎-如何区分并记住常见的几种 Normalization 算法⭐⭐⭐

参考3-深入理解Batch Normalization

参考4-BN究竟起了什么作用?一个闭门造车的分析

参考5-《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》阅读笔记与实现

参考6-Batch Normalization原理与实战

原理-实现全套-【DL】规范化:你确定了解我吗?

⭐如何区分并记住常见的几种 Normalization 算法

参考1-详解深度学习中的Normalization,BN/LN/WN⭐⭐⭐-转载

1.为什么需要 Normalization ?

深度学习中的ICS(Internal Covariate Shift)问题及其影响。

1.1 独立同分布和白化

机器学习的炼丹师最喜欢的数据有什么特点? 窃以为,莫过于“独立同分布”了,即independent and identically distributed,简称为 i.i.d。 独立同分布 并非所有机器学习模型的必备要求(比如:Naive Bayes 模型就是简历在特征彼此独立的基础之上, 而 logistic Regression 和 神经网络则在非独立的特征数据上依然可以训练出很好的模型),但是独立同分布的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力,已经是一个共识。

因此,在把数据喂给机器学习模型之前,“白化(whitening)”是一个重要的数据预处理步骤。白化一般包含两个目的:
(1)去除特征之间的相关性 —> 独立
(2)使得所有特征具有相同的均值和方差 —> 同分布
白化最典型的方法就是PCA,可以参考阅读 PCAWhitening。

1.2 深度学习中的 Internal Covariate Shift

深度神经网络模型的训练为什么会很困难? 其中一个重要的原因是, 深度神经网络涉及到很多层的叠加, 而每一层的参数更新会到导致上层的输入数据分布发生变化, 通过层层叠加, 高层的输入分布变化会非常剧烈,这就使高层需要不断去重新始应底层的参数更新。 为了训练好模型,我们需要非常谨慎的设定学习率、初始化权重、以及尽可能细致的参数更新策略。

Google 将这一现象总结为 Internal Covariate Shift,简称 ICS. 什么是 ICS 呢?
@魏秀参
在一个回答中做出了一个很好的解释:
2021秋招-面试高频2-BN、LN、WN相关_第1张图片

1.3 ICS会导致什么问题?

简而言之, 每个神经元的输入数据不再是‘独立同分布’。

其一: 上层参数需要不断始应新的输入数据分布, 降低学习速度。
其二: 下层输入的变化可能趋向于变大或者变小,导致上层落入饱和区,使得学习过早停止。
其三: 每层的更新都会影响到其他层,因此每层的参数更新策略需要尽可能的谨慎。

Normalization 的通用框架和基本思想

从主流 Normalization方法中提炼出的抽象框架

我们以神经网络中的一个普通神经元为例。 神经元接收一组输入向量:

在这里插入图片描述
通过某种运算后,输出一个标量值:
在这里插入图片描述
由于ICS问题的存在,X的分不可能相差很大。 要解决独立同分布问题, “理论正确”的方法就是对每一层的数据都进行白化操作。然而标准的白化操作代价高昂,特别是我们还希望白化操作是可微的,保证白化操作可以通过反向传播来更新梯度。

因此,以 BN 为代表的 Normalization 方法退而求其次,进行了简化的白化操作。基本思想是:在将 x 送给神经元之前,先对其做平移和伸缩变换, 将 x 的分布规范化成在固定区间范围的标准分布

通用变换框架就如下所示:
h = f ( g ⋅ x − μ σ + b ) h=f\left(\mathbf{g} \cdot \frac{\mathbf{x}-\mu}{\sigma}+\mathbf{b}\right) h=f(gσxμ+b)

我们来看看这个公式中的各个参数。
(1) μ \mu μ 是平移参数(shift parameter), σ \sigma σ 是缩放参数(scale parameter) 。 通过两个参数进行 shift 和 scale 变化:
x ^ = x − μ σ \hat{\mathbf{x}}=\frac{\mathbf{x}-\mu}{\sigma} x^=σxμ

得到的数据符合均值为 0、方差为 1 的标准分布。

(2) b \mathbf{b} b 是再平移参数(re-shift parameter), g g g 是再缩放参数(re-scale parameter)。 将上一步得到的 x ^ \mathbf{\hat{x}} x^ 进一步变换为:

y = g ⋅ x ^ + b \mathbf{y}=\mathbf{g} \cdot \hat{\mathbf{x}}+\mathbf{b} y=gx^+b
最终得到的数据符合均值为: b \mathbf{b} b、方差为 g 2 \mathbf{g^2} g2的分布。

奇不奇怪?奇不奇怪?

说好的处理 ICS,第一步都已经得到了标准分布,第二步怎么又给变走了?

答案是——为了保证模型的表达能力不因为规范化而下降。

我们可以看到,第一步的变换将输入数据限制到了一个全局统一的确定范围(均值为 0、方差为 1)。下层神经元可能很努力地在学习,但不论其如何变化,其输出的结果在交给上层神经元进行处理之前,将被粗暴地重新调整到这一固定范围。

沮不沮丧?沮不沮丧?

难道我们底层神经元人民就在做无用功吗?

  1. 所以,为了尊重底层神经网络的学习结果,我们将规范化后的数据进行再平移和再缩放,使得每个神经元对应的输入范围是针对该神经元量身定制的一个确定范围(均值为 b \mathbf{b} b 、方差为 g 2 \mathbf{g^2} g2 )。rescale 和 reshift 的参数都是可学习的,这就使得 Normalization 层可以学习如何去尊重底层的学习结果。

  2. 除了充分利用底层学习的能力, 另一方面的重要意义在于 保证获得非线性的表达能力。 Sigmod 等激活函数在神经网络中有着重要作用, 通过区分饱和区和非饱和区,使得神经网络的数据变换具有了非线性计算能力。 而第一步的规范化会将几乎所有的数据映射到激活函数的非饱合区(线性区),仅利用了线性变化能力, 从而降低了神经网络的表达能力。 而进行再变换,则而可以将数据从线性区变换到非线性区,恢复模型的表达能力。

那么问题又来了——

  • 问题1: 经过这么的变回来再变过去,会不会跟没变一样?

    不会。因为,再变换引入的两个新参数 g 和 b,可以表示旧参数作为输入的同一族函数,但是新参数有不同的学习动态。在旧参数中, x \mathbf{x} x的均值取决于下层神经网络的复杂关联;但在新参数中, y = g ⋅ x ^ + b \mathbf{y}=\mathbf{g} \cdot \hat{\mathbf{x}}+\mathbf{b} y=gx^+b仅由 b \mathbf{b} b来确定,去除了与下层计算的密切耦合。新参数很容易通过梯度下降来学习,简化了神经网络的训练。

  • 问题二: 这样的 Normalization 离标准的白化还有多远?
    标准白化操作的目的是“独立同分布”。独立就不说了,暂不考虑。变换为均值为 b \mathbf{b} b、方差为 g 2 \mathbf{g^2} g2的分布,也并不是严格的同分布,只是映射到了一个确定的区间范围而已。(所以,这个坑还有得研究呢!)

3. 主流Normalization 方法梳理

  • 结合上述框架,对于 BatchNorm / LayerNorm / WeightNorm / CosineNorm 对号入座,各种方法之间异同水落石出

上一节中,提炼了Normalization的通用公式:

h = f ( g ⋅ x − μ σ + b ) h=f\left(\mathbf{g} \cdot \frac{\mathbf{x}-\mu}{\sigma}+\mathbf{b}\right) h=f(gσxμ+b)
对照于这一公式,我们来梳理主流的四种规范化方法。
2021秋招-面试高频2-BN、LN、WN相关_第2张图片

3.1 Batch Normalization —— 纵向规范化

2021秋招-面试高频2-BN、LN、WN相关_第3张图片
Batch Normalization 于2015年由 Google 提出,开 Normalization 之先河。其规范化针对单个神经元进行,利用网络训练时一个 mini-batch 的数据来计算该神经元 x i \mathbf{x_i} xi均值和方差,因而称为 Batch Normalization
μ i = 1 M ∑ x i , σ i = 1 M ∑ ( x i − μ i ) 2 + ϵ \mu_{i}=\frac{1}{M} \sum x_{i}, \quad \sigma_{i}=\sqrt{\frac{1}{M} \sum\left(x_{i}-\mu_{i}\right)^{2}+\epsilon} μi=M1xi,σi=M1(xiμi)2+ϵ

其中 M M M是 mini-batch 的大小。
按上图所示,相对于一层神经元的水平排列,BN 可以看做一种纵向的规范化。由于 BN 是针对单个维度定义的,因此标准公式中的计算均为 element-wise 的。

BN独立的规范化每一个输入维度 x i \mathbf{x_i} xi, 但是规范化的参数是一个 mini-batch的一阶统计量和二阶统计量。 这就要求 每一个mini-batch 的统计量是整体统计量的近似估计, 或者说 每一个mini-batch彼此之间,以及和整体数据,都应该是独立同分布的。 (没懂, 这里和一般神经网络学习有什么区别) 分布差距较小的 mini-batch 可以看作是为规范化操作和模型训练引入了噪声,可以增强模型的鲁棒性。 但是如果每个 min-batch的原始分布差别很大,那么不同的 mini-batch 的数据将会进行不一样的数据变换,这就增加了模型训练的难度。

  • 结论
  1. 因此, BN比较适用的场景是: 每个 mini-batch较大,数据分布比较接近。 在训练之前做好充分的shuffle, 否则效果会差很多。

  2. 另外 由于BN需要在运行过程中统计每个 mini-batch的一阶统计量和二阶统计量,因此不适用于 动态的网络结构 和 RNN网络。 不过,也有研究者专门提出了适用于RNN的方法, 不展开。

3.2 Layer Normalization --横向规范化

2021秋招-面试高频2-BN、LN、WN相关_第4张图片
层规范化就是针对 BN 的上述不足而提出的。与 BN 不同,LN 是一种横向的规范化,如图所示。它综合考虑一层所有维度的输入,计算该层的平均输入值和输入方差,然后用同一个规范化操作来转换各个维度的输入。 [没懂,为啥不用除以神经个数dim]
μ = ∑ i x i , σ = ∑ i ( x i − μ ) 2 + ϵ \mu=\sum_{i} x_{i}, \quad \sigma=\sqrt{\sum_{i}\left(x_{i}-\mu\right)^{2}+\epsilon} μ=ixi,σ=i(xiμ)2+ϵ

其中 i i i 枚举了该层所有的输入神经元。对应到标准公式中,四大参数 μ \mu μ, σ \sigma σ, g g g, b b b 均为标量(BN中是向量),所有输入共享一个规范化变换。[这块没懂, 输入神经元指的是什么? 先LN,然后再进行W计算? ]

  • LN优点:
    LN 针对单个训练样本进行,不依赖于其他数据,因此可以避免 BN 中受 mini-batch 数据分布影响的问题,可以用于 小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域。此外,LN 不需要保存 mini-batch 的均值和方差,节省了额外的存储空间。

  • LN缺点:
    但是,BN 的转换是针对单个神经元可训练的——不同神经元的输入经过再平移和再缩放后分布在不同的区间,而 LN 对于一整层的神经元训练得到同一个转换——所有的输入都在同一个区间范围内。如果不同输入特征不属于相似的类别(比如颜色和大小),那么 LN 的处理可能会降低模型的表达能力。

3.3 Weight Normalization —— 参数规范化

前面我们讲的模型框架

h = f ( g ⋅ x − μ σ + b ) h=f\left(\mathbf{g} \cdot \frac{\mathbf{x}-\mu}{\sigma}+\mathbf{b}\right) h=f(gσxμ+b)

中,经过规范化之后的 y y y作为输入送到下一个神经元,应用以 w \mathbf{w} w 为参数的 f w ( . ) \mathbf{f_w(.)} fw(.) 函数定义的变换。最普遍的变换是线性变换,即 f w ( x ) = w . x \mathbf{f_w(x)=w.x} fw(x)=w.x.

BN 和 LN 均将规范化应用于输入的特征数据 x x x,而 WN 则另辟蹊径,将规范化应用于线性变换函数的权重 w w w ,这就是 WN 名称的来源。

2021秋招-面试高频2-BN、LN、WN相关_第5张图片
具体而言,WN 提出的方案是,将权重向量 w \mathbf{w} w分解为向量方向 v ^ \mathbf{\hat{v}} v^ 和向量模 g g g 两部分:
w = g ⋅ v ^ = g ⋅ v ∥ v ∥ \mathbf{w}=g \cdot \hat{\mathbf{v}}=g \cdot \frac{\mathbf{v}}{\|\mathbf{v}\|} w=gv^=gvv

2021秋招-面试高频2-BN、LN、WN相关_第6张图片
回忆一下,BN 和 LN 是用输入的特征数据的方差对输入数据进行 scale,而 WN 则是用 神经元的权重的欧氏范式对输入数据进行 scale。虽然在原始方法中分别进行的是特征数据规范化和参数的规范化,但本质上都实现了对数据的规范化,只是用于 scale 的参数来源不同

另外,我们看到这里的规范化只是对数据进行了 scale,而没有进行 shift,因为我们简单地令 μ = 0 \mathbf{\mu} = 0 μ=0. 但事实上,这里留下了与 BN 或者 LN 相结合的余地——那就是利用 BN 或者 LN 的方法来计算输入数据的均值 μ \mu μ

  • WN优点:
    WN 的规范化不直接使用输入数据的统计量,因此避免了 BN 过于依赖 mini-batch 的不足,以及 LN 每层唯一转换器的限制,同时也可以用于动态网络结构。

3.4 Cosine Normalization —— 余弦规范化

Normalization 还能怎么做?

我们再来看看神经元的经典变换 f w ( x ) = w . x \mathbf{f_w(x)=w.x} fw(x)=w.x.

对输入数据 x x x 的变换已经做过了,横着来是 LN,纵着来是 BN。

对模型参数 w w w 的变换也已经做过了,就是 WN。

好像没啥可做的了。

然而天才的研究员们盯上了中间的那个点,对,就是 f w ( x ) = w . x \mathbf{f_w(x)=w.x} fw(x)=w.x.

他们说,我们要对数据进行规范化的原因,是数据经过神经网络的计算之后可能会变得很大,导致数据分布的方差爆炸,而这一问题的根源就是我们的计算方式——点积,权重向量 w w w和 特征数据向量 x x x 的点积。向量点积是无界(unbounded)的啊!

那怎么办呢?我们知道向量点积是衡量两个向量相似度的方法之一。哪还有没有其他的相似度衡量方法呢?有啊,很多啊!夹角余弦就是其中之一啊!而且关键的是,夹角余弦是有确定界的啊,[-1, 1] 的取值范围,多么的美好!仿佛看到了新的世界!

于是,Cosine Normalization 就出世了。他们不处理权重向量 w w w ,也不处理特征数据向量 x x x ,就改了一下线性变换的函数:
f w ( x ) = cos ⁡ θ = w ⋅ x ∥ w ∥ ⋅ ∥ x ∥ f_{\mathbf{w}}(\mathbf{x})=\cos \theta=\frac{\mathbf{w} \cdot \mathbf{x}}{\|\mathbf{w}\| \cdot\|\mathbf{x}\|} fw(x)=cosθ=wxwx

其中 θ \theta θ w w w x x x 的夹角。然后就没有然后了,所有的数据就都是 [-1, 1] 区间范围之内的了!

不过,回过头来看,CN 与 WN 还是很相似的。我们看到上式中,分子还是 w w w x x x 的内积,而分母则可以看做用 w w w x x x 二者的模之积进行规范化。对比一下 WN 的公式:
f w ( W N ( x ) ) = f v ( g ⋅ x ∥ v ∥ ) f_{\mathbf{w}}(W N(\mathbf{x}))=f_{\mathbf{v}}\left(g \cdot \frac{\mathbf{x}}{\|\mathbf{v}\|}\right) fw(WN(x))=fv(gvx)

一定程度上可以理解为,WN 用 权重的模 ∣ ∣ v ∣ ∣ ||\mathbf{v}|| v 对输入向量进行 scale,而 CN 在此基础上用输入向量的模 ∣ ∣ x ∣ ∣ ||\mathbf{x}|| x 对输入向量进行了进一步的 scale.

CN 通过用余弦计算代替内积计算实现了规范化,但成也萧何败萧何。原始的内积计算,其几何意义是 输入向量在权重向量上的投影,既包含 二者的夹角信息,也包含 两个向量的scale信息。去掉scale信息,可能导致表达能力的下降,因此也引起了一些争议和讨论。具体效果如何,可能需要在特定的场景下深入实验。

现在,BN, LN, WN 和 CN 之间的来龙去脉是不是清楚多了? 说实话不是非常清楚。

4. Normalization 为什么有效?

  • 从参数和数据的伸缩不变性讨论Normalization 有效的深层原因。

我们以下面这个简化的神经网络为例来分析。

2021秋招-面试高频2-BN、LN、WN相关_第7张图片

4.1 Normalization 的权重伸缩不变性

  • 1. 权重伸缩不变性可以有效地提高反向传播的效率。
    2021秋招-面试高频2-BN、LN、WN相关_第8张图片
  • 2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率
    2021秋招-面试高频2-BN、LN、WN相关_第9张图片
    上述不是很懂。 为什么 下层的权重越大,其梯度就越小? 因为 求导时候除以 λ \lambda λ 所以梯度变小,然后参数更新慢?

4.2 Normalization 的数据伸缩不变性

2021秋招-面试高频2-BN、LN、WN相关_第10张图片
2021秋招-面试高频2-BN、LN、WN相关_第11张图片

整理?

1. 几种Normalization 具体都是怎样操作的?

2. 分别介绍几种Normalization的优点?

参考2-知乎-如何区分并记住常见的几种 Normalization 算法⭐⭐⭐

2021秋招-面试高频2-BN、LN、WN相关_第12张图片

1. ⭐Batch Normalization⭐

1.1原理、计算过程

2021秋招-面试高频2-BN、LN、WN相关_第13张图片
对应NLP, 1本书, N页(batch), 每页有L行(seq_len), 每行有D个字(dim), 然后求平均的过程怎样对应呢?
求和: N*D吗? 好像也不是,对于 d i m 1 dim_1 dim1 求和N,然后求平均, 对于 d i m 2 dim_2 dim2求和N然后求平均, 然后分别算出 变换后的值?

1.2 训练和测试区别
1.3 代码实现

我们可以在 pytorch 下自己写一个 BN ,看看和官方的版本是否一致,以检验上述理解是否正确:

# coding=utf8
import torch
from torch import nn

# track_running_stats=False,求当前 batch 真实平均值和标准差,
# 而不是更新全局平均值和标准差
# affine=False, 只做归一化,不乘以 gamma 加 beta(通过训练才能确定)
# num_features 为 feature map 的 channel 数目
# eps 设为 0,让官方代码和我们自己的代码结果尽量接近
bn = nn.BatchNorm2d(num_features=3, eps=0, affine=False, track_running_stats=False)

# 乘 10000 为了扩大数值,如果出现不一致,差别更明显
x = torch.rand(10, 3, 5, 5)*10000 
official_bn = bn(x)

# 把 channel 维度单独提出来,而把其它需要求均值和标准差的维度融合到一起
x1 = x.permute(1,0,2,3).view(3, -1)
 
mu = x1.mean(dim=1).view(1,3,1,1)
# unbiased=False, 求方差时不做无偏估计(除以 N-1 而不是 N),和原始论文一致
# 个人感觉无偏估计仅仅是数学上好看,实际应用中差别不大
std = x1.std(dim=1, unbiased=False).view(1,3,1,1)

my_bn = (x-mu)/std

diff=(official_bn-my_bn).sum()
print('diff={}'.format(diff)) # 差别是 10-5 级的,证明和官方版本基本一致

2. Layer Normalization

2.1 原理

2021秋招-面试高频2-BN、LN、WN相关_第14张图片

2.3 代码实现

如下代码对比了 pytorch 官方 API 计算 LN,和依据原理逐步计算 LN 得到的结果:

import torch
from torch import nn

x = torch.rand(10, 3, 5, 5)*10000

# normalization_shape 相当于告诉程序这本书有多少页,每页多少行多少列
# eps=0 排除干扰
# elementwise_affine=False 不作映射
# 这里的映射和 BN 以及下文的 IN 有区别,它是 elementwise 的 affine,
# 即 gamma 和 beta 不是 channel 维的向量,而是维度等于 normalized_shape 的矩阵
ln = nn.LayerNorm(normalized_shape=[3, 5, 5], eps=0, elementwise_affine=False)

official_ln = ln(x)

x1 = x.view(10, -1)
mu = x1.mean(dim=1).view(10, 1, 1, 1)
std = x1.std(dim=1,unbiased=False).view(10, 1, 1, 1)

my_ln = (x-mu)/std

diff = (my_ln-official_ln).sum()

print('diff={}'.format(diff)) # 差别和官方版本数量级在 1e-5

3. Instance Normalization

3.1 原理

2021秋招-面试高频2-BN、LN、WN相关_第15张图片

3.2 代码实现
import torch
from torch import nn


x = torch.rand(10, 3, 5, 5) * 10000

# track_running_stats=False,求当前 batch 真实平均值和标准差,
# 而不是更新全局平均值和标准差
# affine=False, 只做归一化,不乘以 gamma 加 beta(通过训练才能确定)
# num_features 为 feature map 的 channel 数目
# eps 设为 0,让官方代码和我们自己的代码结果尽量接近
In = nn.InstanceNorm2d(num_features=3, eps=0, affine=False, track_running_stats=False)

official_in = In(x)

x1 = x.view(30, -1)
mu = x1.mean(dim=1).view(10, 3, 1, 1)
std = x1.std(dim=1, unbiased=False).view(10, 3, 1, 1)

my_in = (x-mu)/std

diff = (my_in-official_in).sum()
print('diff={}'.format(diff)) # 误差量级在 1e-5

4.Group Normalization

4.1 原理

2021秋招-面试高频2-BN、LN、WN相关_第16张图片

4.2 代码
import torch
from torch import nn


x = torch.rand(10, 20, 5, 5)*10000

# 分成 4 个 group
# 其余设定和之前相同
gn = nn.GroupNorm(num_groups=4, num_channels=20, eps=0, affine=False)
official_gn = gn(x)

# 把同一 group 的元素融合到一起
x1 = x.view(10, 4, -1)
mu = x1.mean(dim=-1).reshape(10, 4, -1)
std = x1.std(dim=-1).reshape(10, 4, -1)

x1_norm = (x1-mu)/std
my_gn = x1_norm.reshape(10, 20, 5, 5)

diff = (my_gn-official_gn).sum()

print('diff={}'.format(diff)) # 误差在 1e-4 级

5.总结

2021秋招-面试高频2-BN、LN、WN相关_第17张图片

⭐⭐NLP对应-BatchNorm在NLP任务中的问题与改进

2021秋招-面试高频2-BN、LN、WN相关_第18张图片
NLP中没有通道这个概念,做 LN和BN的图例也相对简单了很多,LN就是对于一个单词经过神经网络时候的某一层的所有神经元(单词向量维度层面)做归一化。 而BN相当于对于 batch中一个单词某一个维度放在一起做归一化处理。 和CV以及最开始的BN、LN有一点区别,但是大致都是相同的。
问题: 做BN, LN时候是考虑句子长度嘛? 一起做吗? 还是针对单个神经元分别做? 从CV看好像是整个一起做?
考虑参数量: 每个N都会有两个权重需要学习。

拿个例子说明: 句子长度: 10, batch_size: 5, feature_dim = 20:
2021秋招-面试高频2-BN、LN、WN相关_第19张图片

⭐问题3:Normalization 可以work的原因分析?

1. 参考3-深入理解Batch Normalization

2021秋招-面试高频2-BN、LN、WN相关_第20张图片
2021秋招-面试高频2-BN、LN、WN相关_第21张图片
2021秋招-面试高频2-BN、LN、WN相关_第22张图片
2021秋招-面试高频2-BN、LN、WN相关_第23张图片
2. 2021秋招-面试高频2-BN、LN、WN相关_第24张图片
3. 知乎-回答
2021秋招-面试高频2-BN、LN、WN相关_第25张图片
4. 知乎-回答
2021秋招-面试高频2-BN、LN、WN相关_第26张图片
5. 知乎回答
2021秋招-面试高频2-BN、LN、WN相关_第27张图片
6. 知乎-回答
2021秋招-面试高频2-BN、LN、WN相关_第28张图片
2021秋招-面试高频2-BN、LN、WN相关_第29张图片
2021秋招-面试高频2-BN、LN、WN相关_第30张图片
7. 知乎-回答
2021秋招-面试高频2-BN、LN、WN相关_第31张图片
8. 参考6-Batch Normalization原理与实战
2021秋招-面试高频2-BN、LN、WN相关_第32张图片
2021秋招-面试高频2-BN、LN、WN相关_第33张图片
2021秋招-面试高频2-BN、LN、WN相关_第34张图片

问题2: 训练和测试时候区别?

2021秋招-面试高频2-BN、LN、WN相关_第35张图片
2021秋招-面试高频2-BN、LN、WN相关_第36张图片

问题5: BN代码实现

1. 深入理解Batch Normalization

2021秋招-面试高频2-BN、LN、WN相关_第37张图片

import torch

class BatchNorm2d(torch.nn.Module):
	def __init__(self, channel, eps=1e-5, affine=True, momentum=0.9):
		super().__init__()
		'''
		channel: 
		eps:
		affine:
		momentum: 
		'''
		
		# 初始化训练参数
		self.gamma = torch.nn.Parameter(torch.ones(1, channel, 1, 1))
		self.beta = torch.parameter(torch.zeros(1, channel, 1, 1))
		slef.eps = eps
		self.momentum = momentum

		self.register_buffer('running_mean', torch.zeros(channel))
		self.register_buffer('running_variance', torch.ones(channel))

	def forward(self, input):
		# input shape must be (n, c, h, w)
		if self.training:
			means = input.mean((0, 2, 3), keepdim=True)
			vars = ((inputs-means)**2).sum(0, 2, 3), kkepdim=True) 
			self.running_mean = self.moment*running_mean + (1-self.momentum) * means   
			self.running_var = self.momentum * self.running_var + (1-self.momentum) * means
		else:
			means = self.runing_mean
			vars = self.running_var

		output = (input - means) / torch.sqrt(vars + self.eps) 
	  if self.affine:
	  		output = output * self.gamma  + self.beta
	  return output 

原理-实现全套-【DL】规范化:你确定了解我吗?

  • 这里面的LN、BN实现我自己觉得稍微优点问题;

torch.nn.functional.normalize详解

自己理解

  1. BN只要normalization涉及到batch内部一起操作都可以称作BN;
  2. LN只要某一层神经网络的神经元一起操作或者特征一起操作都可以称作LN;
  3. 神经元的选择是区别NLP、CV等使用的一个基本区别;
  4. CNN上使用BN, 把 整张图特征当作了一个神经元,所以在整个batch上的归一化定义为: 整个batch上同一个神经元的归一化, KHW。

参考-Batchnorm原理及代码详解
2021秋招-面试高频2-BN、LN、WN相关_第38张图片
5. 在使用pytorch时候, 不管1d, 2d唯一的区别就在于 BN时候,仅仅对于 输入第二个维度开始到后面一起计算。 NLP里面也是,如果1d(), 输入是: [2, 3] batch,dim 或者[2, 3, 4] batch, dim, seq_len 时候. 都是关于后面 dimseq_len 一起计算方差、均值。
6. BN参数: 通道数量
2 LN参数: BERT内部: dim2 BN的NLP感觉也是dim2

代码、源码分析部分

源码-torch.nn.BatchNorm1D()
源码-torch.nn.BatchNorm2D()
批归一化 及 torch.nn.BatchNorm2d 函数详解

为什么要做特征归一化/标准化?

为什么要做特征归一化/标准化?

你可能感兴趣的:(2021秋招)