各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm

Index

  • 前言
  • Normalization
    • BatchNorm
    • LayerNorm
    • InstanceNorm
    • GroupNorm
    • SwitchableNorm
    • AttentiveNorm

主要参考了这篇博客BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结,另外添加了AttentiveNorm。

前言

论文链接

1、Batch Normalization:https://arxiv.org/pdf/1502.03167.pdf
2、Layer Normalizaiton:https://arxiv.org/pdf/1607.06450v1.pdf
3、Instance Normalization:https://arxiv.org/pdf/1607.08022.pdf
4、Group Normalization:https://arxiv.org/pdf/1803.08494.pdf
5、Switchable Normalization:https://arxiv.org/pdf/1806.10779.pdf
6、AttentiveNorm:https://arxiv.org/pdf/1908.01259.pdf

介绍

归一化层,目前主要有这几个方法,Batch Normalization(2015年)、Layer Normalization(2016年)、Instance Normalization(2017年)、Group Normalization(2018年)、Switchable Normalization(2018年),Attentive Normalization(2019年);

将输入的图像shape记为[N, C, H, W],这几个方法主要的区别就是在,

  • BatchNorm是在batch上,对NHW做归一化,对小batchsize效果不好;
  • LayerNorm在通道方向上,对CHW归一化,主要对RNN作用明显;
  • InstanceNorm在图像像素上,对HW做归一化,用在风格化迁移;
  • GroupNorm将channel分组,然后再做归一化;
  • SwitchableNorm是将BN、LN、IN结合,赋予权重,让网络自己去学习归一化层应该使用什么方法;
  • AttentiveNorm则是结合了BN和SE模块,将SE引入Affine Transformation
    各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm_第1张图片

Normalization

1.BatchNorm

首先,在进行训练之前,一般要对数据做归一化,使其分布一致,但是在深度神经网络训练过程中,通常以送入网络的每一个batch训练,这样每个batch具有不同的分布;此外,为了解决internal covarivate shift问题,这个问题定义是随着batch normalizaiton这篇论文提出的,在训练过程中,数据分布会发生变化,对下一层网络的学习带来困难。

所以batch normalization就是强行将数据拉回到均值为0,方差为1的正太分布上,这样不仅数据分布一致,而且避免发生梯度消失。

此外,internal corvariate shift和covariate shift是两回事,前者是网络内部,后者是针对输入数据,比如我们在训练数据前做归一化等预处理操作。

算法过程:

  • 沿着通道计算每个batch的均值u
  • 沿着通道计算每个batch的方差σ^2
  • 对x做归一化,x’=(x-u)/开根号(σ^2+ε)
  • 加入缩放和平移变量γ和β ,归一化后的值,y=γx’+β

加入缩放平移变量的原因是:保证每一次数据经过归一化后还保留原有学习来的特征,同时又能完成归一化操作,加速训练。 这两个参数是用来学习的参数。
各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm_第2张图片
实现:

import numpy as np

def Batchnorm(x, gamma, beta, bn_param):

    # x_shape:[B, C, H, W]
    running_mean = bn_param['running_mean']
    running_var = bn_param['running_var']
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(0, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(0, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta

    # 因为在测试时是单个图片测试,这里保留训练时的均值和方差,用在后面测试时用
    running_mean = momentum * running_mean + (1 - momentum) * x_mean
    running_var = momentum * running_var + (1 - momentum) * x_var

    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var

    return results, bn_param

2.LayerNorm

batch normalization存在以下缺点:

对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分布;
BN实际使用时需要计算并且保存某一层神经网络batch的均值和方差等统计信息,对于对一个固定深度的前向神经网络(DNN,CNN)使用BN,很方便;但对于RNN来说,sequence的长度是不一致的,换句话说RNN的深度不是固定的,不同的time-step需要保存不同的statics特征,可能存在一个特殊sequence比其他sequence长很多,这样training时,计算很麻烦。
与BN不同,LN是针对深度网络的某一层的所有神经元的输入按以下公式进行normalize操作。
在这里插入图片描述
BN与LN的区别在于:

  • LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;
  • BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。

所以,LN不依赖于batch的大小和输入sequence的深度,因此可以用于batchsize为1和RNN中对边长的输入sequence的normalize操作。

LN用于RNN效果比较明显,但是在CNN上,不如BN。

实现:

def Layernorm(x, gamma, beta):

    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(1, 2, 3), keepdims=True)
    x_var = np.var(x, axis=(1, 2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta
    return results

3.InstanceNorm

BN注重对每个batch进行归一化,保证数据分布一致,因为判别模型中结果取决于数据整体分布。

但是图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。

公式:
在这里插入图片描述
实现:

def Instancenorm(x, gamma, beta):

    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5

    x_mean = np.mean(x, axis=(2, 3), keepdims=True)
    x_var = np.var(x, axis=(2, 3), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta
    return results

4.GroupNorm

主要是针对Batch Normalization对小batchsize效果差,GN将channel方向分group,然后每个group内做归一化,算(C//G)HW的均值,这样与batchsize无关,不受其约束。
各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm_第3张图片
实现:

def GroupNorm(x, gamma, beta, G=16):

    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5
    x = np.reshape(x, (x.shape[0], G, x.shape[1]/16, x.shape[2], x.shape[3]))

    x_mean = np.mean(x, axis=(2, 3, 4), keepdims=True)
    x_var = np.var(x, axis=(2, 3, 4), keepdims=True0)
    x_normalized = (x - x_mean) / np.sqrt(x_var + eps)
    results = gamma * x_normalized + beta
    return results

5.SwitchableNorm

本篇论文作者认为,

  • 第一,归一化虽然提高模型泛化能力,然而归一化层的操作是人工设计的。在实际应用中,解决不同的问题原则上需要设计不同的归一化操作,并没有一个通用的归一化方法能够解决所有应用问题;
  • 第二,一个深度神经网络往往包含几十个归一化层,通常这些归一化层都使用同样的归一化操作,因为手工为每一个归一化层设计操作需要进行大量的实验。

因此作者提出自适配归一化方法——Switchable Normalization(SN)来解决上述问题。与强化学习不同,SN使用可微分学习,为一个深度网络中的每一个归一化层确定合适的归一化操作。
在这里插入图片描述
各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm_第4张图片
在这里插入图片描述
实现:

def SwitchableNorm(x, gamma, beta, w_mean, w_var):
    # x_shape:[B, C, H, W]
    results = 0.
    eps = 1e-5

    mean_in = np.mean(x, axis=(2, 3), keepdims=True)
    var_in = np.var(x, axis=(2, 3), keepdims=True)

    mean_ln = np.mean(x, axis=(1, 2, 3), keepdims=True)
    var_ln = np.var(x, axis=(1, 2, 3), keepdims=True)

    mean_bn = np.mean(x, axis=(0, 2, 3), keepdims=True)
    var_bn = np.var(x, axis=(0, 2, 3), keepdims=True)

    mean = w_mean[0] * mean_in + w_mean[1] * mean_ln + w_mean[2] * mean_bn
    var = w_var[0] * var_in + w_var[1] * var_ln + w_var[2] * var_bn

    x_normalized = (x - mean) / np.sqrt(var + eps)
    results = gamma * x_normalized + beta
    return results

6.AttentiveNorm

本文研究的出发点主要就是BN标准化之后,会有两个可学习的超参数gamma和belta来调整,文中叫做可学习的channel-wise仿射变换,而SE模块主要学习的是如何自适应调整channel-wise的特征响应。于是将SE和BN结合起来,用SE来调整BN的affine transformation
各种Normalization:BatchNorm、LayerNorm、InstanceNorm、GroupNorm、SwitchableNorm、AttentiveNorm_第5张图片
主要流程如上,将特征图Global pooling之后接FC和Sigmoid,之后接1x1 Conv输出权值lambda,维度为[N,K,1,1],
在这里插入图片描述
这样还有gamma[K,C], belta[K,C],最后就可以得到在这里插入图片描述
实现:

class AttenNorm(nn.BatchNorm2d):
	def init ( self , C, K, eps, momentum, running):
		super(AttenNorm, self ) . init (C, eps=eps,
			momentum=momentum, affine=False,
			track running stats=running)
		
		self .gamma = nn.Parameter(torch.Tensor(K, C))
		self . beta = nn.Parameter( torch .Tensor(K, C))
		self .avgpool = nn.AdaptiveAvgPool2d(1)
		self . fc = nn.Linear(C, K)
		self .sigmoid = nn.Sigmoid()
	def forward( self , x):
		output = super(AttenNorm, self ) .forward(x)
		size = output . size ()
		b, c, , = x. size ()
		y = self .avgpool(x) .view(b, c)
		y = self . fc(y)
		y = self .sigmoid(y)
		gamma = y @ self.gamma
		beta = y @ self . beta
		gamma = weight.unsqueeze(−1).unsqueeze(−1).expand(size)
		beta = bias .unsqueeze(−1).unsqueeze(−1).expand(size)
		return gamma ∗ output + beta

你可能感兴趣的:(笔记)