本文主要从何凯明2018年发表的《Group Normalization》出发,对Group Norm进行理解,以及在三维医学影像上的应用,并对文中提及的其他几种归一化方法进行说明,并给出部分代码和论文链接。
训练深度网络的时候经常发生训练困难的问题,因为,每一次参数迭代更新后,上一层网络的输出数据经过这一层网络计算后,数据的分布会发生变化,为下一层网络的学习带来困难。通过归一化这种方式可以减小图像之间的绝对差异,突出相对差异,加快训练速度。
论文中列出如下几种目前常见的Normalization方法。
归一化层,目前主要有这几个方法,Batch Normalization(2015年)、Layer Normalization(2016年)、Instance Normalization(2017年)、Group Normalization(2018年)、Switchable Normalization(2019年),论文连接见下文;
当输入Tensor为3D医疗影像,则记为[N, D, H, W, C],这几个方法主要的区别就是在:
Group Norm是将channel分组,把channel进行了划分细化,对 C//G * D * H * W 做归一化,其中G在论文中给出的是32,可解决batch Norm对小batchsize效果不好的问题。三维医疗影像因存在slice,受限于显存大小,一般batch size都很小,GN具有较好的效果;
Batch Norm是在batch上,对 NDHW 做归一化,就是对每个单一通道输入进行归一化,这样做对小batchsize效果不好;
Layer Norm在通道方向上,对 CDHW 归一化,就是对每个深度上的输入进行归一化,主要对RNN作用明显;
Instance Norm在图像像素上,对 DHW 做归一化,对一个图像的长宽即对一个像素进行归一化,用在风格化迁移;
Switchable Norm是将BN、LN、IN结合,在training过程中训练各种权重,让网络自己去学习归一化层应该使用哪种归一化方法,对于不同神经网络都具有较好的效果。
对于对应2D图像归一化总结大家可查看博文;
论文连接:https://arxiv.org/pdf/1803.08494.pdf
该方法主要是针对Batch Normalization对小batchsize效果差的问题,提出将channel方向分group,然后每个group内做归一化,算(C//G) * H * W 的均值,这样与batchsize无关,不受其约束。文中列出数据对比:
发现当随着batch size的减少,在相同epochs下BN的错误率逐渐变高了,但Group Norm并未受其影响,具有较好的稳定性。
def groupNormalization_layer(x, is_train, G=32, esp=1e-5, scope=None):
"""
:param x:input data with shap of[batch,depth,height,width,channel]
:param is_train:flag of normalizationlayer,True is training,False is Testing
:param G:in group normalization,channel is seperated with group number(G)
:param esp:Prevent divisor from being zero
:param scope:normalizationlayer scope
:return:
"""
with tf.name_scope(scope + norm_type):
# tranpose:[bs,z,h,w,c]to[bs,c,z,h,w]
x = tf.transpose(x, [0, 4, 1, 2, 3])
N, C, Z, H, W = x.get_shape().as_list()
G = min(G, C)
x = tf.reshape(x, [-1, G, C // G, Z, H, W])
mean, var = tf.nn.moments(x, [2, 3, 4, 5], keep_dims=True)
x = (x - mean) / tf.sqrt(var + esp)
gama = tf.get_variable(scope + norm_type + 'group_gama', [C], initializer=tf.constant_initializer(1.0))
beta = tf.get_variable(scope + norm_type + 'group_beta', [C], initializer=tf.constant_initializer(0.0))
gama = tf.reshape(gama, [1, C, 1, 1, 1])
beta = tf.reshape(beta, [1, C, 1, 1, 1])
output = tf.reshape(x, [-1, C, Z, H, W]) * gama + beta
# tranpose:[bs,c,z,h,w]to[bs,z,h,w,c]
output = tf.transpose(output, [0, 2, 3, 4, 1])
return output
论文连接:https://arxiv.org/pdf/1502.03167.pdf
对输出层进行Batch Norm后,可以放心的使用大学习率,较大的学习率极大的提高了学习速度,
Batch Norm本身上也是一种正则的方式,可以代替其他正则方式如dropout等。而且batch Norm降低了数据之间的绝对差异,有一个去相关的性质,更多的考虑相对差异性,因此在分类任务上具有更好的效果。
算法中两个额外的两个超参,因如果直接做归一化不做其他处理,神经网络是学不到任何东西的。但是加入这两个参数gamma和beta之后,可保证当前Tensor能还原到归一化之前,也即缩放平移到了归一化前的分布,相当于batch norm没有起作用, β 和 γ 分别称之为 平移参数和缩放参数 。这样就保证了每一次数据经过归一化后还保留的有学习来的特征,同时又能完成归一化这个操作,加速训练。
代码如下:
def batchNormalization_layer(x, is_train, esp=1e-5, scope=None):
"""
:param x:input data with shap of[batch,height,width,channel]
:param is_train:flag of normalizationlayer,True is training,False is Testing
:param esp:Prevent divisor from being zero
:param scope:normalizationlayer scope
:return:
"""
with tf.name_scope(scope + norm_type):
# tranpose:[bs,z,h,w,c]to[bs,c,z,h,w]
x = tf.transpose(x, [0, 4, 1, 2, 3])
N, C, Z, H, W = x.get_shape().as_list()
mean, var = tf.nn.moments(x, [0, 2, 3, 4], keep_dims=True)
x = (x - mean) / tf.sqrt(var + esp)
gama = tf.get_variable(scope + norm_type + 'group_gama', [C], initializer=tf.constant_initializer(1.0))
beta = tf.get_variable(scope + norm_type + 'group_beta', [C], initializer=tf.constant_initializer(0.0))
gama = tf.reshape(gama, [1, C, 1, 1, 1])
beta = tf.reshape(beta, [1, C, 1, 1, 1])
output = tf.reshape(x, [-1, C, Z, H, W]) * gama + beta
# tranpose:[bs,c,z,h,w]to[bs,z,h,w,c]
output = tf.transpose(output, [0, 2, 3, 4, 1])
return output
论文连接:https://arxiv.org/pdf/1607.06450v1.pdf
batch normalization存在以下缺点:
与BN不同,LN是针对深度网络的某一层的所有神经元的输入按以下公式进行normalize操作
BN与LN的区别在于:
所以,LN不依赖于batch的大小和输入sequence的深度,因此可以用于batchsize为1和RNN中对边长的输入sequence的normalize操作。
论文连接:https://arxiv.org/pdf/1607.08022.pdf
BN注重对每个batch进行归一化,保证数据分布一致,因为判别模型中结果取决于数据整体分布。
但是图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。
论文中给出公式如下:
论文连接:https://arxiv.org/pdf/1806.10779.pdf
因此作者提出自适配归一化方法——Switchable Normalization(SN)来解决上述问题。与强化学习不同,SN使用可微分学习,为一个深度网络中的每一个归一化层确定合适的归一化操作。适合各种不同的深度网络模型。
公式如下,将IN,BN,LN分别赋予不同的权重,并在训练时学习这些权重。
论文中给出的图表结果如下,可发现Switchable Norm对于不同的网络都具有较好的适应性,且在图像分类中BN权重较高,图像分割迁移网络中IN权重较高,符合认知。