目录
从 Mini-Batch SGD 说起
Normalization 到底是在做什么
Batch Normalization 如何做
3.1 前向神经网络中的 BN
3.2 CNN 网络中的 BN
3.3 Batch Norm 的四大罪状
局限 1:如果 Batch Size 太小,则 BN 效果明显下降。
局限 2:对于有些像素级图片生成任务来说,BN 效果不佳;
局限 3:RNN 等动态网络使用 BN 效果不佳且使用起来不方便
局限 4:训练时和推理时统计量不一致
Layer Normalization、Instance Normalization 及 Group Normalization
4.1 Layer Normalization
4.2 Instance Normalization
4.3 Group Normalization
Batch Normalization(简称 BN)自从提出之后,因为效果特别好,很快被作为深度学习的标准工具应用在了各种场合。
我们先从 Mini-Batch SGD 的优化过程讲起,因为这是下一步理解 Batch Normalization 中 Batch 所代表具体含义的知识基础。
我们知道,SGD 是无论学术圈写文章做实验还是工业界调参跑模型最常用的模型优化算法,但是有时候容易被忽略的一点是:一般提到的 SGD 是指的 Mini-batch SGD,而非原教旨意义下的单实例 SGD。
图 1. Mini-Batch SGD 训练过程(假设 Batch Size=2)
所谓「Mini-Batch」, 是指的从训练数据全集 T 中随机选择的一个训练数据子集合。假设训练数据集合 T 包含 N 个样本,而每个 Mini-Batch 的 Batch Size 为 b,于是整个训练数据可被分成 N/b 个 Mini-Batch。在模型通过 SGD 进行训练时,一般跑完一个 Mini-Batch 的实例,叫做完成训练的一步(step), 跑完 N/b 步则整个训练数据完成一轮训练,则称为完成一个 Epoch。完成一个 Epoch 训练过程后,对训练数据做随机 Shuffle 打乱训练数据顺序,重复上述步骤,然后开始下一个 Epoch 的训练,对模型完整充分的训练由多轮 Epoch 构成(参考图 1)。
在拿到一个 Mini-Batch 进行参数更新时,首先根据当前 Mini-Batch 内的 b 个训练实例以及参数对应的损失函数的偏导数来进行计算,以获得参数更新的梯度方向,然后根据 SGD 算法进行参数更新,以此来达到本步(Step)更新模型参数并逐步寻优的过程。
图 2. Mini-Batch SGD 优化过程
具体而言,如果我们假设机器学习任务的损失函数是平方损失函数:
那么,由 Mini-Batch 内训练实例可得出 SGD 优化所需的梯度方向为:
其中,
根据梯度方向即可利用标准 SGD 来更新模型参数:
其中,η是学习率。
由上述过程(参考图 2)可以看出,对于 Mini-Batch SGD 训练方法来说,为了能够参数更新必须得先求出梯度方向,而为了能够求出梯度方向,需要对每个实例得出当前参数下映射函数的预测值 h_θ (x_i ),这意味着如果是用神经网络来学习映射函数 h_θ的话,Mini-Batch 内的每个实例需要走一遍当前的网络,产生当前参数下神经网络的预测值,这点请注意,这是理解后续 Batch Normalization 的基础。
至于 Batch Size 的影响,目前可以实验证实的是:batch size 设置得较小训练出来的模型相对大 batch size 训练出的模型泛化能力更强,在测试集上的表现更好,而太大的 batch size 往往不太 Work,而且泛化能力较差。但是背后是什么原因造成的,目前还未有定论,持不同看法者各持己见。因为这不是文本的重点,所以先略过不表。
Normalization 的中文翻译一般叫做「规范化」,是一种对数值的特殊函数变换方法,也就是说假设原始的某个数值是 x,套上一个起到规范化作用的函数,对规范化之前的数值 x 进行转换,形成一个规范化后的数值,即:
所谓规范化,是希望转换后的数值 x ̂满足一定的特性,至于对数值具体如何变换,跟规范化目标有关,也就是说 f() 函数的具体形式,不同的规范化目标导致具体方法中函数所采用的形式不同。
其实我们生活中也有很多类似的规范化操作,知乎里面有个热帖,主题是:「为什么人大附中的学生那么爱穿校服?」,里面有人打趣地问:「请问人大附中的学生洗澡的时候脱不脱校服?」。这个问题我回答不了,要我猜大概率夏天洗澡的时候是会脱的,要不然洗澡的时候天太热人受不了,冬天则未必,穿着洗可能更保暖。跑题了,其实我想说的是:学校要求学生穿校服就是一种典型的规范化操作,学校的规范化目标是要求学生着装整齐划一,显得干练有风貌,所以定义了一个规范化函数:
就是说不论哪个学生,不论你平常的着装变量 x=」香奈儿」还是 x=「麻袋片」,经过这个规范化函数操作,统一都换成校服。这样就达到了学校的规范化目的。
图 3. 神经元
在介绍深度学习 Normalization 前,我们先普及下神经元的活动过程。深度学习是由神经网络来体现对输入数据的函数变换的,而神经网络的基础单元就是网络神经元,一个典型的神经元对数据进行处理时包含两个步骤的操作(参考图 3):
步骤一:对输入数据进行线性变换,产生净激活值
其中,x 是输入,w 是权重参数,b 是偏置,w 和 b 是需要进过训练学习的网络参数。
步骤二:套上非线性激活函数,神经网络的非线性能力来自于此,目前深度学习最常用的激活函数是 Relu 函数x=Relu(a)。
如此一个神经元就完成了对输入数据的非线性函数变换。这里需要强调下,步骤一的输出一般称为净激活(Net Activation),第二步骤经过激活函数后得到的值为激活值。为了描述简洁,本文后续文字中使用激活的地方,其实指的是未经激活函数的净激活值,而非一般意义上的激活,这点还请注意。
至于深度学习中的 Normalization,因为神经网络里主要有两类实体:神经元或者连接神经元的边,所以按照规范化操作涉及对象的不同可以分为两大类,一类是对第 L 层每个神经元的激活值或者说对于第 L+1 层网络神经元的输入值进行 Normalization 操作,比如 BatchNorm/LayerNorm/InstanceNorm/GroupNorm 等方法都属于这一类;另外一类是对神经网络中连接相邻隐层神经元之间的边上的权重进行规范化操作,比如 Weight Norm 就属于这一类。广义上讲,一般机器学习里看到的损失函数里面加入的对参数的的 L1/L2 等正则项,本质上也属于这第二类规范化操作。L1 正则的规范化目标是造成参数的稀疏化,就是争取达到让大量参数值取得 0 值的效果,而 L2 正则的规范化目标是有效减小原始参数值的大小。有了这些规范目标,通过具体的规范化手段来改变参数值,以达到避免模型过拟合的目的。
本文主要介绍第一类针对神经元的规范化操作方法,这是目前 DNN 做 Normalization 最主流的做法。
图 4. Normalization 加入的位置
那么对于第一类的 Normalization 操作,其在什么位置发挥作用呢?目前有两种在神经元中插入 Normalization 操作的地方(参考图 4),第一种是原始 BN 论文提出的,放在激活函数之前;另外一种是后续研究提出的,放在激活函数之后,不少研究表明将 BN 放在激活函数之后效果更好。本文在讲解时仍然遵循 BN 原始论文,后续讲解都可以看成是将 Normalization 操作放在激活函数之前进行。
对于神经元的激活值来说,不论哪种 Normalization 方法,其规范化目标都是一样的,就是将其激活值规整为均值为 0,方差为 1 的正态分布。即规范化函数统一都是如下形式:
写成两步的模式是为了方便讲解,如果写成一体的形式,则是如下形式:
其中,a_i 为某个神经元原始激活值,为经过规范化操作后的规范后值。整个规范化过程可以分解为两步,第一步参考公式(1),是对激活值规整到均值为 0,方差为 1 的正态分布范围内。其中,μ 是通过神经元集合 S(至于 S 如何选取读者可以先不用关注,后文有述)中包含的 m 个神经元各自的激活值求出的均值,即:
σ_i 为根据均值和集合 S 中神经元各自激活值求出的激活值标准差:
其中,ε 是为了增加训练稳定性而加入的小的常量数据。
第二步参考公式(2),主要目标是让每个神经元在训练过程中学习到对应的两个调节因子,对规范到 0 均值,1 方差的值进行微调。因为经过第一步操作后,Normalization 有可能降低神经网络的非线性表达能力,所以会以此方式来补偿 Normalization 操作后神经网络的表达能力。
目前神经网络中常见的第一类 Normalization 方法包括 Batch Normalization/Layer Normalization/Instance Normalization 和 Group Normalization,BN 最早由 Google 研究人员于 2015 年提出,后面几个算法算是 BN 的改进版本。不论是哪个方法,其基本计算步骤都如上所述,大同小异,最主要的区别在于神经元集合 S 的范围怎么定,不同的方法采用了不同的神经元集合定义方法。
为什么这些 Normalization 需要确定一个神经元集合 S 呢?原因很简单,前面讲过,这类深度学习的规范化目标是将神经元的激活值限定在均值为 0 方差为 1 的正态分布中。而为了能够对网络中某个神经元的激活值 a_i 规范到均值为 0 方差为 1 的范围,必须有一定的手段求出均值和方差,而均值和方差是个统计指标,要计算这两个指标一定是在一个集合范围内才可行,所以这就要求必须指定一个神经元组成的集合,利用这个集合里每个神经元的激活来统计出所需的均值和方差,这样才能达到预定的规范化目标。
图 5. Normalization 具体例子
图 5 给出了这类 Normalization 的一个计算过程的具体例子,例子中假设网络结构是前向反馈网络,对于隐层的三个节点来说,其原初的激活值为 [0.4,-0.6,0.7],为了可以计算均值为 0 方差为 1 的正态分布,划定集合 S 中包含了这个网络中的 6 个神经元,至于如何划定集合 S 读者可以先不用关心,此时其对应的激活值如图中所示,根据这 6 个激活值,可以算出对应的均值和方差。有了均值和方差,可以利用公式 3 对原初激活值进行变换,如果 r 和 b 被设定为 1,那么可以得到转换后的激活值 [0.21,-0.75,0.50],对于新的激活值经过非线性变换函数比如 RELU,则形成这个隐层的输出值 [0.21,0,0.50]。这个例子中隐层的三个神经元在某刻进行 Normalization 计算的时候共用了同一个集合 S,在实际的计算中,隐层中的神经元可能共用同一个集合,也可能每个神经元采用不同的神经元集合 S,并非一成不变,这点还请留心与注意。
针对神经元的所有 Normalization 方法都遵循上述计算过程,唯一的不同在于如何划定计算统计量所需的神经元集合 S 上。读者可以自己思考下,如果你是 BN 或者其它改进模型的设计者,那么你会如何选取集合 S?
我们知道,目前最常用的深度学习基础模型包括前向神经网络(MLP),CNN 和 RNN。目前 BN 在这些基础网络结构都有尝试,总体而言,BN 在 MLP 和 CNN 是非常成功的,在 RNN 上效果不明显。下面我们分述前向神经网络以及 CNN 中如何应用 BN,然后谈谈 BN 面临的一些困境。正是这些困境引发了后续的一系列改进模型的提出。
图 6. 前向神经网络中的 BatchNorm
对于前向神经网络来说,BatchNorm 在计算隐层某个神经元 k 激活的规范值的时候,对应的神经元集合 S 范围是如何划定呢?图 6 给出了示意。因为对于 Mini-Batch 训练方法来说,根据 Loss 更新梯度使用 Batch 中所有实例来做,所以对于神经元 k 来说,假设某个 Batch 包含 n 个训练实例,那么每个训练实例在神经元 k 都会产生一个激活值,也就是说 Batch 中 n 个训练实例分别通过同一个神经元 k 的时候产生了 n 个激活值,BatchNorm 的集合 S 选择入围的神经元就是这 n 个同一个神经元被 Batch 不同训练实例激发的激活值。划定集合 S 的范围后,Normalization 的具体计算过程与前文所述计算过程一样,采用公式 3 即可完成规范化操作。
了解了前向神经网络中的 BatchNorm,接下来介绍 CNN 中的 BatchNorm,读者可以先自行思考下如果由你来主导设计,在 CNN 中究竟应该如何确定神经元集合 S 的势力范围。
我们知道,常规的 CNN 一般由卷积层、下采样层及全连接层构成。全连接层形式上与前向神经网络是一样的,所以可以采取前向神经网络中的 BatchNorm 方式,而下采样层本身不带参数所以可以忽略,所以 CNN 中主要关注卷积层如何计算 BatchNorm。
图 7. CNN 中的卷积核
CNN 中的某个卷积层由 m 个卷积核构成,每个卷积核对三维的输入(通道数*长*宽)进行计算,激活及输出值是个二维平面(长*宽),对应一个输出通道(参考图 7),由于存在 m 个卷积核,所以输出仍然是三维的,由 m 个通道及每个通道的二维平面构成。
图 8. CNN 中的 BatchNorm 过程
那么在卷积层中,如果要对通道激活二维平面中某个激活值进行 Normalization 操作,怎么确定集合 S 的范围呢?图 8 给出了示意图。类似于前向神经网络中的 BatchNorm 计算过程,对于 Mini-Batch 训练方法来说,反向传播更新梯度使用 Batch 中所有实例的梯度方向来进行,所以对于 CNN 某个卷积层对应的输出通道 k 来说,假设某个 Batch 包含 n 个训练实例,那么每个训练实例在这个通道 k 都会产生一个二维激活平面,也就是说 Batch 中 n 个训练实例分别通过同一个卷积核的输出通道 k 的时候产生了 n 个激活平面。假设激活平面长为 5,宽为 4,则激活平面包含 20 个激活值,n 个不同实例的激活平面共包含 20*n 个激活值。那么 BatchNorm 的集合 S 的范围就是由这 20*n 个同一个通道被 Batch 不同训练实例激发的激活平面中包含的所有激活值构成(对应图 8 中所有标为蓝色的激活值)。划定集合 S 的范围后,激活平面中任意一个激活值都需进行 Normalization 操作,其 Normalization 的具体计算过程与前文所述计算过程一样,采用公式 3 即可完成规范化操作。这样即完成 CNN 卷积层的 BatchNorm 转换过程。
图 9. CNN 中 Batch Norm 的另外一种角度的理解
描述起来似乎有些复杂,但是从概念上,其实可以把 CNN 中的卷积层想象成前向神经网络中的一个隐层,然后把对应的某个卷积核想象成 MLP 隐层中的一个神经元节点,无非其输出是个二维激活平面而不像 MLP 的神经元输出是一个激活值,另外一个不同是这个神经元覆盖的输入部分不同,CNN 的卷积核是局部覆盖输入,通过滑动窗口来实现输入的全覆盖,而 MLP 的神经元则是一步到位全局覆盖输入而已 (参考图 9 示意)。如果从这个角度思考 CNN 和 MLP 中的 BatchNorm 的话,其实两者的做法是一致的。
从理论上讲,类似的 BatchNorm 操作也可以应用在 RNN 上,事实上也有不少研究做了尝试,但是各种实验证明其实这么做没什么用,所以本文就不展开讲 RNN 中的 BN 了。
BatchNorm 目前基本已经成为各种网络(RNN 除外)的标配,主要是因为效果好,比如可以加快模型收敛速度,不再依赖精细的参数初始化过程,可以调大学习率等各种方便,同时引入的随机噪声能够起到对模型参数进行正则化的作用,有利于增强模型泛化能力。
但是,BatchNorm 这么好用的大杀器,仍然存在很多问题。
BN 是严重依赖 Mini-Batch 中的训练实例的,如果 Batch Size 比较小则任务效果有明显的下降。那么多小算是太小呢?图 10 给出了在 ImageNet 数据集下做分类任务时,使用 ResNet 的时候模型性能随着 BatchSize 变化时的性能变化情况,可以看出当 BatchSize 小于 8 的时候开始对分类效果有明显负面影响。之所以会这样,是因为在小的 BatchSize 意味着数据样本少,因而得不到有效统计量,也就是说噪音太大。这个很好理解,这就类似于我们国家统计局在做年均收入调查的时候,正好把你和马云放到一个 Batch 里算平均收入,那么当你为下个月房租发愁之际,突然听到你所在组平均年薪 1 亿美金时,你是什么心情,那小 Mini-Batch 里其它训练实例就是啥心情。
图 10. BN 的 Batch Size 大小对 ImageNet 分类任务效果的影响(From GN 论文)
BN 的 Batch Size 大小设置是由调参师自己定的,调参师只要把 Batch Size 大小设置大些就可以避免上述问题。但是有些任务比较特殊,要求 batch size 必须不能太大,在这种情形下,普通的 BN 就无能为力了。比如 BN 无法应用在 Online Learning 中,因为在线模型是单实例更新模型参数的,难以组织起 Mini-Batch 结构。
对于图片分类等任务,只要能够找出关键特征,就能正确分类,这算是一种粗粒度的任务,在这种情形下通常 BN 是有积极效果的。但是对于有些输入输出都是图片的像素级别图片生成任务,比如图片风格转换等应用场景,使用 BN 会带来负面效果,这很可能是因为在 Mini-Batch 内多张无关的图片之间计算统计量,弱化了单张图片本身特有的一些细节信息。
对于 RNN 来说,尽管其结构看上去是个静态网络,但在实际运行展开时是个动态网络结构,因为输入的 Sequence 序列是不定长的,这源自同一个 Mini-Batch 中的训练实例有长有短。对于类似 RNN 这种动态网络结构,BN 使用起来不方便,因为要应用 BN,那么 RNN 的每个时间步需要维护各自的统计量,而 Mini-Batch 中的训练实例长短不一,这意味着 RNN 不同时间步的隐层会看到不同数量的输入数据,而这会给 BN 的正确使用带来问题。假设 Mini-Batch 中只有个别特别长的例子,那么对较深时间步深度的 RNN 网络隐层来说,其统计量不方便统计而且其统计有效性也非常值得怀疑。另外,如果在推理阶段遇到长度特别长的例子,也许根本在训练阶段都无法获得深层网络的统计量。综上,在 RNN 这种动态网络中使用 BN 很不方便,而且很多改进版本的 BN 应用在 RNN 效果也一般。
对于 BN 来说,采用 Mini-Batch 内实例来计算统计量,这在训练时没有问题,但是在模型训练好之后,在线推理的时候会有麻烦。因为在线推理或预测的时候,是单实例的,不存在 Mini-Batch,所以就无法获得 BN 计算所需的均值和方差,一般解决方法是采用训练时刻记录的各个 Mini-Batch 的统计量的数学期望,以此来推算全局的均值和方差,在线推理时采用这样推导出的统计量。虽说实际使用并没大问题,但是确实存在训练和推理时刻统计量计算方法不一致的问题。
上面所列 BN 的四大罪状,表面看是四个问题,其实深入思考,都指向了幕后同一个黑手,这个隐藏在暗处的黑手是谁呢?就是 BN 要求计算统计量的时候必须在同一个 Mini-Batch 内的实例之间进行统计,因此形成了 Batch 内实例之间的相互依赖和影响的关系。如何从根本上解决这些问题?一个自然的想法是:把对 Batch 的依赖去掉,转换统计集合范围。在统计均值方差的时候,不依赖 Batch 内数据,只用当前处理的单个训练数据来获得均值方差的统计量,这样因为不再依赖 Batch 内其它训练数据,那么就不存在因为 Batch 约束导致的问题。在 BN 后的几乎所有改进模型都是在这个指导思想下进行的。
但是这个指导思路尽管会解决 BN 带来的问题,又会引发新的问题,新的问题是:我们目前已经没有 Batch 内实例能够用来求统计量了,此时统计范围必须局限在一个训练实例内,一个训练实例看上去孤零零的无依无靠没有组织,怎么看也无法求统计量,所以核心问题是对于单个训练实例,统计范围怎么算?
为了能够在只有当前一个训练实例的情形下,也能找到一个合理的统计范围,一个最直接的想法是:MLP 的同一隐层自己包含了若干神经元;同理,CNN 中同一个卷积层包含 k 个输出通道,每个通道包含 m*n 个神经元,整个通道包含了 k*m*n 个神经元;类似的,RNN 的每个时间步的隐层也包含了若干神经元。那么我们完全可以直接用同层隐层神经元的响应值作为集合 S 的范围来求均值和方差。这就是 Layer Normalization 的基本思想。图 11、图 12 和图 13 分示了 MLP、CNN 和 RNN 的 Layer Normalization 的集合 S 计算范围,因为很直观,所以这里不展开详述。
图 11. MLP 中的 LayerNorm
图 12. CNN 中的 LayerNorm
图 13. RNN 中的 LayerNorm
前文有述,BN 在 RNN 中用起来很不方便,而 Layer Normalization 这种在同隐层内计算统计量的模式就比较符合 RNN 这种动态网络,目前在 RNN 中貌似也只有 LayerNorm 相对有效,但 Layer Normalization 目前看好像也只适合应用在 RNN 场景下,在 CNN 等环境下效果是不如 BatchNorm 或者 GroupNorm 等模型的。从目前现状看,动态网络中的 Normalization 机制是非常值得深入研究的一个领域。
从上述内容可以看出,Layer Normalization 在抛开对 Mini-Batch 的依赖目标下,为了能够统计均值方差,很自然地把同层内所有神经元的响应值作为统计范围,那么我们能否进一步将统计范围缩小?对于 CNN 明显是可以的,因为同一个卷积层内每个卷积核会产生一个输出通道,而每个输出通道是一个二维平面,也包含多个激活神经元,自然可以进一步把统计范围缩小到单个卷积核对应的输出通道内部。图 14 展示了 CNN 中的 Instance Normalization,对于图中某个卷积层来说,每个输出通道内的神经元会作为集合 S 来统计均值方差。对于 RNN 或者 MLP,如果在同一个隐层类似 CNN 这样缩小范围,那么就只剩下单独一个神经元,输出也是单值而非 CNN 的二维平面,这意味着没有形成集合 S,所以 RNN 和 MLP 是无法进行 Instance Normalization 操作的,这个很好理解。
图 14 CNN 中的 Instance Normalization
我们回想下图 8 代表的 CNN 中的 Batch Normalization,可以设想一下:如果把 BN 中的 Batch Size 大小设定为 1,此时和 Instance Norm 的图 14 比较一下,是否两者是等价的?也就是说,看上去 Instance Normalization 像是 Batch Normalization 的一种 Batch Size=1 的特例情况。但是仔细思考,你会发现两者还是有区别的,至于区别是什么读者可自行思考。
Instance Normalization 对于一些图片生成类的任务比如图片风格转换来说效果是明显优于 BN 的,但在很多其它图像类任务比如分类等场景效果不如 BN。
从上面的 Layer Normalization 和 Instance Normalization 可以看出,这是两种极端情况,Layer Normalization 是将同层所有神经元作为统计范围,而 Instance Normalization 则是 CNN 中将同一卷积层中每个卷积核对应的输出通道单独作为自己的统计范围。那么,有没有介于两者之间的统计范围呢?通道分组是 CNN 常用的模型优化技巧,所以自然而然会想到对 CNN 中某一层卷积层的输出或者输入通道进行分组,在分组范围内进行统计。这就是 Group Normalization 的核心思想,是 Facebook 何凯明研究组 2017 年提出的改进模型。
图 15 展示了 CNN 中的 Group Normalization。理论上 MLP 和 RNN 也可以引入这种模式,但是还没有看到相关研究,不过从道理上考虑,MLP 和 RNN 这么做的话,分组内包含神经元太少,估计缺乏统计有效性,猜测效果不会太好。
图 15. CNN 中的 Group Normalization
Group Normalization 在要求 Batch Size 比较小的场景下或者物体检测/视频分类等应用场景下效果是优于 BN 的。
Normalization 操作的 Re-Scaling 不变性
我们知道,当神经网络深度加深时,训练有较大困难,往往其原因在于随着网络加深,在反向传播训练模型时,存在梯度爆炸或者梯度消失问题,Loss 信息不能有效传导到低层神经网络参数,所以导致参数无法更新,模型无法收敛或者收敛速度慢。而很多环节可能导致梯度爆炸或者梯度消失问题,比如非线性函数及其导数是什么形式以及网络参数是否过大过小等,以非线性函数来说,比如 RELU 是能极大缓解这个问题的(因为它的导数是个常数),这也是为何目前 RELU 大行其道的根本原因。从神经网络参数角度看,如果神经网络中的参数具备 Re-Scaling 不变性,意味着参数值过大或者过小对神经元输出没什么影响,无疑这对缓解梯度爆炸或者梯度消失也有极大帮助作用,而 Normalization 确实具备几个不同角度的 Re-Scaling 不变性,这也许是 Normalization 为何应用在深度学习有效的原因之一,虽然可能并非本质原因。本节即讲述 Normalization 为何具备 Re-Scaling 不变性这种优良特性。
我们考虑神经网络中的三种 Re-Scaling 情形:权重向量(Weight Vector)Re-Scaling,数据 Re-Scaling 和权重矩阵(Weight Matrix)Re-Scaling。
图 16. 权重向量 Re-Scaling
对于网络中某个神经元 i 来说,其对应的边权重向量假设为 W_i,所谓权重向量(Weight Vector)Re-Scaling,就是将 W_i 乘上一个缩放因子φ,如果神经元 i 在进行权重向量 Re-Scaling 之前和之后两种不同情况下做 Normalization 操作,若 Normalization 之后神经元 i 对应的激活值没发生变化,我们就说这种 Normalization 具备权重向量 Re-Scaling 不变性(参考图 16)。
图 17. 数据 Re-Scaling
所谓数据 Re-Scaling,指的是把输入 X 乘上一个缩放因子φ,同样的,如果对输入做缩放前后两种情况下进行 Normalization 操作,若 Normalization 之后所有隐层神经元对应的激活值没发生变化,我们说这种 Normalization 具备数据 Re-Scaling 不变性(参考图 17)。
图 18. 权重矩阵 Re-Scaling
而权重矩阵 Re-Scaling 指的是:对于某两个隐层(L 层 vs L+1 层)之间的所有边的权重参数 W_ij 同时乘上相同的缩放因子φ,如果在权重矩阵 Re-Scaling 之前和之后两种情形下对 (L+1) 层隐层神经元做 Normalization 操作,若两种情况下隐层所有神经元激活值没有变化,我们说这种 Normalization 具备权重矩阵 Re-Scaling 不变性(参考图 18)。
在了解了三种 Re-Scaling 的含义及 Normalization 对应的三种不变性特性后,我们先归纳各种 Normalization 操作所对应的三种 Re-Scaling 的不变性特性如下表所示(Layer Normalization 原始论文分析了 LayerNorm 及 BatchNorm 的 Re-Scaling 不变性,本文补充了 InstanceNorm 及 GroupNorm 的情况):
由表中可见,这四种不同的 Normalization 操作都同时具备权重矩阵 Re-Scaling 不变性和数据 Re-Scaling 不变性,但是不同的操作在权重向量 Re-Scaling 不变性这方面有差异,Batch Norm 和 Instance Norm 具备权重向量 Re-Scaling 不变性,而另外两种 Normalization 不具备这个特性。
参考链接
https://www.sohu.com/a/250702875_129720