本篇是一个很快地介绍,Batch Normalization 这个技术
之前才讲过说,我们能不能够直接改error surface 的 landscape,我们觉得说 error surface 如果很崎嶇的时候,它比较难 train,那我们能不能够直接把山剷平,让它变得比较好 train 呢?
Batch Normalization 就是其中一个,把山剷平的想法
我们一开始就跟大家讲说,不要小看 optimization 这个问题,有时候就算你的 error surface 是 convex的,它就是一个碗的形状,都不见得很好 train
假设你的两个参数啊,它们对 Loss 的斜率差别非常大,在 w 1 w_1 w1 这个方向上面,你的斜率变化很小,在 w 2 w_2 w2 这个方向上面斜率变化很大
如果是固定的 learning rate,你可能很难得到好的结果,所以我们才说你需要adaptive 的 learning rate、 Adam 等等比较进阶的 optimization 的方法,才能够得到好的结果
现在我们要从另外一个方向想,直接把难做的 error surface 把它改掉,看能不能够改得好做一点
在做这件事之前,也许我们第一个要问的问题就是,有这一种状况,$w_1 $ 跟 w 2 w_2 w2 它们的斜率差很多的这种状况,到底是从什麼地方来的
假设我现在有一个非常非常非常简单的 model,它的输入是 x 1 x_1 x1 跟 x 2 x_2 x2,它对应的参数就是 $ w_1 $ 跟 w 2 w_2 w2,它是一个 linear 的 model,没有 activation function
$ w_1 $ 乘 x 1 x_1 x1, w 2 w_2 w2 乘 x 2 x_2 x2 加上 b 以后就得到 y,然后会计算 y 跟 y ^ \hat{y} y^ 之间的差距当做 e,把所有 training data e 加起来就是你的 Loss,然后去 minimize 你的 Loss
那什麼样的状况我们会產生像上面这样子,比较不好 train 的 error surface 呢?
当我们对 $ w_1 $ 有一个小小的改变,比如说加上 delta $ w_1 $ 的时候,那这个 L 也会有一个改变,那这个 $ w_1 $ 呢,是透过 $ w_1 $ 改变的时候,你就改变了 y,y 改变的时候你就改变了 e,然后接下来就改变了 L
那什麼时候 $ w_1 $ 的改变会对 L 的影响很小呢,也就是它在 error surface 上的斜率会很小呢
一个可能性是当你的 input 很小的时候,假设 x 1 x_1 x1 的值在不同的 training example 裡面,它的值都很小,那因為 x 1 x_1 x1 是直接乘上 $ w_1 $,如果 x 1 x_1 x1 的值都很小,$ w_1 $ 有一个变化的时候,它得到的,它对 y 的影响也是小的,对 e 的影响也是小的,它对 L 的影响就会是小的
反之呢,如果今天是 x 2 x_2 x2 的话
那假设 x 2 x_2 x2 的值都很大,当你的 w 2 w_2 w2 有一个小小的变化的时候,虽然 w 2 w_2 w2 这个变化可能很小,但是因為它乘上了 x 2 x_2 x2, x 2 x_2 x2 的值很大,那 y 的变化就很大,那 e 的变化就很大,那 L 的变化就会很大,就会导致我们在 w 这个方向上,做变化的时候,我们把 w 改变一点点,那我们的 error surface 就会有很大的变化
所以你发现说,既然在这个 linear 的 model 裡面,当我们 input 的 feature,每一个 dimension 的值,它的 scale 差距很大的时候,我们就可能產生像这样子的 error surface,就可能產生不同方向,斜率非常不同,坡度非常不同的 error surface
所以怎麼办呢,我们有没有可能给feature 裡面不同的 dimension,让它有同样的数值的范围
如果我们可以给不同的 dimension,同样的数值范围的话,那我们可能就可以製造比较好的 error surface,让 training 变得比较容易一点
其实有很多不同的方法,这些不同的方法,往往就合起来统称為Feature Normalization
以下所讲的方法只是Feature Normalization 的一种可能性,它并不是 Feature Normalization 的全部,假设 x 1 x^1 x1 到 x R x^R xR,是我们所有的训练资料的 feature vector
我们把所有训练资料的 feature vector ,统统都集合起来,那每一个 vector , x 1 x_1 x1 裡面就 $x^1_1 $代表 x 1 x_1 x1 的第一个 element,$x^2_1 $,就代表 x 2 x_2 x2 的第一个 element,以此类推
那我们把不同笔资料即不同 feature vector,同一个 dimension 裡面的数值,把它取出来,然后去计算某一个 dimension 的 mean,它的 mean 呢 就是 m i m_i mi,我们计算第 i 个 dimension 的,standard deviation,我们用 σ i \sigma_i σi来表示它
那接下来我们就可以做一种 normalization,那这种 normalization 其实叫做==标準化==,其实叫 standardization,不过我们这边呢,就等一下都统称 normalization 就好了
x ~ i r ← x i r − m i σ i \tilde{x}^r_i ← \frac{x^r_i-m_i}{\sigma_i} x~ir←σixir−mi
我们就是把这边的某一个数值x,减掉这一个 dimension 算出来的 mean,再除掉这个 dimension,算出来的 standard deviation,得到新的数值叫做 x ~ \tilde{x} x~
然后得到新的数值以后,再把新的数值把它塞回去,以下都用这个 tilde来代表有被 normalize 后的数值
那做完 normalize 以后有什麼好处呢?
做完 normalize 以后啊,这个 dimension 上面的数值就会平均是 0,然后它的 variance就会是 1,所以这一排数值的分布就都会在 0 上下
对每一个 dimension都做一样的 normalization,就会发现所有 feature 不同 dimension 的数值都在 0 上下,那你可能就可以製造一个,比较好的 error surface
所以像这样子 Feature Normalization 的方式,往往对你的 training 有帮助,它可以让你在做 gradient descent 的时候,这个 gradient descent,它的 Loss 收敛更快一点,可以让你的 gradient descent,它的训练更顺利一点,这个是 Feature Normalization
x ~ \tilde{x} x~ 代表 normalize 的 feature,把它丢到 deep network 裡面,去做接下来的计算和训练,所以把 x 1 x_1 x1 tilde 通过第一个 layer 得到 z 1 z^1 z1,那你有可能通过 activation function,不管是选 Sigmoid 或者 ReLU 都可以,然后再得到 a 1 a^1 a1,然后再通过下一层等等,那就看你有几层 network 你就做多少的运算
所以每一个 x 都做类似的事情,但是如果我们进一步来想的话,对 w 2 w_2 w2 来说
这边的 a 1 a^1 a1 a 3 a^3 a3 这边的 z 1 z^1 z1 z 3 z^3 z3,其实也是另外一种 input,如果这边 x ~ \tilde{x} x~,虽然它已经做 normalize 了,但是通过 $ w_1 $ 以后它就没有做 normalize,如果 x ~ \tilde{x} x~ 通过 $ w_1 $ 得到是 z 1 z^1 z1,而 z 1 z^1 z1 不同的 dimension 间,它的数值的分布仍然有很大的差异的话,那我们要 train w 2 w_2 w2 第二层的参数,会不会也有困难呢
对 w 2 w_2 w2 来说,这边的 a 或这边的 z 其实也是一种 feature,我们应该要对这些 feature 也做 normalization
那如果你选择的是 Sigmoid,那可能比较推荐对 z 做 Feature Normalization,因為Sigmoid 是一个 s 的形状,那它在 0 附近斜率比较大,所以如果你对 z 做 Feature Normalization,把所有的值都挪到 0 附近,那你到时候算 gradient 的时候,算出来的值会比较大
那不过因為你不见得是用 sigmoid ,所以你也不一定要把 Feature Normalization放在 z 这个地方,如果是选别的,也许你选a也会有好的结果,也说不定,Ingeneral 而言,这个 normalization,要放在 activation function 之前,或之后都是可以的,在实作上,可能没有太大的差别,好 那我们这边呢,就是对 z 呢,做一下 Feature Normalization
那怎麼对 z 做 Feature Normalization 呢
那你就把 z,想成是另外一种 feature ,我们这边有 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3,我们就把 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3 拿出来
把这三个 vector,裡面的每一个 dimension,都去把它的 μ μ μ 算出来,把它的 σ \sigma σ 算出来,好 我这边呢,就不把那些箭头呢 画出来了,从 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3,算出 μ μ μ,算出 σ \sigma σ
接下来就把这边的每一个 z ,都去减掉 μ μ μ 除以 σ \sigma σ,你把 z i z^i zi减掉 μ μ μ,除以 σ \sigma σ,就得到 z i z^i zi的 tilde
那这边的 μ μ μ 跟 σ \sigma σ,它都是向量,所以这边这个除的意思是element wise 的相除,就是 z i z^i zi减 μ μ μ,它是一个向量,所以分子的地方是一个向量,分母的地方也是一个向量,把这个两个向量,它们对应的 element 的值相除,是我这边这个除号的意思,这边得到 Z 的 tilde
所以我们就是把 z 1 z^1 z1 减 μ μ μ 除以 σ \sigma σ,得到 z 1 z^1 z1 tilde,同理 z 2 z^2 z2 减 μ μ μ 除以 σ \sigma σ,得到 z 2 z^2 z2 tilde, z 3 z^3 z3 减 μ μ μ 除以 σ \sigma σ,得到 z 3 z^3 z3 tilde,那就把这个 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3,做 Feature Normalization,变成 z 1 z^1 z1 tilde, z 2 z^2 z2 tilde 跟 z 3 z^3 z3 的 tilde
接下来就看你爱做什麼 就做什麼啦,通过 activation function,得到其他 vector,然后再通过,再去通过其他 layer 等等,这样就可以了,这样你就等於对 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3,做了 Feature Normalization,变成 z ~ 1 \tilde{z}^1 z~1 z ~ 2 \tilde{z}^2 z~2 z ~ 3 \tilde{z}^3 z~3
在这边有一件有趣的事情,这边的 μ μ μ 跟 σ \sigma σ,它们其实都是根据 z 1 z^1 z1 z 2 z^2 z2 z 3 z^3 z3 算出来的
所以这边 z 1 z^1 z1 啊,它本来,如果我们没有做 Feature Normalization 的时候,你改变了 z 1 z^1 z1 的值,你会改变这边 a 的值,但是现在啊,当你改变 z 1 z^1 z1 的值的时候, μ μ μ 跟 σ \sigma σ 也会跟著改变, μ μ μ 跟 σ \sigma σ 改变以后, z 2 z^2 z2 的值 a 2 a^2 a2 的值, z 3 z^3 z3 的值 a 3 a^3 a3 的值,也会跟著改变
所以之前,我们每一个 x ~ 1 \tilde{x}_1 x~1 x ~ 2 \tilde{x}_2 x~2 x ~ 3 \tilde{x}_3 x~3,它是独立分开处理的,但是我们在做 Feature Normalization 以后,这三个 example,它们变得彼此关联了
我们这边 z 1 z^1 z1 只要有改变,接下来 z 2 z^2 z2 a 2 a^2 a2 z 3 z^3 z3 a 3 a^3 a3,也都会跟著改变,所以这边啊,其实你要把,当你有做 Feature Normalization 的时候,你要把这一整个 process,就是有收集一堆 feature,把这堆 feature 算出 μ μ μ 跟 σ \sigma σ 这件事情,当做是 network 的一部分
也就是说,你现在有一个比较大的 network
那这个地方比较抽象,只可会意 不可言传这样子
那这边就会有一个问题了,因為你的训练资料裡面的 data 非常多,现在一个 data set,benchmark corpus 都上百万笔资料, GPU 的 memory,根本没有办法,把它整个 data set 的 data 都 load 进去。
在实作的时候,你不会让这一个 network 考虑整个 training data 裡面的所有 example,你只会考虑一个 batch 裡面的 example,举例来说,你 batch 设 64,那你这个巨大的 network,就是把 64 笔 data 读进去,算这 64 笔 data 的 μ μ μ,算这 64 笔 data 的 σ \sigma σ,对这 64 笔 data 都去做 normalization
因為我们在实作的时候,我们只对一个 batch 裡面的 data,做 normalization,所以这招叫做 Batch Normalization
那这个 Batch Normalization,显然有一个问题 就是,你一定要有一个够大的 batch,你才算得出 μ μ μ 跟 σ \sigma σ,假设你今天,你 batch size 设 1,那你就没有什麼 μ μ μ 或 σ \sigma σ 可以算
所以这个 Batch Normalization,是适用於 batch size 比较大的时候,因為 batch size 如果比较大,也许这个 batch size 裡面的 data,就足以表示,整个 corpus 的分布,那这个时候你就可以,把这个本来要对整个 corpus,做 Feature Normalization 这件事情,改成只在一个 batch,做 Feature Normalization,作為 approximation,
在做 Batch Normalization 的时候,往往还会有这样的设计你算出这个 z ~ \tilde{z} z~ 以后
而 β β β 跟 γ γ γ,你要把它想成是 network 的参数,它是另外再被learn出来的,
那為什麼要加上 β β β 跟 γ γ γ 呢
有人可能会觉得说,如果我们做 normalization 以后,那这边的 z ~ \tilde{z} z~,它的平均就一定是 0,那也许,今天如果平均是 0 的话,就是给那 network 一些限制,那也许这个限制会带来什麼负面的影响,所以我们把 β β β 跟 γ γ γ 加回去
然后让 network 呢,现在它的 hidden layer 的 output平均不是 0 的话,他就自己去learn这个 β β β 跟 γ γ γ,来调整一下输出的分布,来调整这个 z ^ \hat{z} z^ 的分布
但讲到这边又会有人问说,刚才不是说做 Batch Normalization 就是,為了要让每一个不同的 dimension,它的 range 都是一样吗,现在如果加去乘上 γ γ γ,再加上 β β β,把 γ γ γ 跟 β β β 加进去,这样不会不同 dimension 的分布,它的 range 又都不一样了吗
有可能,但是你实际上在训练的时候,这个 γ γ γ 跟 β β β 的初始值啊
所以让你的 network 在一开始训练的时候,每一个 dimension 的分布,是比较接近的,也许训练到后来,你已经训练够长的一段时间,已经找到一个比较好的 error surface,走到一个比较好的地方以后,那再把 γ γ γ 跟 β β β 慢慢地加进去,好 所以加 Batch Normalization,往往对你的训练是有帮助的
以上说的都是 training 的部分,testing ,有时候又叫 inference ,所以有人在文件上看到有人说,做个 inference,inference 指的就是 testing
这个 Batch Normalization 在 inference,或是 testing 的时候,会有什麼样的问题呢
在 testing 的时候,如果 当然如果今天你是在做作业,我们一次会把所有的 testing 的资料给你,所以你确实也可以在 testing 的资料上面,製造一个一个 batch
但是假设你真的有系统上线,你是一个真正的线上的 application,你可以说,我今天一定要等 30,比如说你的 batch size 设 64,我一定要等 64 笔资料都进来,我才一次做运算吗,这显然是不行的
但是在做 Batch Normalization 的时候,一个 x ~ \tilde{x} x~,一个 normalization 过的 feature 进来,然后你有一个 z,你的 z 呢,要减掉 μ μ μ 跟除 σ \sigma σ,那这个 μ μ μ 跟 σ \sigma σ,是用一个 batch 的资料算出来的
但如果今天在 testing 的时候,根本就没有 batch,那我们要怎麼算这个 μ μ μ,跟怎麼算这个 σ \sigma σ 呢
所以真正的,这个实作上的解法是这个样子的,如果你看那个 PyTorch 的话呢,Batch Normalization 在 testing 的时候,你并不需要做什麼特别的处理,PyTorch 帮你处理好了
在 training 的时候,如果你有在做 Batch Normalization 的话,在 training 的时候,你每一个 batch 计算出来的 μ μ μ 跟 σ \sigma σ,他都会拿出来算 moving average
你每一次取一个 batch 出来的时候,你就会算一个 μ 1 μ^1 μ1,取第二个 batch 出来的时候,你就算个 μ 2 μ^2 μ2,一直到取第 t 个 batch 出来的时候,你就算一个 μ t μ^t μt
接下来你会算一个 moving average,你会把你现在算出来的 μ μ μ 的一个平均值,叫做 μ μ μ bar,乘上某一个 factor,那这也是一个常数,这个这也是一个 constant,这也是一个那个 hyper parameter,也是需要调的那种啦
在 PyTorch 裡面,我没记错 他就设 0.1,我记得他 P 就设 0.1,好,然后加上 1 减 P,乘上 μ t μ^t μt ,然后来更新你的 μ μ μ 的平均值,然后最后在 testing 的时候,你就不用算 batch 裡面的 μ μ μ 跟 σ \sigma σ 了
因為 testing 的时候,在真正 application 上,也没有 batch 这个东西,你就直接拿 μ ˉ \barμ μˉ 跟 σ ˉ \bar\sigma σˉ ,也就是 μ μ μ 跟 σ \sigma σ 在训练的时候,得到的 moving average, μ ˉ \barμ μˉ 跟 σ ˉ \bar\sigma σˉ ,来取代这边的 μ μ μ 跟 σ \sigma σ,这个就是 Batch Normalization,在 testing 的时候的运作方式
好 那这个是从 Batch Normalization,原始的文件上面截出来的一个实验结果,那在原始的文件上还讲了很多其他的东西,举例来说,我们今天还没有讲的是,Batch Normalization 用在 CNN 上,要怎麼用呢,那你自己去读一下原始的文献,裡面会告诉你说,Batch Normalization 如果用在 CNN 上,应该要长什麼样子
这个是原始文献上面截出来的一个数据
好 接下来的问题就是,Batch Normalization,它為什麼会有帮助呢,在原始的 Batch Normalization,那篇 paper 裡面,他提出来一个概念,叫做 internal covariate shift,covariate shift(训练集和预测集样本分布不一致的问题就叫做“covariate shift”现象) 这个词汇是原来就有的,internal covariate shift,我认為是,Batch Normalization 的作者自己发明的
他认為说今天在 train network 的时候,会有以下这个问题,这个问题是这样
network 有很多层
x 通过第一层以后 得到 a
a 通过第二层以后 得到 b
计算出 gradient 以后,把 A update 成 A′,把 B 这一层的参数 update 成 B′
但是作者认為说,我们在计算 B,update 到 B′ 的 gradient 的时候,这个时候前一层的参数是 A 啊,或者是前一层的 output 是小 a 啊
那当前一层从 A 变成 A′ 的时候,它的 output 就从小 a 变成小 a′ 啊
但是我们计算这个 gradient 的时候,我们是根据这个 a 算出来的啊,所以这个 update 的方向,也许它适合用在 a 上,但不适合用在 a′ 上面
那如果说 Batch Normalization 的话,我们会让,因為我们每次都有做 normalization,我们就会让 a 跟 a′ 呢,它的分布比较接近,也许这样就会对训练呢,有帮助
但是有一篇 paper 叫做,How Does Batch Normalization,Help Optimization,然后他就打脸了internal covariate shift 的这一个观点
在这篇 paper 裡面,他从各式各样的面向来告诉你说,internal covariate shift,首先它不一定是 training network 的时候的一个问题,然后 Batch Normalization,它会比较好,可能不见得是因為,它解决了 internal covariate shift
那在这篇 paper 裡面呢,他做了很多很多的实验,比如说他比较了训练的时候,这个 a 的分布的变化 发现**,不管有没有做 Batch Normalization,它的变化都不大**
然后他又说,就算是变化很大,对 training 也没有太大的伤害,然后他又说,不管你是根据 a 算出来的 gradient,还是根据 a′ 算出来的 gradient,方向居然都差不多
所以他告诉你说,internal covariate shift,可能不是 training network 的时候,最主要的问题,它可能也不是,Batch Normalization 会好的一个的关键,那有关更多的实验,你就自己参见这篇文章,
為什麼 Batch Normalization 会比较好呢,那在这篇 How Does Batch Normalization,Help Optimization 这篇论文裡面,他从实验上,也从理论上,至少支持了 Batch Normalization,可以改变 error surface,让 error surface 比较不崎嶇这个观点
所以这个观点是有理论的支持,也有实验的佐证的,那在这篇文章裡面呢,作者还讲了一个非常有趣的话,他说他觉得啊,这个 Batch Normalization 的 positive impact
因為他说,如果我们要让 network,这个 error surface 变得比较不崎嶇,其实不见得要做 Batch Normalization,感觉有很多其他的方法,都可以让 error surface 变得不崎嶇,那他就试了一些其他的方法,发现说,跟 Batch Normalization performance 也差不多,甚至还稍微好一点,所以他就讲了下面这句感嘆
他觉得说,这个,positive impact of batchnorm on training,可能是 somewhat,serendipitous,什麼是 serendipitous 呢,这个字眼可能可以翻译成偶然的,但偶然并没有完全表达这个词汇的意思,这个词汇的意思是说,你发现了一个什麼意料之外的东西
举例来说,盘尼西林就是,意料之外的发现,大家知道盘尼西林的由来就是,有一个人叫做弗莱明,然后他本来想要那个,培养一些葡萄球菌,然后但是因為他实验没有做好,他的那个葡萄球菌被感染了,有一些霉菌掉到他的培养皿裡面,然后发现那些培养皿,那些霉菌呢,会杀死葡萄球菌,所以他就发明了,发现了盘尼西林,所以这是一种偶然的发现
那这篇文章的作者也觉得,Batch Normalization 也像是盘尼西林一样,是一种偶然的发现,但无论如何,它是一个有用的方法
那其实 Batch Normalization,不是唯一的 normalization,normalization 的方法有一把啦,那这边就是列了几个比较知名的,
Batch Renormalization
https://arxiv.org/abs/1702.03275
Layer Normalization
https://arxiv.org/abs/1607.06450
Instance Normalization
https://arxiv.org/abs/1607.08022
Group Normalization
https://arxiv.org/abs/1803.08494
Weight Normalization
https://arxiv.org/abs/1602.07868
Spectrum Normalization
https://arxiv.org/abs/1705.10941