2.3.1.1 数据集划分
首先我们对机器学习当中涉及到的数据集划分进行一个简单的复习
在小数据量的时代,如 100、1000、10000 的数据量大小,可以将数据集按照以下比例进行划分:
而在如今的大数据时代,拥有的数据集的规模可能是百万级别的,所以验证集和测试集所占的比重会趋向于变得更小。
以上这些比例可以根据数据集情况选择。
2.3.1.2 偏差与方差的意义
“偏差-方差分解”(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。
泛化误差可分解为偏差、方差与噪声,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。
那么偏差、方差与我们的数据集划分到底有什么关系呢?
所以我们最终总结,方差一般指的是数据模型得出来了,能不能对未知数据的扰动预测准确。而偏差说明在训练集当中就已经误差较大了,基本上在测试集中没有好的效果。
所以如果我们的模型出现了较大的方差或者同时也有较大的偏差,该怎么去解决?
2.3.1.3 解决方法
对于高方差,有以下几种方式:
对于高偏差,有以下几种方式:
不断尝试,直到找到低偏差、低方差的框架。
正则化,即在成本函数中加入一个正则化项(惩罚项),惩罚模型的复杂度,防止网络过拟合
2.3.2.1 逻辑回归的L1与L2正则化
逻辑回归的参数W数量根据特征的数量而定,那么正则化如下
J(w,b) = \frac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}{||w||}^2_2J(w,b)=m1∑i=1mL(y^(i),y(i))+2mλ∣∣w∣∣22
其中的L2范数可以理解:\frac{\lambda}{2m}{||w||}^2_2=\frac{\lambda}{2m}\sum_{j=1}^{n_x}w^2_j = \frac{\lambda}{2m}w^Tw2mλ∣∣w∣∣22=2mλ∑j=1nxwj2=2mλwTw
解释:所有w参数的平方和的结果
J(w,b) = \frac{1}{m}\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)}) + \frac{\lambda}{2m}{||w||}_1J(w,b)=m1∑i=1mL(y^(i),y(i))+2mλ∣∣w∣∣1
其中L2范数可以理解为:\frac{\lambda}{2m}{||w||}_1 = \frac{\lambda}{2m}\sum_{j=1}^{n_x}{|w_j|}2mλ∣∣w∣∣1=2mλ∑j=1nx∣wj∣
注:其中,λ 为正则化因子,是超参数。由于 L1 正则化最后得到 w 向量中将存在大量的 0,使模型变得稀疏化,因此 L2 正则化更加常用。
2.3.2.2 正则化项的理解
在损失函数中增加一项,那么其实梯度下降是要减少损失函数的大小,对于L2或者L1来讲都是要去减少这个正则项的大小,那么也就是会减少W权重的大小。这是我们一个直观上的感受。
(1) dW = \frac{\partial L}{\partial w}+ \frac{\lambda}{m} {W}dW=∂w∂L+mλW
前面的默认损失函数的梯度计算结果默认为backprop,那么更新的参数就为
(2) W := W - \alpha dWW:=W−αdW 那么我们将第一个公式带入第二个得到
-->W := W - \alpha(\frac{\partial L}{\partial w} + \frac{\lambda}{m}W)−−>W:=W−α(∂w∂L+mλW)
-->=W - \frac{\alpha \lambda}{m}W - \alpha*\frac{\partial L}{\partial w}−−>=W−mαλW−α∗∂w∂L
所以每次更新的时候都会让W(1 - \frac{\alpha \lambda}{m})W(1−mαλ),这个系数永远小于1,所以我们通常称L2范数为权重衰减。
2.3.2.3 神经网络中的正则化
神经网络中的正则化与逻辑回归相似,只不过参数W变多了,每一层都有若干个权重,可以理解成一个矩阵
我们把w[l]w[l]理解某一层神经元的权重参数,其中这是加入了L2范数,可以是
{\begin{Vmatrix}w^{[l]}\end{Vmatrix}}^2_F = \sum^{n^{[l-1]}}_{i=1}\sum^{n^{[l]}}_{j=1}(w^{[l]}_{ij})^2∥∥w[l]∥∥F2=∑i=1n[l−1]∑j=1n[l](wij[l])2
对于矩阵的L2范数,有个专业名称叫弗罗贝尼乌斯范数(Frobenius Norm)
2.3.2.4 正则化为什么能够防止过拟合
正则化因子设置的足够大的情况下,为了使成本函数最小化,权重矩阵 W 就会被设置为接近于 0 的值,直观上相当于消除了很多神经元的影响,那么大的神经网络就会变成一个较小的网络。
在加入正则化项后,当λ增大,导致W^[l]W[l]减小,Z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]}Z[l]=W[l]a[l−1]+b[l]便会减小。由上图可知,在 z 较小(接近于 0)的区域里,函数近似线性,所以每层的函数就近似线性函数,整个网络就成为一个简单的近似线性的网络,因此不会发生过拟合。
Droupout论文地址:http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf
Droupout:随机的对神经网络每一层进行丢弃部分神经元操作。
对于网络的每一层会进行设置保留概率,即keep_prob。假设keep_prob为0.8,那么也就是在每一层所有神经元有20% 的概率直接失效,可以理解为0.
2.3.3.1 Inverted droupout
这种方式会对每层进行如下代码操作
# 假设设置神经元保留概率
keep_prob = 0.8
# 随机建立一个标记1 or 0的矩阵,表示随机失活的单元,占比20%
dl = np.random.rand(al.shape[0], al.shape[1]) < keep_prob
# 让a1对应d1的为0地方结果为0
al = np.multiply(al, dl)
# 为了测试的时候,每一个单元都参与进来
al /= keep_prob
训练练的时候只有占比为pp的隐藏层单元参与训练。
增加最后一行代码的原因,在预测的时候,所有的隐藏层单元都需要参与进来,就需要测试的时候将输出结果除以以pp使下一层的输入规模保持不变。
假设keep_prob=p=0.8
z^{l}=w^{l}a^{l-1}+b^{l}zl=wlal−1+bl ,当$l-1$层有比例为 $1-p=0.2$单元drop后,a^{l-1}al−1大约会变为原来的80%,为了保证ll层的zz值期望(可以理解为均值)不变,所以要在a^{l-1}al−1与dropout矩阵乘积后的权重进行扩大,要乘以\frac{1}{p}=10/8p1=10/8(增大)
注:原始:(1+1+1+1+1+1+1+1+1+1)/10 = 1,现在其中20%失效,则平均值为0.8,所以0.8 * (10/8) = 1. 相当于其中8个神经元参数增大了(10/8)倍
2.3.3.2 droupout为什么有效总结
加入了 dropout 后,输入的特征都存在被随机清除的可能,所以该神经元不会再特别依赖于任何一个输入特征,也就是不会给任何一个输入特征设置太大的权重。通过传播过程,dropout 将产生和 L2 正则化相同的收缩权重的效果。
对于不同的层,设置的keep_prob大小也不一致,神经元较少的层,会设keep_prob为 1.0,而神经元多的层则会设置比较小的keep_prob
通常被使用在计算机视觉领域,图像拥有更多的特征,场景容易过拟合,效果被实验人员证明是很不错的。
调试时候使用技巧:
2.3.4.1 早停止法(Early Stopping)
通常我们在训练验证的时候,发现过拟合。可以得到下面这张损失图
通常不断训练之后,损失越来越小。但是到了一定之后,模型学到的过于复杂(过于拟合训练集上的数据的特征)造成测试集开始损失较小,后来又变大。模型的w参数会越来越大,那么可以在测试集损失减小一定程度之后停止训练。
但是这种方法治标不治本,得从根本上解决数据或者网络的问题。
2.3.4.2 数据增强
指通过剪切、旋转/反射/翻转变换、缩放变换、平移变换、尺度变换、对比度变换、噪声扰动、颜色变换等一种或多种组合数据增强变换的方式来增加数据集的大小。
即使卷积神经网络被放在不同方向上,卷积神经网络对平移、视角、尺寸或照度(或以上组合)保持不变性,都会认为是一个物体。
假设数据集中的两个类。左边的代表品牌A(福特),右边的代表品牌B(雪佛兰)。
假设完成了训练,并且输入下面的图像(品牌A),但是你的神经网络输出认为它是品牌B的汽车!
为什么会发生这种现象? 因为算法可能会寻找区分一个类和另一个类的最明显特征。在这个例子中 ,这个特征就是所有品牌A的汽车朝向左边,所有品牌B的汽车朝向右边。神经网络的好坏取决于输入的数据。
怎么解决这个问题?
我们需要减少数据集中不相关特征的数量。对上面的汽车类型分类器来说,你只需要将现有的数据集中的照片水平翻转,使汽车朝向另一侧。现在,用新的数据集训练神经网络,通过过增强数据集,可以防止神经网络学习到不相关的模式,提升效果。(在没有采集更多的图片前提下)
那么我们应该在机器学习过程中的什么位置进行数据增强?在向模型输入数据之前增强数据集。
那么我们的代码中也是进行这种在线增强。
下面一些方法基础但功能强大的增强技术,目前被广泛应用。
从左侧开始分别是:原始图像,水平翻转图像,垂直翻转图像
从左到右,图像相对于前一个图像顺时针旋转90度
从左侧开始分别为:原始图像,从左上角裁剪出一个正方形部分,然后从右下角裁剪出一个正方形部分。剪裁的部分被调整为原始图像大小。
数据增强的效果是非常好的,比如下面的例子,绿色和粉色表示没有数据增强之前的损失和准确率效果,红色和蓝色表示数据增强之后的损失和准确率结果,可以看到学习效果也改善较快。
那么TensorFlow 官方源码都是基于 vgg与inception论文的图像增强介绍,全部通过tf.image相关API来预处理图像。并且提供了各种封装过tf.image之后的API。那么TensorFlow 官网也给我们提供了一些模型的数据增强过程。