首先我们对机器学习当中涉及到的数据集划分进行一个简单的复习
在小数据量的时代,如 100、1000、10000 的数据量大小,可以将数据集按照以下比例进行划分:
而在如今的大数据时代,拥有的数据集的规模可能是百万级别的,所以验证集和测试集所占的比重会趋向于变得更小。
以上这些比例可以根据数据集情况选择。
“偏差-方差分解”(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。
泛化误差可分解为偏差、方差与噪声,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。
那么偏差、方差与我们的数据集划分到底有什么关系呢?
所以我们最终总结,方差一般指的是数据模型得出来了,能不能对未知数据的扰动预测准确。而偏差说明在训练集当中就已经误差较大了,基本上在测试集中没有好的效果。
所以如果我们的模型出现了较大的方差或者同时也有较大的偏差,该怎么去解决?
对于高方差,有以下几种方式:
对于高偏差,有以下几种方式:
不断尝试,直到找到低偏差、低方差的框架。
比如参数W数量根据特征的数量而定,那么正则化如下
在损失函数中增加一项,那么其实梯度下降是要减少损失函数的大小,对于L2或者L1来讲都是要去减少这个正则项的大小,那么也就是会减少W权重的大小。这是我们一个直观上的感受。
正则化因子设置的足够大的情况下,为了使成本函数最小化,权重矩阵 W 就会被设置为接近于 0 的值,直观上相当于消除了很多神经元的影响,那么大的神经网络就会变成一个较小的网络。
在加入正则化项后,当λ增大,导致 W [ l ] W^{[l]} W[l]减小, Z [ l ] = W [ l ] a [ l − 1 ] + b [ l ] Z^{[l]} = W^{[l]}a^{[l-1]} + b^{[l]} Z[l]=W[l]a[l−1]+b[l]便会减小。由上图可知,在 z 较小(接近于 0)的区域里,函数近似线性,所以每层的函数就近似线性函数,整个网络就成为一个简单的近似线性的网络,因此不会发生过拟合。
Droupout论文地址:http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf
1、过拟合是一个严重的问题。大型网络的使用速度也较慢,这使得在测试时结合许多不同的大型神经网络的预测来处理过拟合问题变得非常棘手。Dropout是解决这个问题的一种技巧。关键的想法是在训练过程中,从神经网络中随机丢弃神经元(以及它们的连接)
2、在训练过程中,dropout技巧会从指数级的的不同的“稀疏”网络中抽取样本。在测试时,就可以很容易地估计出所有这些稀疏网络的预测结果的平均。这显著地减少了过拟合,并且比其他正则化方法有了很大的改进
3、drop改进了神经网络在视觉、语音识别、文档分类和计算生物学等监督学习任务上的性能,获得了许多基准数据集state-of-the-art结果。
下面我们来讲解dropout的工作过程
1、训练过程
1、神经元随机失效,概率为P
2、并且在神经元存在且工作的状态下,权重才会更新,权重更新的越多理论上会变得更大
2、测试过程
1、神经元随机失效,概率为0
2、所有的神经元都会参与计算,大于训练时候的任意一个模型的计算量
3、模型过程伪代码过程
讲解:
1、如果没有做dropout的标准网络,结构和公式如a图所示;
2、而做过dropout的网络,输入其中 r [ l ] r^{[l]} r[l]表示一个由多个独立的服从相同伯努利分布的变量构成的向量,*表示点乘,即对应元素相乘,第lll层的输出 y [ l ] y^{[l]} y[l]经过dropout变化为 y ^ [ l ] \hat{y}^{[l]} y^[l]。l+1(即L+1)层的输入和输出算法不变。在应用BP训练时,只对子网络的参数求导即可,测试时子网络的桉树需要被缩放。
伯努利分布指的是对于随机变量X有, 参数为p(0
实现随机失活算法,最常用的一种是反向随机失活(inverted dropout) ,这种方式会对每层进行如下代码操作
def dropout(x, level):
if level < 0. or level >= 1:
raise Exception('dropout保持概率在0到1之间')
sample = np.random.binomial(n=1, p=level, size=x.shape)
print(sample)
x *= sample
x /= level
return x
x = np.asarray([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], dtype=np.float32)
dropout(x, 0.8)
# 其中这步骤在计算的时候对余下的非0的进行扩大倍数,因为p<0。0/x=0,所以0不影响,训练的时候代码可以直接写上
x /= level
为什么需要去做rescale
通俗解释:训练的时候只有占比为p 的隐藏层单元参与训练,那么在预测的时候,如果所有的隐藏层单元都需要参与进来,则得到的结果相比训练时平均要大1/p ,为了避免这种情况,就需要测试的时候将输出结果乘以 1/p 使下一层的输入规模保持不变。
数学解释:试的时候不去随机失活?所以为了保证训练和预测的时候期望一样,必须得做scale;我们设置dropout probability为p, 那么该层大约有比例为p的单元会被drop掉,因为每个神经元是否drop就是一次伯努利实验,这层的dropout概率服从伯努利分布,而分布的期望就是np。
例子:
假设keep_prob=p=0.8, z [ l ] = w [ l ] a [ l − 1 ] + b [ l ] z^{[l]} = w^{[l]}a^{[l-1]} + b^{[l]} z[l]=w[l]a[l−1]+b[l],当l - 1(即L-1)层有比例为 1−p=0.2单元drop后, a [ l − 1 ] a^{[l−1]} a[l−1]大约会变为原来的80%(P),为了保证l(L)层的z值期望不变,所以要在 a [ l − 1 ] a^{[l−1]} a[l−1]与dropout矩阵乘积后的权重进行扩大,要除以p,即乘以 1 p \frac{1}{p} p1=10/8(增大)
注意:这个P在这个是保持率,有的时候会特意指定drop prop,那就是1-p为保持率
总结:可以在训练时,每个神经单元都可能以概率 p 去除;或者在测试阶段,每个神经单元都是存在的,权重参数w要乘以p,成为:pw
5、模型效果对比(论文的实验对比)
在MNIST数据集中的测试,错误率因为增加dropout会有相应提高(p = 0.5用于隐藏层,将p = 0.8用于输入单位)