PyTorch
实现深度学习笔记,尽量坚持每周持续更新,欢迎大家订阅!关注
、点赞
、✌收藏
、订阅
专栏参考资料:本专栏主要以沐神《动手学深度学习》为学习资料,记录自己的学习笔记,能力有限,如有错误,欢迎大家指正。同时沐神上传了的教学视频和教材,大家可以前往学习。
上一章我们介绍了L2正则化和权重衰退,在深度学习中,还有一个很实用的方法——Dropout,能够减少过拟合问题。之前我们介绍了我们的目的是要训练一种泛化的模型,那么就要求模型的鲁棒性较强。一个还不错的尝试是在训练神经网络时,让模型的结果不那么依赖某个神经元,因此在训练神经网络过程中,我们每次迭代将隐藏层的一些神经元随机丢弃掉,这样就不会使得我们的模型太依赖某一个神经元,从而使得我们的模型在未知的数据集上或许会有更好的泛化能力。下面我们具体来看dropout的原理。 |
传统的神经网络是全连接的,也就是每一个神经元都会与下一个神经元连接,而dropout会遍历每一层神经网络,设置神经元消除的概率,然后消除一定比例的神经元和它的进出的连线,从而能够得到一个规模更小的神经网络。 假设每一层消除神经元的概率是0.5,在一次训练迭代中,消除的神经元如下所示:
以第一层为例,第二个神经元和第四个神经元消除了,那么其节点及进出的连线全部消除,得到消除后的神经网络如下:
可以看出dropout得到了一个更简洁的神经网络。对于每一个训练样本,我们都以dropout之后的神经网络进行训练,这样使得我们的训练样本不会依赖于某个特征。
在具体实施dropout时,我们介绍最常用的反向随机失活。首先我们需要定义一个随机向量,如果小于丢弃率p,则权重设为0,相当于将这个神经元丢弃。然后对中间值向外扩展,除以1-p,以保障期望不变。具体思想如下:假设在第某一层隐藏层我们有50个神经元,丢弃率为0.2,也就是有10个神经元被归0(丢弃)了,那么我们中间值的期望减少了20%,为了不影响中间值的期望,我们除以1-p来保证其期望不变。具体公式如下
a ′ = { 0 , p a 1 − p , 1-p a' = \begin{cases}0,\text{ p} \\\frac{a}{1-p},\text{ 1-p} \end{cases} a′={0, p1−pa, 1-p
此时 E ( a ′ ) = a E(a')=a E(a′)=a。从这里我们也可以发现,dropout是通过设置权重为0来实现消除神经元,并不是直接将神经元个数减少删除。下面我们来看看具体代码实现部分
"""导入相关库"""
import torch
from torch import nn
from d2l import torch as d2l
"""定义dropout函数"""
def dropout_layer(X, dropout):
'''
实现丢弃
'''
assert 0 <= dropout <= 1#断言,确保dropout在0-1之间
# dropout=1,所有元素都被丢弃
if dropout == 1:
return torch.zeros_like(X)
# dropou=0,所有元素都被保留
if dropout == 0:
return X
# 其他情况,dropout在0-1之间
mask = (torch.rand(X.shape) > dropout).float()#返回0和1的向量
return mask * X / (1.0 - dropout)#进行中间值拓展
通过上面定义的dropout_layer函数,我们下面以一个具体的小例子来测试一下
X= torch.arange(8, dtype = torch.float32).reshape((2, 4))# 定义一个张量
print(X)#不进行dropout情况
print(dropout_layer(X, 0.))#dropout为0
print(dropout_layer(X, 0.5))#dropout为0.5
print(dropout_layer(X, 1.))#dropout为1
tensor([[0., 1., 2., 3.],
[4., 5., 6., 7.]])
tensor([[0., 1., 2., 3.],
[4., 5., 6., 7.]])
tensor([[ 0., 2., 4., 0.],
[ 8., 10., 0., 0.]])
tensor([[0., 0., 0., 0.],
[0., 0., 0., 0.]])
# 使用之前的fasion_mnist数据集图像,设置具有两个隐藏层的神经网络
num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256
这是一个具有两个隐藏层的神经网络,结构如下(具体神经元个数不同):
使用dropout定义在每个隐藏层的输出中,其中不同层的p设置不同。一个比较常用的做法是:越接近输入层的,p设置的越小。因为一开始我们不希望输入信息丢失太多,因此该模型的结构是 :
linear--Relu--dropout--linear--Relu--dropout--linear
下面我们来看看具体代码是如何实现的,假设第一层dropout的概率为0.2,第二层为0.5
dropout1, dropout2 = 0.2, 0.5
class Net(nn.Module):
def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2,
is_training = True):
super(Net, self).__init__()
self.num_inputs = num_inputs
self.training = is_training
self.lin1 = nn.Linear(num_inputs, num_hiddens1)#定义线性层
self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)
self.lin3 = nn.Linear(num_hiddens2, num_outputs)
self.relu = nn.ReLU()#定义Relu激活函数
def forward(self, X):
H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))
# 只有在训练模型时才使用dropout
if self.training == True:
# 在第一个全连接层之后添加一个dropout层
H1 = dropout_layer(H1, dropout1)
H2 = self.relu(self.lin2(H1))
if self.training == True:
# 在第二个全连接层之后添加一个dropout层
H2 = dropout_layer(H2, dropout2)
out = self.lin3(H2)
return out
#在这里没有定义softmax回归,因为在定义损失函数时,CrossEntropyLoss会自动计算softmax
net = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)
num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
下面我们使用nn内置方法来实现dropout的神经网络.神经网络的结构如下: linear-relu-dropout-linear-dropout-relu-linear
"""
构建神经网络
"""
net = nn.Sequential(nn.Flatten(),
nn.Linear(784, 256),
nn.ReLU(),
# 在第一个全连接层之后添加一个dropout层
nn.Dropout(dropout1),
nn.Linear(256, 256),
nn.ReLU(),
# 在第二个全连接层之后添加一个dropout层
nn.Dropout(dropout2),
nn.Linear(256, 10))
"""
初始化权重
"""
def init_weights(m):
if type(m) == nn.Linear:
"""对于线性层,使用正态分布初始化权重"""
nn.init.normal_(m.weight, std=0.01)
net.apply(init_weights)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)