nn.Module源码介绍(二)--冻结参数篇

Module源码介绍

本篇是nn.Module源码系列文章介绍第二篇,建议读者在阅读第一篇之后,在来阅读本篇。当然,也可以直接阅读本文,因为提供了大量的实例。
第一篇地址


文章目录

  • Module源码介绍
  • 前置知识:Module中train/eval模块状态切换
  • 实战:随意进行train/eval状态切换
  • 实战:冻结网络中所有BN层
  • nn.Module中指定梯度和梯度清0函数
  • 实战:冻结BN层梯度参数
  • 总结


前置知识:Module中train/eval模块状态切换

  在上篇文章中,介绍了nn.Module是如何完成自定义网络的初始化的。比如现在我新建了一个如下的 conv+bn+conv 的简单网络。

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.leconv1 = nn.Conv2d(1, 1, 1, 1, 0)
        self.lebn = nn.BatchNorm2d(1)
        self.leconv2 = nn.Conv2d(1, 1, 1, 1, 0)
    def forward(self,x):
        pass
if __name__ == '__main__':

    input = torch.ones(1,1,2,2)    # 伪造数据
    net = Net()
    for module in net.children():
        print('net包含的模块为:\n',module)
        for p in module.parameters():
            print('当前module需要学习的参数为:\n',p)

  为了方便,我把卷积核维度定义为1*1大小。通过运行上述代码可以发现:卷积核的参数仅有两个weight和bias,且其维度大小为1。BN层需要学习的参数也为两个:平移参数和形变参数。维度也为1。Okay,运行的结果图如下:
nn.Module源码介绍(二)--冻结参数篇_第1张图片
  从上图可以看出,总共需要学习6个参数,为啥是“要学习”?,因为每个参数后面均是 requires_grad=True。我们知道,模型有train状态和eval状态。简单来说就是训练时候让网络所有module(leconv1+lebn+leconv2)处于 train 状态,而测试时候让网络的所有module处于 eval 状态。那么nn.Module是如何区分这两种状态的呢?这里贴下nn.Module的源码:

def train(self: T, mode: bool = True) -> T:
    self.training = mode
    for module in self.children():
        module.train(mode)
    return self
def eval(self: T) -> T:
    return self.train(False)

  函数特别简单:即若是train状态下:让net中所有module指定为True;而在eval状态下,则直接给train传入False即可。这样就修改了模型的状态。

实战:随意进行train/eval状态切换

  上述介绍仅仅是介绍了将一个网络中所有module要么全部转成train,要么全部转成eval。比较死板。那么,若仅想让leconv1处于eval状态,而让lebn和leconv2处于train状态呢(这种方式经常遇到,尤其在迁移学习过程中)?
  比较简单:就是找到leconv1然后改变leconv1状态即可。这里主要复写一下train方法即可。上代码:

import torch
import torch.nn as nn
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.leconv1 = nn.Conv2d(1, 1, 1, 1, 0)
        self.lebn = nn.BatchNorm2d(1)
        self.leconv2 = nn.Conv2d(1, 1, 1, 1, 0)
    def train(self, mode = True) :
        super(Net, self).train()
        for name, module in self.named_children():   # 遍历模块
            if name == 'leconv1':                    # 若是 leconv1
                module.eval()                        # 则直接让其进入eval状态。
      def forward(self,x):
        pass
if __name__ == '__main__':
    net = Net()
    net.train()

  Okay,到目前为止,你可以随意更改一个网络中任意一层。但是若网络特别深,动辄几百层。这样一层一层找,显然不现实。而且在实际网络中,往往需要冻结所有BN层(此处不做讨论,原因可以自行百度),且看第三部分。

实战:冻结网络中所有BN层

  此处冻结就是让所有BN层处于eval状态:上代码:

import torch
import torch.nn as nn
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.leconv1 = nn.Conv2d(1, 1, 1, 1, 0)
        self.lebn = nn.BatchNorm2d(1)
        self.leconv2 = nn.Conv2d(1, 1, 1, 1, 0)
    def train(self, mode = True) :
        super(Net, self).train()
        for module in self.children():
            if isinstance(module,nn.BatchNorm2d): # 若当前module为nn.BatchNorm2d
                module.eval()                       # 指定eval状态
    def forward(self,x):
        pass
if __name__ == '__main__':
    input = torch.ones(1,1,2,2)    # 伪造数据
    net = Net()
    net.train()

  通过上述就能冻结一个net中所有BN层。

nn.Module中指定梯度和梯度清0函数

  该节介绍nn.Module梯度处理函数:requires_grad和zero_grad函数:
  先来看requires_grad_函数:

def requires_grad_(self: T, requires_grad: bool = True) -> T:
     for p in self.parameters():
        p.requires_grad_(requires_grad)
    return self

  可以看出:循环网络中所有参数,然后递归调用requires_grad_函数,将所有参数的梯度设置为True。即这些参数需要更新梯度,需要进行学习。
  在来看看zero_grad_函数:

def zero_grad(self, set_to_none: bool = False) -> None:
    for p in self.parameters():
        if p.grad is not None:
            if set_to_none:
                p.grad = None
            else:
                if p.grad.grad_fn is not None:
                    p.grad.detach_()
                else:
                    p.grad.requires_grad_(False)
                p.grad.zero_()

  主要借助最后一行代码,将梯度清0。

实战:冻结BN层梯度参数

  上节了解了冻结参数原理,现在假如冻结一个网络中所有BN层的梯度并将BN层内部参数均初始化为1。那么该如何写呢?

import torch
import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.leconv1 = nn.Conv2d(1, 1, 1, 1, 0)
        self.lebn = nn.BatchNorm2d(1)
        self.leconv2 = nn.Conv2d(1, 1, 1, 1, 0)
    def train(self, mode = True) :
        super(Net, self).train()
        for module in self.children():
            if isinstance(module,nn.BatchNorm2d): # 若当前module为nn.BatchNorm2d
                for p in module.parameters():     # 遍历module中所有参数
                    p.data.fill_(1)               # 初始化为1
                    p.requires_grad_(False)       # 不更新梯度
    def forward(self,x):
        pass
if __name__ == '__main__':
    input = torch.ones(1,1,2,2)    # 伪造数据
    net = Net()
    net.train()
    for name, module in net.named_children():
        print('net包含的模块为:\n',module)
        for p in module.parameters():
            print('当前module需要学习的参数为:\n',p)

  现在在来看下输出结果:
nn.Module源码介绍(二)--冻结参数篇_第2张图片
 此时,初始化为1,且没了requires_grad这项,说明冻结参数成功。

总结

  读到这里读者可能有疑问:eval和requires_grad均能冻结参数。为啥需要两个呢?
  我感觉eval冻结的是module层面,而requires_grad可以直接冻结module里面的任意参数。一个宽泛点,一个更加精细点。在实际操作中,往往将二者混合使用(比如冻结resnet的第一阶段,同时冻结BN层)。
  下篇会介绍nn.Module中apply函数,用来初始化网络权重。后续还有hook的详解。

你可能感兴趣的:(#,nn.Module,深度学习,python,人工智能,pytorch)