7.深度学习之丢弃法、数值稳定性和模型初始化

7.1 丢弃法

  • 一个单隐藏层的多层感知机。
  • 其中输入个数为4,隐藏单元个数为5,且隐藏单元hi(i=1,...., 5)的计算表达式为


  • 当对该隐藏层使用丢弃法时,该层的隐藏单元将有一定概率被丢弃掉。
  • 设丢弃概率为p,那么有p的概率hi会被清零,有1-p的概率hi会除以1-p做拉伸。
  • 丢弃概率是丢弃法的超参数,通常为0.5对图中的隐藏层使用丢弃法,其中h2和h5被清零。在测试模型时,一般不使用丢弃法。


7.2 数值稳定性和模型初始化

  • 衰减和爆炸
    • 当层数较多时,模型的数值稳定性容易变差。
    • 当层数较多时,梯度的计算也更容易出现衰减或爆炸。
  • 初始为0?
  • 初始化为相等的值?
    • 在正向传播时,每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层
    • 在反向传播中,每个隐藏单元的参数梯度值相等
  • PyTorch的默认随机初始化
    • torch.nn.init.normal_()
  • Xavier随机初始化
    • 假设某全连接层的输入个数为a,输出个数为b,Xavier随机初始化将使该层中权重参数的每个元素都随机采样于均匀分布


你可能感兴趣的:(7.深度学习之丢弃法、数值稳定性和模型初始化)