dropout设置--学习笔记

  1. 背景:**集成具有不同模型配置的神经网络可减少过拟合**:减少过拟合的一种方法是在数据集上拟合所有可能的不同神经网络模型,并对每个模型的预测求平均。在实践中这是不可行的,可以使用集成少量模型的融合模型来近似。但即使采用整体近似法也存在一个问题,即需要拟合和存储多个模型,如果模型很大,可能是需要很长时间进行训练。
  2. Dropout:
    1. 是一种正则化方法,它类似并行地训练大量具有不同架构的神经网络。
    2. dropout 具有使训练过程变得嘈杂的作用,迫使层中的节点上的输出输出连接随机地断开。因为这种断开连接,可以使得网络减少对来自先前层的噪声共同适应的可能性,从而使模型更加健壮。
    3. dropout的使用:
      1. 在最简单的情况下,每个单元都以固定的概率p保持独立于其他单元的概率,其中 p pp 可以使用验证集进行选择,也可以简单地设置为 0.5 0.50.5,对于大多数网络和网络来说,这似乎都接近于最佳值。但对于输入层,保留的最佳概率通常接近于1,而不是接近0.5。
      2. 对于LSTM,最好对输入和循环连接使用不同的丢失率。
      3. 隐藏层中的有效的Dropout Rate在0.5到0.8之间。输入层使用较大的 Dropout Rate,例如0.8。
      4. 一条好的经验法则是:将丢弃之前的层中的节点数除以建议的丢弃率,并将其用作使用丢弃的新网络中的节点数。例如,具有100个节点的网络在使用0.5的Dropout时,网络需要200个节点(100 / 0.5)。
      5. 在数据集较少时使用:与其它正则化方法一样,对于训练数据量有限且模型可能过拟合训练数据而言,设置Dropout更为有效。训练数据足够时,使用Dropout可能会适得其反。对于非常大的数据集,正则化几乎没有减少泛化误差。在这些情况下,使用Dropout和较大模型的计算成本可能会超过进行正则化的好处。(wsy:所以使用dropout会变慢?)

你可能感兴趣的:(deeplearning,深度学习,人工智能)