Dropout、高斯Dropout、均匀分布Dropout(Uout)

Dropout可以用于解决过拟合,但是dropout和batchnorm一起使用将会导致性能下降,原因是方差,最基础的论文为https://arxiv.org/pdf/1801.05134.pdf。网上的讲解也都是围绕这篇文章。本文记录构建均匀分布Dropout的相关知识,以作备用。

Dropout原理及实现

Dropout的本质通过在学习过程中随机删除神经元,从而每一次都让不同的模型进行学习。比如,以概率 p=0.6 随机将神经元置0,就相当于在10个神经元选4个神经元输出(4个神经元在工作,另外6神经元置0)。一般取0.5效果最佳,小模型下可以再小一些,如0.3。

代码实现

在pytorch中可以使用nn.Dropout(p=0.5)实现,和普通的nn.Linear等层用法一致。

也可以手动写一个

class Dropout(nn.Module):
    def __init__(self, p=0.5):
        super(Dropout, self).__init__()
        if p <= 0 or p >= 1:
            raise Exception("p value should accomplish 0 < p < 1")
        self.p = p
        self.kp = 1 - p
        
    def forward(self, x):
        if self.training:
            mask = (torch.rand_like(x) < self.kp)
            return x * mask / self.kp
        else:
            return x

注释:p是丢弃概率,kp是保留概率。self.training在model.train()下是True,在eval()下是False。torch.rand_like是生成和x相同尺寸的张量,取值在[0,1)内均匀分布。最后除了kp是为了保证train和test下的期望值一致,详细解释可见15 - Dropout的原理及其在TF/PyTorch/Numpy的源码实现_取个名字真难呐的博客-CSDN博客_numpy实现dropout

高斯Dropout

这是Dropout的一种变形,写它的目的是方便理解Uout

普通Dropout可以理解为服从的是伯努利分布,现在把它换成高斯分布得到的就是高斯dropout,原理详情可参考深度学习-Dropout详解_Tc.小浩的博客-CSDN博客_dropout

代码参考GaussianDropout implementation - #4 by tom - PyTorch Forums

列出了代码的变化过程,讨论的内容也包含了相应的解释,最终的结果如下:

class GaussianDropout(nn.Module):
    def __init__(self, p=0.5):
        super(GaussianDropout, self).__init__()
        if p <= 0 or p >= 1:
            raise Exception("p value should accomplish 0 < p < 1")
        self.p = p
        
    def forward(self, x):
        if self.training:
            stddev = (self.p / (1.0 - self.p))**0.5
            epsilon = torch.randn_like(x) * stddev
            return x * epsilon
        else:
            return x

Uout

原理见上面论文连接里 Change Dropout into a more variance-stable form 小结

代码为自己总结,可能存在问题

class Uout(nn.Module):
    def __init__(self, p=0.1):
        super(Uout, self).__init__()
        self.beta = p
        
    def forward(self, x):
        if self.training:
            epsilon = (torch.rand_like(x) - 0.5) * 2 * self.beta
            epsilon = epsilon + 1
            return x * epsilon
        else:
            return x

你可能感兴趣的:(深度学习,人工智能,python)