用pytorch代码聊聊卷积正则化dropBlock及原理

正则化,老生常谈了,从最开始的dropout, weight decay ,还有early stop 等等,都是为了让网络不至于过度学习【过拟合】。但是后面大家惊奇的发现,dropout对于卷积层没啥用,基本只能用在全连接层。对此,一种用于卷积层的正则化方法就应运而生了。他叫dropBlock.

卷积正则化方法 dropBlock

首先看看为什么普通dropout对于卷积没有用。

用pytorch代码聊聊卷积正则化dropBlock及原理_第1张图片

看上图,卷积网络提取的是有空间语义的信息,每个独立的特征单元单独具备的意义不是那么大,而各个特征单元之间的连接规律,相互关系是重要的信息来源。如果只是dropout的方法,仅仅是降低了这些单元的分辨率而已,他们的连接关系,相互关系保持不变,整个网络仍然可以通过这些信息学习。而dropBlock想要做的是,把整个这些信息按照一块一块的丢弃,这样一来,他们的连接关系,相互关系就被抑制掉了。之后网络如果要学习正确的结果就需要另起炉灶,使用其他更多特征来调整网络。以上便是整个dropBlock的原理。

那么dropBlock是如何工作的,其工作流程如下图:

用pytorch代码聊聊卷积正则化dropBlock及原理_第2张图片

上面这张图大概讲讲,首先初始化随机数,使用随机数低于drop_prob的位置生成mask。使用mask对原始feature map 进行单元丢弃,最后对feature map归一化。

流程比较清晰但是具体实现还是不知道,那么来看看代码:就以conv2D的 dropBlock为例子:

class DropBlock2D(nn.Module):
    r"""Randomly zeroes 2D spatial blocks of the input tensor.
    As described in the paper
    `DropBlock: A regularization method for convolutional networks`_ ,
    dropping whole blocks of feature map allows to remove semantic
    information as compared to regular dropout.
    Args:
        drop_prob (float): probability of an element to be dropped.
        block_size (int): size of the block to drop
    Shape:
        - Input: `(N, C, H, W)`
        - Output: `(N, C, H, W)`
    .. _DropBlock: A regularization method for convolutional networks:
       https://arxiv.org/abs/1810.12890
    """

    def __init__(self, drop_prob, block_size):
        super(DropBlock2D, self).__init__()

        self.drop_prob = drop_prob
        self.block_size = block_size

    def forward(self, x):
        # shape: (bsize, channels, height, width)

        assert x.dim() == 4, \
            "Expected input with 4 dimensions (bsize, channels, height, width)"

        if not self.training or self.drop_prob == 0.:
            return x
        else:
            # get gamma value
            gamma = self._compute_gamma(x)

            # sample mask
            mask = (torch.rand(x.shape[0], *x.shape[2:]) < gamma).float()

            # place mask on input device
            mask = mask.to(x.device)

            # compute block mask
            block_mask = self._compute_block_mask(mask)

            # apply block mask
            out = x * block_mask[:, None, :, :]

            # scale output
            out = out * block_mask.numel() / block_mask.sum()

            return out

    def _compute_block_mask(self, mask):
        block_mask = F.max_pool2d(input=mask[:, None, :, :],
                                  kernel_size=(self.block_size, self.block_size),
                                  stride=(1, 1),
                                  padding=self.block_size // 2)

        if self.block_size % 2 == 0:
            block_mask = block_mask[:, :, :-1, :-1]

        block_mask = 1 - block_mask.squeeze(1)

        return block_mask

    def _compute_gamma(self, x):
        return self.drop_prob / (self.block_size ** 2)

关注forward函数:

第一步,获取 gamma , gamma = self.drop_prob / (self.blocksize ** 2) 【一般而言我们经常用的 blocksize = 3】

第二步,初始化与特征图相同大小的随机数,随机数小于gamma则置一,得到mask

第三步,求真正的block_mask: 使用 max_pool 方法,本质就是对刚才的mask进行扩充。扩充前,扩充后如下图所示:【看吧,这是dropBlock的庐山真面目】

用pytorch代码聊聊卷积正则化dropBlock及原理_第3张图片

第四步,使用block_mask对特征图进行丢弃,丢弃完成后对数据进行归一化。归一化公式为 out * block_mask.numel() / block_mask.sum()

有相关问题搜索知识星球号:1453755 【CV老司机】加入星球提问。扫码也可加入:

用pytorch代码聊聊卷积正则化dropBlock及原理_第4张图片

也可以搜索关注微信公众号: CV老司机

用pytorch代码聊聊卷积正则化dropBlock及原理_第5张图片

相关代码和详细资源可联系老牛wx号: jishudashou

最后再说说原文里面的公式,公式的左值表示需要多少的特征图单元被drop掉。看看就好,原文也说了是个近似公式。重要的是理解上面代码的流程。drop_prob根据原文的转换,设置也可以从 0依次上升至0.25,更实际合适的参数,在训练中调参吧。

实际使用中这里有一个resnet的修改范例:

https://github.com/miguelvr/dropblock/blob/master/examples/resnet-cifar10.py​github.com/miguelvr/dropblock/blob/master/examples/resnet-cifar10.py

 def forward(self, x):
        self.dropblock.step()  # increment number of iterations

        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.dropblock(self.layer1(x))
        x = self.dropblock(self.layer2(x))
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = x.view(x.shape[0], -1)
        x = self.fc(x)

        return x

dropBlock 节点通常的用法如上所示,跟在大的卷积组之后,而不是每一个小的卷积都去添加正则化。

参考文章:

dilligencer:DropBlock8 赞同 · 0 评论文章

你可能感兴趣的:(pytorch,dropout)