经典神经网络 -- SSD : 设计原理与pytorch实现

原理

       ssd采用的是VGG16的特征提取,在vgg16中提取二个特征图,之后又通过额外的增加卷积操作再次提取四个特征图,一共6个特征图。 

经典神经网络 -- SSD : 设计原理与pytorch实现_第1张图片

       前半部分是vgg-16的架构,作者在vgg-16的层次上,将vgg-16后边两层的全连接层(fc6,fc7)变换为了卷积层,conv7之后的层则是作者自己添加的识别层。

       在conv4_3层,有一层Classifier层,使用一层(3,3,(4*(Classes+4)))卷积进行卷积(Classes是识别的物体的种类数,代表的是每一个物体的得分,4为x,y,w,h坐标,乘号前边的4为default box的数量),这一层的卷积则是提取出feature map,不仅在conv4_3这有一层卷积,在Conv7、Conv8_2、Conv9_2、Conv10_2和Conv11_2都有一层这样的卷积层,因此最后提取到6个feature map层。

       最后的 Detections:8732 per Class 具体的计算如下:

  Conv4_3  得到的feature map大小为38*38:38*38*4 = 5776

  Conv7      得到的feature map大小为19*19:19*19*6 = 2166

  Conv8_2  得到的feature map大小为10*10:10*10*6 = 600

  Conv9_2  得到的feature map大小为5 * 5  :5 * 5 * 6 = 150

  Conv10_2得到的feature map大小为3 * 3  :3 * 3 * 4 = 36

  Conv11_2得到的feature map大小为1 * 1  :1 * 1 * 4 = 4

  最后结果为:8732(乘以4或者6,这个是default box数量)

  那么ssd则是在这8732个结果中找到识别的物体。

ssd 用于目标检测,重点之一是目标框的生成,多尺度的融合。 

代码实现

# Single Shot Multibox Detecor 


import torch
import torch.nn as nn
import torchvision
import torch.nn.init as init
import torch.nn.functional as F
from torch.autograd import Variable
from math import sqrt as sqrt
from itertools import product


base = {
    '300': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'C',
            512, 512, 512, 'M', 512, 512, 512],
    '512': []
}


def vgg(cfg, i, batch_norm=False):
    layers = []
    in_channels = i
    for v in cfg:  # 构建几层网络
        if v == 'M':
            layers += [nn.MaxPool2d(2, 2)]
        elif v == 'C':
            layers += [nn.MaxPool2d(2, 2, ceil_mode=True)]
            # ceil_mode,默认为False(地板模式),剩余数据不足kernel_size大小时,直接舍弃。
            # 为True时是天花板模式,将保存不足为kernel_size大小的数据保存,自动补足NAN至kernel_size大小。
        else:
            conv2d = nn.Conv2d(in_channels, v, 3, 1, 1)
            if batch_norm:
                layers += [conv2d, nn.BatchNorm2d(v), nn.ReLU(True)]
            else:
                layers += [conv2d, nn.ReLU(inplace=True)]
            in_channels = v  # 更新i
    pool5 = nn.MaxPool2d(3, 1, 1)
    conv6 = nn.Conv2d(512, 1024, 3, padding=6, dilation=6)
    conv7 = nn.Conv2d(1024, 1024, 1)
    layers += [pool5, conv6, nn.ReLU(True), conv7, nn.ReLU(True)]
    return layers


extral = {
    '300': [256, 'S', 512, 128, 'S', 256, 128, 256, 128, 256],
    '512': [],
}


def add_extral(cfg, i, batch_norm=False):
    layers = []
    in_channels = i
    flag = False
    for k, v in enumerate(cfg):
        if in_channels != 'S':
            if v == 'S':
                layers += [nn.Conv2d(in_channels, cfg[k+1],
                                     kernel_size=(1, 3)[flag], stride=2, padding=1)]
            else:
                layers += [nn.Conv2d(in_channels, v, (1, 3)[flag])]
            flag = not flag
        in_channels = v
    return layers


if __name__ == "__main__":
    layers = vgg(base['300'], 3)
    print(nn.Sequential(*layers))
    x = torch.rand(1, 3, 38, 38)
    for i, layer in enumerate(layers):
        x = layer(x)
        print(layer)
        print(x.shape)

    add_layer = add_extral(extral['300'], 1024)
    print(nn.Sequential(*add_layer))
    x = torch.rand(1, 1024, 19, 19)
    for k, v in enumerate(add_layer):
        x = F.relu(v(x), inplace=True)
        print(x.shape)


参考文章:

pytorch 实现SSD详细理解 (一)vgg和特征图的提取_视觉盛宴的博客-CSDN博客_pytorch vgg提取特征

pytorch 实现SSD详细理解 (二)ssd网络_视觉盛宴的博客-CSDN博客

ssd算法的pytorch实现与解读_a14780429533的博客-CSDN博客

ssd算法论文理解 - 那年盛夏 - 博客园

Pytorch池化层Maxpool2d中ceil_mode参数_seungribariumgd的博客-CSDN博客

pytorch 实现SSD详细理解 (三)loss的定义和训练_视觉盛宴的博客-CSDN博客

你可能感兴趣的:(求职,CV-计算机视觉,pytorch,人工智能,python,计算机视觉,深度学习)