Vgg(Visual Geometry Group)是由牛津大学的Simonyan, Karen等人在《Very deep convolutional networks for large-scale image recognition【ICLR-2015】》【论文地址】一文中提出的模型,核心思想是通过使用小尺寸的卷积核(通常为3x3),来代替较大感受野的卷积层,通过重复堆叠多个卷积块来增加网络深度,并通过逐渐减小特征图尺寸和增加特征通道数来扩展网络规模。
感受野(Receptive Field)是指在神经网络中,每个网络层输出的特征图中的一个像素点映射回原始输入图像中的区域大小,网络层越深,其输出特征的元素对应感受野越大。
在卷积神经网络(CNN)和全连接神经网络(FCN)中,感受野的计算和作用存在区别:
全连接层通常用于网络的最后几层,用于对从卷积层中提取的局部特征进行整合和分类。
卷积层中的每个神经元只能感知输入特征图的局部区域,如绿色特征图的某像素特征(红色方块)在青蓝色特征图上的感受野(红色方框),通过多个神经元的组合,卷积神经网络可以提取输入图像的全局特征,如黄色特征图的像素特征就能完整获取青蓝色特征图的所有信息。这种局部感知的特性使得卷积神经网络在图像处理和计算机视觉任务中表现出色。
卷积神经网络通过大量的卷积层、归一化层、激活层和池化层进行堆叠构成完整的网络结构,而卷积层和池化均会改变特征图的大小,从而实现特征之间的映射和转换,因此卷积核或池化核(kernel_size)、和步长(stride)参数共同决定了输出结果对应的感受野大小。
k n {k_n} kn、 s n {s_n} sn、 r n {r_n} rn分别表示第 n n n层的卷积核尺寸、步长和感受野。卷积神经网络的感受野计算公式在表达上有些许的差异,博主给出了不同的公式表达的含义:
博主将通过一个案例详细说明俩种方法的区别,如下图所示,原始图像输入 r 0 = 7 × 7 {r_0}=7×7 r0=7×7,假设共经历3个卷积层:此时三个卷积层的输出依次为 r 1 = 5 × 5 {r_1}=5×5 r1=5×5 , r 2 = 3 × 3 {r_2}=3×3 r2=3×3 和 r 3 = 1 × 1 {r_3}=1×1 r3=1×1 。
说明俩种方法计算感受野的区别如下表所示:
自底向上 | 自顶向下 |
---|---|
n n n个网络层输出的特征图分别在原始图像上的感受野大小 | 第 n n n层网络输出的特征图分别在前 n n n层特征图上的感受野大小 |
r 0 = 1 {r_0}=1 r0=1 | Conv(3): r 3 = 1 {r_3}=1 r3=1 |
Conv(1): r 1 = 3 {r_1}=3 r1=3 | Conv(2): r 2 = ( 1 − 1 ) × 1 + 3 = 3 {r_2}=(1-1)×1+3=3 r2=(1−1)×1+3=3 |
Conv(2): r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(3−1)×1=5 | Conv(1): r 1 = ( 3 − 1 ) × 1 + 3 = 5 {r_1}=(3-1)×1+3=5 r1=(3−1)×1+3=5 |
Conv(3): r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(3−1)×1=7 | r 0 = ( 3 − 1 ) × 1 + 5 = 7 {r_0}=(3-1)×1+5=7 r0=(3−1)×1+5=7 |
假设都是计算第三个卷积层的输出特征图像素点在原始输入图像上的感受野,二者的大小是一致的。
3x3 卷积核是能够感受到上下、左右、重点的最小的感受野尺寸,论文中提到,堆叠两个3x3的卷积核的感受野等同于1个5x5的卷积核,堆叠三个3x3的卷积核的感受野等同于1个7x7的卷积核,并且使用3x3卷积核替换后可以减少参数。由于感受野相同,3个3x3的卷积,使用了3个非线性激活函数,增加了非线性表达能力。
卷积核尺寸 | 卷积核感受野 | 卷积核参数(假设输入输出channel为C) |
---|---|---|
3×3 | r 1 = 3 {r_1}=3 r1=3, r 2 = 3 + ( 3 − 1 ) × 1 = 5 {r_2}=3+(3-1)×1=5 r2=3+(3−1)×1=5, r 2 = 5 + ( 3 − 1 ) × 1 = 7 {r_2}=5+(3-1)×1=7 r2=5+(3−1)×1=7 | 3×3×C×C= 9 C 2 9{C^2} 9C2, 18 C 2 18{C^2} 18C2, 27 C 2 27{C^2} 27C2 |
5×5 | r 1 = 5 {r_1}=5 r1=5 | 5×5×C×C= 25 C 2 25{C^2} 25C2> 18 C 2 18{C^2} 18C2 |
7×7 | r 1 = 7 {r_1}=7 r1=7 | 7×7×C×C= 49 C 2 49{C^2} 49C2> 27 C 2 27{C^2} 27C2 |
总而言之,使用3x3卷积核堆叠的形式,既增加了网络层数又减少了参数量。
注:卷积层的参数卷积层的参数被表示为"卷积场大小-通道数",ReLU激活函数在表中没有显示
与AlexNet⼀样,VggNet可以分为两部分:第⼀部分 (backbone) 主要由卷积层和池化层(汇聚层)组成,第⼆部分由全连接层 (分类器) 组成。
VggNet的亮点 | 说明 |
---|---|
小卷积核 | 堆叠多个3×3的卷积核来替代大的卷积核,部分使用1x1卷积核的(C结构网络中),以减少所需参数 |
小池化核 | 全部为2×2的池化核 |
更深更宽的网络结构 | 卷积核专注于扩大通道数,池化专注于缩小高和宽,使得模型更深更宽的同时,计算量的增加不是很剧烈 |
去掉了LRN层 | LRN浪费了更多的内存和时间并且性能没有太大提升 |
VGG的预训练权重是使用ImageNet数据集进行训练而来:
# 官方的预训练权重
model_urls = {
'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth',
'vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth',
'vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth',
'vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}
backbone部分
# VGGnet的四种网络配置
cfgs = {
'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def make_features(cfg: list):
layers = []
# RGB图像3通道
in_channels = 3
for v in cfg:
# 池化层
if v == "M":
# 全部为2×2的池化核
layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
else:
# 卷积层组:conv2d+ReLU
conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
layers += [conv2d, nn.ReLU(True)]
in_channels = v
return nn.Sequential(*layers)
分类器部分
# 分类器部分:FC+ReLU+Dropout
self.classifier = nn.Sequential(
nn.Linear(512*7*7, 4096),
nn.ReLU(True),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096),
nn.ReLU(True),
nn.Dropout(p=0.5),
nn.Linear(4096, num_classes)
)
import torch.nn as nn
import torch
from torchsummary import summary
# 官方的预训练权重
model_urls = {
'vgg11': 'https://download.pytorch.org/models/vgg11-bbd30ac9.pth',
'vgg13': 'https://download.pytorch.org/models/vgg13-c768596a.pth',
'vgg16': 'https://download.pytorch.org/models/vgg16-397923af.pth',
'vgg19': 'https://download.pytorch.org/models/vgg19-dcbb9e9d.pth'
}
class VGG(nn.Module):
def __init__(self, features, num_classes=1000, init_weights=False):
super(VGG, self).__init__()
# backbone部分
self.features = features
# 分类器部分:FC+ReLU+Dropout
self.classifier = nn.Sequential(
nn.Linear(512*7*7, 4096),
nn.ReLU(True),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096),
nn.ReLU(True),
nn.Dropout(p=0.5),
nn.Linear(4096, num_classes)
)
# 对模型的权重进行初始化操作
if init_weights:
self._initialize_weights()
def forward(self, x):
# N x 3 x 224 x 224
x = self.features(x)
# N x 512 x 7 x 7
x = torch.flatten(x, start_dim=1)
# N x 512*7*7
x = self.classifier(x)
return x
def _initialize_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
# Conv2d的权重从均匀分布中随机初始化
nn.init.xavier_uniform_(m.weight)
if m.bias is not None:
# Conv2d的偏置置0
nn.init.constant_(m.bias, 0)
elif isinstance(m, nn.Linear):
# FC的权重从均匀分布中随机初始化
nn.init.xavier_uniform_(m.weight)
# FC的偏置置0
nn.init.constant_(m.bias, 0)
def make_features(cfg: list):
layers = []
# RGB图像3通道
in_channels = 3
for v in cfg:
# 池化层
if v == "M":
# 全部为2×2的池化核
layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
else:
# 卷积层组:conv2d+ReLU
conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
layers += [conv2d, nn.ReLU(True)]
in_channels = v
return nn.Sequential(*layers)
# VGGnet的四种网络配置
cfgs = {
'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}
def vgg(model_name="vgg16", **kwargs):
assert model_name in cfgs, "Warning: model number {} not in cfgs dict!".format(model_name)
cfg = cfgs[model_name]
model = VGG(make_features(cfg), **kwargs)
return model
if __name__ == '__main__':
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = vgg("vgg16").to(device)
summary(model, input_size=(3, 224, 224))
summary可以打印网络结构和参数,方便查看搭建好的网络结构。
尽可能简单、详细的介绍了深度可分卷积的原理和卷积过程,讲解了VGGnet模型的结构和pytorch代码。