一、GoogLeNet的网络结构如下
二、inception模块
我们说GoogLeNet足有100多层,然而从图中可以发现,从左到右,似乎深度并没有到100层。这并不矛盾,我们说神经网络的层数并不一定等同于深度,那么这个网络是如何达到100多层的呢?是通过并行的方式。
这就在于GoogLeNet中的inception块。我们通过GoogLeNet的网络图,可以发现里面有很多并行的结构。在整理ResNet网络的时候,我们发现网络除了直接送入卷积层之外,还可以额外进行残差边的额外送入,也就是说,同一个数据可以并行地分两条路去走。而GoogLeNet中的inception块就更加“放肆”了:有的进行卷积,有的进行池化,卷积核的大小也有不同,这样开设四条路径(一般来说),然后在输出通道维合并。
我们对于某一层的输出,进行四条路径下不同的处理,有1*1卷积、3*3卷积、5*5卷积以及3*3池化等操作,再最终将结果合并到一起。这就是最早期inception块的思路了,理解起来并不难。
然而,深度神经网络需要耗费大量计算资源,我们虽然采取了多种方式进行融合,但必然会大大增加计算量。还记得1*1卷积的作用吗 ?后面inception块为了减少计算量,在不同通道下都引入了1*1的卷积来减少通道数,从而减少参数量。这就有了上面更加常见的inception块。
如上图,为了降低算力成本,我们在3*3和 5x5 卷积前都增加了1*1卷积来减少输入卷积层的通道数。这样就可以减少卷积层的参数量了。因为卷积层的参数量为:输入层通道数*输出层通道数*卷积核大小。(这里一定要理解哈,因为输入层通道数决定了卷积核的通道数,输出通道数决定了卷积核的个数)。
因此,虽然我们看似是额外增加了几个1*1的卷积层,然而因为卷积层参数以及各个地方通道数的减少(得益于1*1卷积的大量使用),我们整体的参数量和复杂度是有减少的。整个inception块,也就是四条道路相融合的参数量甚至要少于单纯进行3*3或5*5的卷积!inception的优点之一也就是模型参数小,计算复杂度低。
值得注意的是,对于卷积层,1*1卷积会出现在卷积层之前来及时减少输入的通道数;而对于池化层,1*1卷积是出现在最大池化层之后的。
三、Inception的通道数和尺寸
因为inception有一个非常重要的性质:虽然输出通道数会因为四个路径相加而比输入通道数多,但是输出尺寸大小和输入尺寸是一样的。即:通过一个inception,高宽不变,通道数改变。
上图中我还额外标记了padding的大小,一个pad=1,另一个pad=2,这两处padding是本来就有的只不过原图中没显示。因为如果这两处卷积如果不设padding的话,是不可能使尺寸不变的。
卷积核尺寸为3*3,padding=1,步长为1,卷积后尺寸不变
卷积核尺寸为5*5,padding=2,步长为1,卷积后尺寸不变
所以图中其实3*3卷积padding是1,5*5卷积padding是2,才可以保持尺寸大小不变,才符合inception块的性质。
通道数的保留和占比也是有一些说法的,比如对于3*3的卷积,我们认为它更加重要,所以第二条路线我们给他更多的通道数,而5*5的卷积与池化层相对来说不是那么重要,所以第三、四条路线我们分别通过5*5和1*1的卷积来将它压缩至较小的通道数。
四、关于其他inception变种等
其实inception块在我理解看来就是开启多个不同的“并行路线”,每个路线采用不同的方式进行特征提取和学习,我们当然也可以让某一个路线直接变成残差边,或者是改变一些卷积核的大小、个数,或者加入BN层等,因此后面对于inception的变种也都是在这些思路上进行了改变。目前inceptionv3以及v4就是做了以上相关的改进,效果还是不错的。
关于inception我感觉就了解即可,不同版本其实也就是inception模块的一些改变和调整。要想复现GoogLeNet的话,模型构建以及训练起来还是很麻烦很慢的。一方面,是因为GooLeNet不同stage使用inception块的方式也都比较“无厘头”,并且很多通道数的设定也比较玄学;另一方面,虽然我们说inception块可以减少一些参数量,但是架不住它数目太多,因此整体结构还是复杂的。
GoogLeNet 的完整代码:
import torch
import torch.nn as nn
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim
# prepare dataset
batch_size = 64
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]) # 归一化,均值和方差
train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
# design model using class
class InceptionA(nn.Module):
def __init__(self, in_channels):
super(InceptionA, self).__init__()
self.branch1x1 = nn.Conv2d(in_channels, 16, kernel_size=1) # 2维卷积
self.branch5x5_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
self.branch5x5_2 = nn.Conv2d(16, 24, kernel_size=5, padding=2)
self.branch3x3_1 = nn.Conv2d(in_channels, 16, kernel_size=1)
self.branch3x3_2 = nn.Conv2d(16, 24, kernel_size=3, padding=1)
self.branch3x3_3 = nn.Conv2d(24, 24, kernel_size=3, padding=1)
self.branch_pool = nn.Conv2d(in_channels, 24, kernel_size=1)
def forward(self, x):
branch1x1 = self.branch1x1(x)
branch5x5 = self.branch5x5_1(x)
branch5x5 = self.branch5x5_2(branch5x5)
branch3x3 = self.branch3x3_1(x)
branch3x3 = self.branch3x3_2(branch3x3)
branch3x3 = self.branch3x3_3(branch3x3)
branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
branch_pool = self.branch_pool(branch_pool)
outputs = [branch1x1, branch5x5, branch3x3, branch_pool]
return torch.cat(outputs, dim=1) # b,c,w,h c对应的是dim=1
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
self.conv2 = nn.Conv2d(88, 20, kernel_size=5) # 88 = 24x3 + 16
self.incep1 = InceptionA(in_channels=10) # 与conv1 中的10对应
self.incep2 = InceptionA(in_channels=20) # 与conv2 中的20对应
self.mp = nn.MaxPool2d(2)
self.fc = nn.Linear(1408, 10)
def forward(self, x):
in_size = x.size(0)
x = F.relu(self.mp(self.conv1(x)))
x = self.incep1(x)
x = F.relu(self.mp(self.conv2(x)))
x = self.incep2(x)
x = x.view(in_size, -1)
x = self.fc(x)
return x
model = Net()
# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
# training cycle forward, backward, update
def train(epoch):
running_loss = 0.0
for batch_idx, data in enumerate(train_loader, 0):
inputs, target = data
optimizer.zero_grad()
outputs = model(inputs)
loss = criterion(outputs, target)
loss.backward()
optimizer.step()
running_loss += loss.item()
if batch_idx % 300 == 299:
print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
running_loss = 0.0
def test():
correct = 0
total = 0
with torch.no_grad():
for data in test_loader:
images, labels = data
outputs = model(images)
_, predicted = torch.max(outputs.data, dim=1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print('accuracy on test set: %d %% ' % (100 * correct / total))
if __name__ == '__main__':
for epoch in range(10):
train(epoch)
test()
运行结果如下:
参考文献:
https://blog.csdn.net/weixin_44492824/article/details/123601090?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166165829116782248520834%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=166165829116782248520834&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-123601090-null-null.142^v42^new_blog_pos_by_title,185^v2^tag_show&utm_term=goolenet&spm=1018.2226.3001.4187