计算机视觉(5)—— 图像分类

目录

五、图像分类

5.1 AlexNet

5.2 VGG

5.3 GoogLeNet、Inception

5.3.1 Inception V1 

5.3.2 Inception V2

5.3.3 Inception V3 

5.3.4 Inception V4 

5.4 ResNet 残差网络

5.4.1 ResNet

5.4.2 ResNeXt

5.5 CNN设计准则

五、图像分类

计算机视觉(5)—— 图像分类_第1张图片

计算机视觉(5)—— 图像分类_第2张图片计算机视觉(5)—— 图像分类_第3张图片计算机视觉(5)—— 图像分类_第4张图片

计算机视觉(5)—— 图像分类_第5张图片

5.1 AlexNet

计算机视觉(5)—— 图像分类_第6张图片

计算机视觉(5)—— 图像分类_第7张图片

计算机视觉(5)—— 图像分类_第8张图片

计算机视觉(5)—— 图像分类_第9张图片计算机视觉(5)—— 图像分类_第10张图片 

5.2 VGG

计算机视觉(5)—— 图像分类_第11张图片计算机视觉(5)—— 图像分类_第12张图片 

5.3 GoogLeNet、Inception

计算机视觉(5)—— 图像分类_第13张图片

5.3.1 Inception V1 

计算机视觉(5)—— 图像分类_第14张图片计算机视觉(5)—— 图像分类_第15张图片计算机视觉(5)—— 图像分类_第16张图片计算机视觉(5)—— 图像分类_第17张图片

                全连接层参数过多,所以要改进 

计算机视觉(5)—— 图像分类_第18张图片

         GAP:全局平均池化 

计算机视觉(5)—— 图像分类_第19张图片

在梯度要消失的地方,再次传入

计算机视觉(5)—— 图像分类_第20张图片

计算机视觉(5)—— 图像分类_第21张图片

5.3.2 Inception V2

计算机视觉(5)—— 图像分类_第22张图片计算机视觉(5)—— 图像分类_第23张图片(1)训练时要将traning参数设置为True,在验证时将trainning参数设置为False。在pytorch中可通过创建 模型的model.train()和model.eval()方法控制。
(2)batch size尽可能设置大点,设置小后表现可能很糟糕,设置的越大求的均值和方差越接近整个训练集的均值和方差。
(3)一般将bn层放在卷积层(Conv)和激活层(例如Relu)之间,且卷积层不要使用偏置bias。

计算机视觉(5)—— 图像分类_第24张图片

计算机视觉(5)—— 图像分类_第25张图片

5.3.3 Inception V3 

计算机视觉(5)—— 图像分类_第26张图片计算机视觉(5)—— 图像分类_第27张图片计算机视觉(5)—— 图像分类_第28张图片计算机视觉(5)—— 图像分类_第29张图片计算机视觉(5)—— 图像分类_第30张图片 

5.3.4 Inception V4 

计算机视觉(5)—— 图像分类_第31张图片计算机视觉(5)—— 图像分类_第32张图片

VGG是大多数的主干模型,Google的可扩展性相对差一点

5.4 ResNet 残差网络

5.4.1 ResNet

计算机视觉(5)—— 图像分类_第33张图片

计算机视觉(5)—— 图像分类_第34张图片

        优化:用1×1卷积先降维减少计算量,再升维和前面的残差块组合

计算机视觉(5)—— 图像分类_第35张图片计算机视觉(5)—— 图像分类_第36张图片计算机视觉(5)—— 图像分类_第37张图片FLOPs这里是指需要的计算量 

5.4.2 ResNeXt

计算机视觉(5)—— 图像分类_第38张图片计算机视觉(5)—— 图像分类_第39张图片计算机视觉(5)—— 图像分类_第40张图片计算机视觉(5)—— 图像分类_第41张图片 

5.5 CNN设计准则

计算机视觉(5)—— 图像分类_第42张图片

计算机视觉(5)—— 图像分类_第43张图片

计算机视觉(5)—— 图像分类_第44张图片计算机视觉(5)—— 图像分类_第45张图片计算机视觉(5)—— 图像分类_第46张图片这里不一定分组卷积就比整个卷积强

计算机视觉(5)—— 图像分类_第47张图片

你可能感兴趣的:(计算机视觉,计算机视觉,人工智能)