输入图像为(224,224,3):
经过第一层conv3-64的卷积层(3,3,3,64)之后,输出feature map为(224,224,64);
经过第二层conv3-64的卷积层(3,3,64,64)之后,输出feature map为(224,224,64);
经过最大池化层之后,输出feature map为(112,112,64)。
经过第三层conv3-128的卷积层(3,3,64,128)之后,输出feature map为(112,112,128);
经过第四层conv3-128的卷积层(3,3,128,128)之后,输出feature map为(112,112,128);
经过最大池化层之后,输出feature map为(56,56,128)。
经过第五层conv3-256的卷积层(3,3,128,256)之后,输出feature map为(56,56,256);
经过第六层conv3-256的卷积层(3,3,256,256)之后,输出feature map为(56,56,256);
经过第七层conv3-256的卷积层(3,3,256,256)之后,输出feature map为(56,56,256);
经过最大池化层之后,输出feature map为(28,28,256)。
经过第八层conv3-512的卷积层(3,3,256,512)之后,输出feature map为(28,28,256);
经过第九层conv3-512的卷积层(3,3,512,512)之后,输出feature map为(28,28,512);
经过第十层conv3-512的卷积层(3,3,512,512)之后,输出feature map为(28,28,512);
经过最大池化层之后,输出feature map为(14,14,512)。
经过第十一层conv3-512的卷积层(3,3,512,512)之后,输出feature map为(14,14,512);
经过第十二层conv3-512的卷积层(3,3,512,512)之后,输出feature map为(14,14,512);
经过第十三层conv3-512的卷积层(3,3,512,512)之后,输出feature map为(14,14,512);
经过最大池化层之后,输出feature map为(7,7,512)。
经过第十四层FC-4096的全连接层之后,输出为(1,1,4096);
经过第十五层FC-4096的全连接层之后,输出为(1,1,4096);
经过第十六层FC-4096的全连接层之后,输出为(1,1,1000);
在原始论文中,作者共计提出6个网络,分别为VGG-A、VGG-A-LRN、VGG-B、VGG-C、VGG-D、VGG-E。