特点
上面两张图表示了没有 1 × 1 1\times1 1×1卷积核以及加入了 1 × 1 1\times1 1×1卷积核的inception结构。
首先,在naive inception module结构中, 3 × 3 3\times 3 3×3 pool可以让特征图通道数增加,且用较少的计算量。但是总的空间维度高达 28 × 28 × 672 28\times 28 \times 672 28×28×672.因此论文作者借鉴了 1 × 1 1\times 1 1×1卷积核来降低矩阵空间维度。
在上图二的inception module结构中,中间两个卷积核路径在输出数据矩阵前,加入了一层 1 × 1 1\times 1 1×1卷积核,而最右边的池化路径,则在池化之后加了一层 1 × 1 1\times 1 1×1卷积核。因为我们知道,卷积层中卷积核的数量决定了输出后的张量的通道数量。因此这里 1 × 1 1\times 1 1×1卷积层就压缩了右边三个路径中张量的厚度,从256降低到了64。比如,我们拿出左边第二条路径作对比:
对于没有 1 × 1 1\times 1 1×1卷积核的情况,256通道的输入张量直接与 3 × 3 3\times 3 3×3卷积层连接,总的参数量是442k。而用 1 × 1 1\times 1 1×1卷积层做了厚度降低后,总的参数量就降低到了23296,降低了差不多一半。
从high level来说,GoogLetNet有三个特点
(图片来源:https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/43022.pdf)
以上的图表是文中对网络结构的描述。一个容易混淆的地方是中间两个标有’reduce’的列。这两列表示的是inception module中 3 × 3 , 5 × 5 3\times 3, 5\times 5 3×3,5×5卷积核路径中的 1 × 1 1\times 1 1×1卷积层中的卷积核数量。. 输入的图片张量是 224 × 224 × 3 224\times 224 \times 3 224×224×3, 在经过第一阶段conv-pool-conv-pool快速降低分辨率后,数据张量变成了 28 × 28 × 192 28\times 28\times 192 28×28×192。( 224 / ( 2 3 ) = 28 224/(2^{3})=28 224/(23)=28)然后,经过了第二阶段inception堆叠后,数据张量变成了 7 × 7 × 1024 7\times 7 \times 1024 7×7×1024,最后经过了全连接分类层后,输出 1 × 1 × 1000 1\times 1\times 1000 1×1×1000的预测向量结果。
本文的一个创新点就是在inception4b和inception4e两层中,增加引出了两个辅助分类层,用于计算辅助损失。最后输出损失函数与辅助损失函数的权重比是1:0.3:0.3
loss = loss_main + (0.3 * aug_loss1) + (0.3 * aug_loss2)
作用:
每8个epoch下降4%:fixed learning rate schedule (decreasing the learning rate by 4% every 8 epochs)
0.9 6 100 = 0.016 0.96^{100}=0.016 0.96100=0.016 , 800个epochs,才下降不到100倍。 这也导致本文模型的损失曲线下降比较平缓(相对ResNet而言)
指导方针:
1张图变144张图:
Step1: 等比例缩放短边至256, 288, 320, 352,四种尺寸。 一分为四
Step2: 在长边上裁剪出3个正方形,左中右或者上中下,三个位置。 一分为三(下图)
Step3: 左上,右上,左下,右下,中心,全局resize,六个位置。 一分为六
Step4: 水平镜像。 一分为二
因此总的数量是 4 × 3 × 6 × 2 = 144 4\times 3\times 6\times 2 = 144 4×3×6×2=144
七个模型训练差异仅在图像采样方式和顺序的差异
模型融合: 多模型比单模型精度高
Multi Cros:crop越多,精度越高
稀疏矩阵:数值为0的元素数目远远多于非0元素的数目, 且无规律
稠密矩阵:数值非0的元素数目远远多于为0元素的数目, 且无规律
稀疏矩阵优点是,可分解成密集矩阵计算来加快收敛速度
672个特征图分解为四个部分
1 × 1 1\times 1 1×1卷积核提取的 128个通道
3 × 3 3\times 3 3×3卷积核提取的192个通道
5 × 5 5\times 5 5×5卷积核提取的96个通道
3 × 3 3\times 3 3×3池化提取的256个通道
打破均匀分布,相关性强的特征聚集在一起