GoogleNet论文精读

  1. 论文名:Going depper with convolutions
  2. 论文下载地址:https://github.com/jixiuy/paper
  3. 引言第一段:背景+成绩
  4. 1*1的卷积在channel上升维和降维,channel融合,计算方法上等价于FNN
  5. GAP(全局平均池化):每个cov都利用相同维度的平均池化层进行处理,图片都进行用标量来代替特征,类似Flatten的作用,结果可以提升1-2个点
  6. Related work如果是老手可读可不读,如果是新生,帮助你快速进入领域的背景知识
  7. 用有特定值的卷积核对图像进行处理的核叫过滤核 filter core
  8. 总结回顾之前的问题,然后讲我是怎么解决的
  9. Inception的概念:

Inception块由四条并行路径组成。前三条路径使用窗口大小为1×1、3×3和5×5的卷积层,从不同空间大小中提取信息。中间的两条路径在输入上执行1×1卷积,以减少通道数,从而降低模型的复杂性。第四条路径使用3×3最大汇聚层,然后使用1×1卷积层来改变通道数。这四条路径都使用合适的填充来使输入与输出的高和宽一致,最后我们将每条线路的输出在通道维度上连结,并构成Inception块的输出。在Inception块中,通常调整的超参数是每层输出通道数。《动手学深度学习》

  1. 有些工作只是理论上有用,不能应用到现实生活
  2. 像谷歌的一些论文比较难懂,开始没读懂可以撂在那,之后他会解释
  3. 在论文里对引用论文的解释要到位
  4. depth:神经网络的堆叠层数。width:神经网络:节点数量;卷积:卷积核的数量。
  5. 没有必要读论文里一些不相关的内容,可以用到了再回过头来看。
  6. 解决小数据集容易过拟合,大数据集获取代价大:移除全连接用稀疏连接
  • 神经网络(密集)
  • 卷积神经网络(稀疏)
  1. 如果不对称不能够并行运算
  2. LeNet: 第一层卷积的feature map送入第二层卷积的时候,随机的送feature map而不是全部送。计算上不高效。
  3. AelxNet:全部送入下一层,更快的并行计算
  4. NAS:自动构建神经网络的工具
  5. Inception四条路分别提取不同尺度的信息,通过Padding来保证输出尺寸相同,在通道维度上拼接。每条路是密集的,4条路整体式稀疏的,因为和传统的一条路的形式不一致。
  6. stride减少的是空间维度,channel减少的是通道维度
  7. Stage可以方便的进行网路的缩放,每相同Stage中空间维度不变,不同Stage中空间维度可变,所以在每个相邻Stage中间需要用池化进行空间维度的变化,通道数比较随意,空间维度不能随意。
  8. GoogleNet网络结构:patch size指的是卷积核的尺寸
    GoogleNet论文精读_第1张图片
  9. Inception网络结构:
    GoogleNet论文精读_第2张图片
  10. 卷积大小计算公式:对于输入大小为 (H, W) 的图像或特征图,卷积核大小为 (K, K),步幅为 S,填充大小为 P,则输出大小为:
    ( ⌊ H + 2 P − K S ⌋ + 1 ) × ( ⌊ W + 2 P − K S ⌋ + 1 ) \left( \left\lfloor \frac{{H + 2P - K}}{{S}} \right\rfloor + 1 \right) \times \left( \left\lfloor \frac{{W + 2P - K}}{{S}} \right\rfloor + 1 \right) (SH+2PK+1)×(SW+2PK+1)
  11. 防止梯度弥散,设置auxiliary classifiers (辅助分类器),网络结构和顶层的输出一样,分别得到loss1,loss2,loss3。loss=loss1+loss2+0.3loss3(系数不是论文里的),这样在反向传播的时候不至于每个梯度都为0,从不同角度看物体。下图黄色部分,详见论文。
    GoogleNet论文精读_第3张图片
  12. 训练细节第二遍不看
  13. 分类结果:(小trick、刷表)
  • 为了获得更高的精度,GoogleNet采取了一些小Trick,同时利用7个版本的GoogleNet,预测的时候用了集成学习的方法。
  • 对于一张图片取4个不同的尺寸,每个尺寸分别取左中右部子图,对于子图分别取四个角和中心,再镜像一下。435*2=144。从144个角度都预测然后取平均结果。

你可能感兴趣的:(深度学习,深度学习)