『Some Improvements on Deep Convolutional Neural Network Based Image Classification』论文笔记

一为什么读这篇

起初是从Inception V1的参考文献发现本文的，当时以为这篇是TTA的鼻祖，后来查了下google scholar，发现本文不仅Inception V1有引用，许多其他重磅文章也都引用了该文，包括不限于VGG，He初始化，SSD等等。

二截止阅读时这篇论文的引用次数

2019.1.30 174次。次数虽然不多，不过引用该文的文章分量都很重。

三相关背景介绍

13年12月挂在arXiv上，属于AlexNet之后，VGG之前。由Andrew G. Howard一人发表，作者当时还是在一个以自己名字命名的咨询公司，不过现在已经去Google了，并在17年以一作身份发了MobileNets。这哥们也是神奇，这么多年总共就发了这两篇文章。

四关键词

data augmention

TTA

五论文的主要贡献

1 提出更有效的数据增强方法

2 说明数据增强（无论是训练时还是测试时）是非常具有普适性的

3 提出简单的贪心算法来减少TTA的数量

六详细解读

1 介绍

本文基于AlexNet，带来了20%的相对提升。

2 额外的数据变换用于训练

AlexNet做了3种数据增强：

1 从256x256的图像中随机裁剪（crop）224x224的图像，来获取平移不变性

2 水平翻转图像，来获取反射不变性

3 添加随机生成的亮度，来获取亮度变化和轻微颜色变化的不变性

本文增加了变化以扩展平移不变性和颜色不变性。

2.1 将图像裁剪（crop）延伸到额外的像素

首先将短边缩放到256，得到256xN或Nx256的图像，在从中随机裁剪224x224的图像。

tta-fig1.png

2.2 其他颜色操作

随机增加了对比度，亮度和颜色的操作，以生成涵盖图像变化范围的训练样本，帮助网络学习这些属性的不变性。通过随机顺序来选择这3种操作，参数范围为0.5到1.5（1表示不变）。

3 额外的数据变换用于测试

之前的方法结合预测的10种图像变换作为最终预测结果（看来本文并不是TTA鼻祖）。使用中央和4个角的crop，然后做下水平翻转就得到10张图了。本文发现用三种不同尺度预测提升了效果。并用3种不同的视角来预测以捕获之前裁剪丢掉的像素。5个平移，2个翻转，3个尺度和3个视角的组合得到90个预测结果，因此将预测速度降低了近一个数量级。为了解决这个问题，本文用一种贪心算法从中选择10个子集达到了和90个一样好的效果，选择了15个子集的效果甚至比90个还好一点。

3.1 多尺度预测

图像在不同尺度下包含有用的预测。本文用256，228和224三种尺度。需要注意的是缩放时选择一个好的插值算法很重要，本文用bicubic缩放。

3.2 多视角预测

为了充分利用图像上的所有像素做预测，本文生成3种不同的正方形视角图像。对于一个256xN（Nx256）的图像，生成256x256大小的左边（上方），中间，右边（下方）3种视角，然后在每一种视角上应用全部的裁剪，翻转和缩放。

tta-fig2.png

tta-table1.png

3.3 减少预测的数量

这个简单的贪心算法刚开始用最好的预测，然后每步增加另一个预测，直到没有额外的提升后停下来。（问题来了，你怎么知道哪个预测的效果最好？）

tta-fig3.png

tta-table2.png

4 更高分辨率的模型

图像中的对象可以以不同尺度存在。为了找到更高分辨率下的对象，需要重新以同样的尺度来训练网络效果才会好。在实践中，之前训练的模型可用于初始化更高分辨率的模型，同时将训练时间从90个周期大幅减少到30个周期。

tta-table3.png

4.1 模型细节

之前的模型是从256xN（Nx256）中取的224x224，理论上为了更高分辨率的模型，需要从448xN（Nx448）上取224x224，但实际上不可能这么存图，因此重用了256xN（Nx256）的图，从中采取128x128，然后再缩放到224x224。

另外在高分辨率模型下，这些crop会重叠的更少，因此又增加了中上，中下，左中，右中4种crop。这样预测数量总计162个（9个crop，2个翻转，3个尺度和3个视角）

5 结果

tta-table4.png

七读后感

非常轻松愉快的读完了，看完了才知道，这个并不是TTA的鼻祖，TTA其实早在AlexNet时就用了，不过本文提出的数据增强方法比AlexNet要更有效。属于那种认真分析了问题，然后提出解决方案的文章。看似没什么多大的创新，但是非常有效。

八补充

深度卷积神经网络中的升采样

『Some Improvements on Deep Convolutional Neural Network Based Image Classification』论文笔记

一 为什么读这篇

二 截止阅读时这篇论文的引用次数

三 相关背景介绍

四 关键词

五 论文的主要贡献

六 详细解读