经典卷积网络VGG论文分析

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
 

文章链接VGG16

摘要:本文主要贡献在于随着不能增加的网络层数并使用3*3的卷积核,在层数达到16-19层达到了高的性能提升;

1、介绍:创造出更精确的卷积框架,其不仅取得分类与定位任务的良好效果,并且可以应用于其他识别的数据集;

下面是文章的布局:

第二部分 描述卷积网络的参数配置  第三部分 图片分类的训练和评估的细节  第四部分 在the ILSVRC 分类任务的比较;第五部分总结这个文章;

2、卷积网络的配置

对于测量增加深度的卷积层带来性能上的提升,所有的卷积层配置被用来设计相同,首先描述卷积层布局的配置2.1,然后在评估阶2.2段细化,对于这样的设计在2.3部分给予对于与讨论

2.1框架   在训练过程中,使用rgb 224*224 的图片作为输入,做一个预处理(对于训练集的每个图像的像素减去rgb的均值),使用统一的卷积核3*3,当然也使用1*1的卷积核作为线性转化,步长为1;使用最大池化2*2  步长为2

对于全连接层,前两个是4096个通道,第三个是1000对于图片的分类,最终的softmax层同样也是1024 

激活函数都是使用 RELU ,包括本地相应归一化(LRU  其占用内存 浪费时间)

2.2 配置     卷积层的配置在表1中    分为A-E 种网络框架,不同的深度 表2     表示参数的数量,

经典卷积网络VGG论文分析_第1张图片

表2

 2.3 主要提出了使用了卷积核3*3的 可以有效的 代替 7*7 5*5  同时减少了参数的数量;

3 分类框架

训练过程的设置,使用多尺度的照片,通过使用mini-batch 梯度下降 最优化回归,batch_size 为256  momentum=0.9  权重损失5*10的-4次方,前两个全连接层dropout=0.5 , learning -rate=0.01 ,总之 学习率减少3倍,在74 次迭代后停止,即使存在大量的参数,(对于KRIZHEVSKEY ET AL ,2012)迭代的次数很少很快实现收敛,有两点原因:第一暗含的正则化提出 更深的网络与更小的卷积,第二 对于一定层进行权重预初始化, 刚开始训练深度框架,先对前四个卷积层以及后三个全连接层进行了权重初始化,在预初始化的过程中,没有减少其学习率;初始化方法使用正太分布 均值为0  方差为10的-2次方,偏置初始化为0,

数据增强方面,使用224的尺寸,随机剪裁图片,进一步的增强是随机水平翻转,随机RGB 彩色偏差。

训练图片尺寸:统一使用224  通过两种不同的方式来裁剪出224的图片

3.2 测试 通过对测试图片翻转,得出的结果与原始的图片 做平均,主要是讲述多种crop 发挥的作用

3.3 实施细节:

工具:C++ CAFFE   多GPU并行运算 4GPU 比单GPU速度3.75倍, 在配备4个GPU的基础上,训练单个网络使用2-3周时间

4 分类实验部分

the ILSVRC-2012 dataset   总共1000类图片  三部分,训练1.3M张, 验证50K ,测试100K张 
 

以下是单一尺度  与 多尺度的具体分析  、卷积网络融合,这里忽略

4.5 比较

经典卷积网络VGG论文分析_第2张图片

5 结论

主要表面网络深度对性能提升的重要性


 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(vgg16,论文阅读)