Vgg和AlexNet学习笔记

AlexNet

AlexNet包含8层,其中有五层卷积和三层全连接层,最后一个全连接层的输出传递给softmax层,对应1000个类标签的分布

第一层中的卷积核大小是11×11,接着第二层中的是5×5,之后都是3×3。此外,第一,第二和第五个卷积层之后都跟了有重叠的大小为3×3,步距为2×2的池化操作

论文模型

多CPU

 一半节点存入一个Gpu ,同时有一个方法用于两个GPUs 交流。加快了AlexNet的训练速度。

防止过度拟合

(1)随机裁剪,对256×256的图片进行随机裁剪到224×224,然后进行水平翻转,相当于将样本数量增加了((256-224)^2)×2=2048倍;

(2)测试的时候,对左上、右上、左下、右下、中间分别做了5次裁剪,然后翻转,共10个裁剪,之后对结果求平均。

(3)对RGB空间做PCA(主成分分析),然后对主成分做一个(0, 0.1)的高斯扰动,也就是对颜色、光照作变换,结果使错误率又下降了1%。原因是物体的鉴别特征并不会因为图片强度和颜色的变化而变化

重叠最大池化

每次移动的步长小于池化的窗口长度,使其可以重叠

ReLU非线性

使用relu 公式为 f(x)=max(0,x) ,不是sigmoid或者 tanh,收敛速度更快

Dropout

为了防止过拟合,每次都随机将某些神经元置为0,这个神经元就不参与前向和后向传播,dropout只需要两倍的训练时间即可实现模型组合的效果。


Vgg

训练时,输入是大小为224*224的RGB图像,预处理只有在训练集中的每个像素上减去RGB的均值。

VGG-16,输入层224*224*3,经过两层相同的卷积,卷积filter为3*3,stride为1,filter数为64,然后经过一层pooling。接着按照相同的方式,让宽和高越来越小,而通道数逐倍增加,直到512。最后用两层相同全连接加一个softmax

改进:

2个3*3 conv =1个5*5 conv  ,3个3*3 conv= 1个7*7 conv   卷积核更小,参数量更少

池化核变小,VGG中的池化核是2x2,stride为2

你可能感兴趣的:(Vgg和AlexNet学习笔记)