图像分类基础

目录

  • 图像分类
    • 1 CIFAR-10数据集
    • 2 卷积神经网络(CNN)
    • 3 CNN结构的演化
    • 4 AlexNet网络
    • 5 Network-in-Network网络
      • 5.1 1x1卷积
    • 6 全局平均池化
    • 7 GoogLeNet
      • 7.1 Inception V1网络
      • 7.2 Inception V2网络
      • 7.3 Inception V3网络
      • 7.4 Inception V4网络
    • 8 总结一下Inception

图像分类

判断图片中是否有某个物体
一个图对应一个标签:
性能指标 Top1 error->前1中1;Top5 error->前5中1
图像分类基础_第1张图片

1 CIFAR-10数据集

该数据集共有60000张彩色图像,这些图像的分辨率是32*32,分为10个类,每类6000张图。
其中有50000张用于训练,构成了5个训练批,每一批10000张图;另外10000用于测试,单独构成一批。
测试批的数据里,取自10类中的每一类,每一类随机取1000张
图像分类基础_第2张图片

2 卷积神经网络(CNN)

网络进化:
网络:AlexNet->VGG->GoogLeNet->ResNet
深度:8->19->22->152
VGG结构简洁有效:容易修改,迁移到其他任务中去;高层任务的基础网络。
性能竞争网络:GooLeNet:Inception v1->v4:Split-transform-merge
ResNet:ResNet1024->ResNeXt:深度、宽度、基数

3 CNN结构的演化

图像分类基础_第3张图片

4 AlexNet网络

ImageNet-2012竞赛第一
标志着DNN深度学习革命的开始:5个卷积层+3个全连接层;60M个参数+650K个神经元;2个分组→2个GPU(3GB)
使用两块GTX580 GPU训练了5~6天
新技术:ReLU非线性激活;还包括后来不被认可的LRN;Max pooling池化;Dropout regularization
图像分类基础_第4张图片

5 Network-in-Network网络

提高CNN的局部感知区域的非线性
图像分类基础_第5张图片

卷积层->1x1卷积层->Max池化层
图像分类基础_第6张图片

5.1 1x1卷积

1x1卷积,实现的是“同一个像素点上”的各个通道的值得线性组合。
这里的“全连接”指的是卷积前通道数与卷积后通道数之间的。
1x1的卷积有两个方面的作用:实现跨通道的交互和信息整合;进行卷积核通道数的降维和升维。
图像分类基础_第7张图片

6 全局平均池化

全局平均池化就没有size,它针对的是整张featuremap
图像分类基础_第8张图片

7 GoogLeNet

7.1 Inception V1网络

2个辅助分类器:深网络中,梯度回传到最初几层。存在严重消失问题;有效加速收敛;测试阶段不使用。
图像分类基础_第9张图片
图像分类基础_第10张图片

7.2 Inception V2网络

核心组件
Batch Normalization(批归一化)
白化:使每一层的输出都规范化到N(0,1)
解决internal Covariate Shift问题
允许较高学习率
取代部分Dropout
5x5卷积核->2个3x3卷积核
图像分类基础_第11张图片

在batch范围内,对每个特征通道分别进行归一化;所有图片,所有像素点。
图像分类基础_第12张图片

训练阶段->实时计算;测试阶段->使用固定值(对训练求平均)
图像分类基础_第13张图片

7.3 Inception V3网络

Inception V3优化了Inception Module的结构,V3有三种不同的结构,如下图。
这些Inception Module只在网络的后部出现,前部还是普通的卷积层。
图像分类基础_第14张图片

7.4 Inception V4网络

图像分类基础_第15张图片

8 总结一下Inception

代替人工确定卷积层中的过滤器类型或者确定是否需要创建卷积层和池化层;
不需要人为的决定使用哪个过滤器,是否需要池化层等,由网络自行决定这些参数;
即∶预先给网络添加所有可能值,将输出连接起来,让网络自己学习它需要什么样的参数。
Inception 网络有个问题∶网络的超参数设定的针对性比较强,当应用在别的数据集上时需要修改许多参数,因此可扩展性一般。

你可能感兴趣的:(分类,cnn,深度学习)