图像分类与基础视觉模型

图像分类与基础模型

  • 图像分类与基础模型
    • 什么是图像分类
    • 视觉任务的难点
    • 机器学习的局限
  • 卷积神经网络
    • AlexNet
    • VGG
    • GoogLeNet
    • ResNet

图像分类与基础模型

什么是图像分类

给定一张图片,识别图像中的物体是什么~

视觉任务的难点

图像的内容是像素整体呈现出的结果,和个别像素的值没有直接关联,难以遵循具体的规则设计算法。

机器学习的局限

  1. 机器学习算法善于处理低维、分布相对简单的数据;
  2. 图像数据在几十万维的空间中以复杂的方式“缠绕”在一起,常规的机器学习算法难以处理这种复杂数据分布。

卷积神经网络

AlexNet

  1. 第一个成功实现大规模图像的模型;
  2. 5个卷积层,3个全连接层,共有60M个可学习的参数;
  3. 使用ReLU激活函数,大幅提高收敛速度。

VGG

  1. 3x3卷积配合1像素的边界填充,维持空间分辨率;
  2. 每个几层倍增通道数,减半分辨率,生成1/2、1/4尺度的更高抽象层级特征;
  3. 将大尺寸的卷积拆解为多层3x3的卷积。相同的感受野,更少的参数量,更多的层数和表达能力。

GoogLeNet

  1. 使用Inception模块堆叠形成;
  2. 最后的分类仅使用单层全连接层,可节省大量参数。

ResNet

难题:模型层数增加到一定程度后,分类正确率不增反降;
猜想:虽然深层网络有潜力达到更高的精度,但常规的优化算法难以找到这个更优的模型,因此,可以让新增加的卷积层拟合一个近似恒等映射,恰好可以让浅层网络变好一点。
解决方案:残差建模,让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习;梯度可以直接回传到浅层网络监督浅层网络的学习;没有引入额外参数,让参数更有效贡献到最终的模型中。

你可能感兴趣的:(计算机视觉)