OpenMMLab寒假AI实战营(CV)--day2

图像分类与基础视觉模型

问题的数学表示

图像是像素构成的数组: x ∈ R H × w × 3 x\in \mathbb{R} ^{H\times w\times 3} xRH×w×3
H和w表示像素的长和宽,3表示通道数(即RGB)

视觉任务的难点

图像的内容是像素整体呈现出的结果,个个别像素的值没有直接关联,难以遵循具体的规则设计算法

让机器从数据中学习

  1. 收集大量图像数据
  2. 定义模型:通常为含参变量的函数
  3. 训练:寻找最佳参数,使得模型在训练集上达到最高正确率
  4. 预测:对于新图像,用训练好的模型预测其类别

机器学习的局限性

机器学习善于处理低维、分布相对简单的数据;图像数据在几十万维的空间中以复杂的形式“缠绕”在一起,常规的机器学习算法难以处理这种复杂数据分布

传统方法:设计图像特征

OpenMMLab寒假AI实战营(CV)--day2_第1张图片
(图片来源: https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0092137)

特征工程的天花板

OpenMMLab寒假AI实战营(CV)--day2_第2张图片
(Lin, Yuanqing, et al. “Large-scale image classification: fast feature extraction and svm training.” CVPR 2011. IEEE, 2011)
(图片来源:通用视觉框架OpenMMLab图像分类与基础视觉模型–王若晖PPT)

从特征工程到特征学习

OpenMMLab寒假AI实战营(CV)--day2_第3张图片
(图片来源:通用视觉框架OpenMMLab图像分类与基础视觉模型–王若晖PPT)

层次化特征的实现方式

OpenMMLab寒假AI实战营(CV)--day2_第4张图片

(图片来源:通用视觉框架OpenMMLab图像分类与基础视觉模型–王若晖PPT)

卷积神经网络

AlexNet(2012)

OpenMMLab寒假AI实战营(CV)--day2_第5张图片
(图片出处:https://towardsdatascience.com/the-w3h-of-alexnet-vggnet-resnet-and-inception-7baaaecccc96
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25: 1097-1105.)

Going Deeper

VGG-19、GoogLeNet

残差学习的基本思路

OpenMMLab寒假AI实战营(CV)--day2_第6张图片
(图片来源:通用视觉框架OpenMMLab图像分类与基础视觉模型–王若晖PPT)

轻量化卷积神经网络

  • 降低模型参数量和计算量
  • 使用不同大小的卷积核
  • 可分离卷积(逐层卷积和逐点卷积)
  • 分组卷积

你可能感兴趣的:(人工智能,算法)