通用视觉框架OpenMMLab图像分类与基础视觉模型

本文是基于AI实战营第二课的学习笔记

什么是图像分类?

给定一张图片,识别图像中的物体是什么

问题的数学表示

图像是像素构成的数组: ∈ ℝ××3

对类别进行编号:香蕉→1,苹果→2,橘子→3 等等,得到类别 ∈ {1, … ,}, 为类别总数

图像分类问题:构建一个可计算实现的函数 : ℝ××3 → {1, … ,},且预测结果符合人类认知

通用视觉框架OpenMMLab图像分类与基础视觉模型_第1张图片

机器学习的局限

机器学习算法善于处理低维、分布相对简单的数据

图像数据在几十万维的空间中以复杂的方式"缠绕"在一起 常规的机器学习算法难以处理这种复杂数据分布

传统方法:设计图像特征 (1990s~2000s)

方向梯度直方图(Histogram of Oriented Gradients) 在局部区域统计像素梯度的方向的分布,将图像映射成一 个相对低维的特征向量,同时保留足够识别物体的信息

好的特征: 1. 极大简化数据表达 2. 保留内容相关信息 机器学习可以处理图像分类问题

你可能感兴趣的:(人工智能,分类,深度学习,计算机视觉)