视角变化:将一张图像经过旋转、对称变换后,模型是否还能正确识别出
光照变化:光线的明暗,灯光的位置
尺度变化: 一个 物体缩小或放大形态变换:同一物体,但不同姿态
背景混淆干扰:具有相同花色的不同物体
遮挡情况:
类内物体的外观差异:
图像预处理包含:
RGB颜色空间:加法混合、彩色显示器;包含3个通道:Red通道、Green通道、Blue通道。一个像素颜色值:(b,g,r)。取值范围有两种:[0, 255]和[0.0, 1.0]
CMY(K)颜色空间:减法混色、印刷;包含4个通道:Cyan通道、Magenta通道、yellow通道、key通道;一个像素颜色值(c, m, y, k);取值范围:[0, 255]和[0.0, 1.0]
HSY颜色空间为:人类视觉概念、画家配色;包含3个通道:H/Hue(色调、颜色种类)、S/Saturation(饱和度,颜色 的纯度)、V/Value(明度、颜色明亮度);一个像素颜色值为(h, s, v);取值范围:[0, 255]和[0.0, 1.0]
滤波/卷积:在每个图片位置 ( x , y ) (x, y) (x,y)上进行基于领域的函数计算。
滤波函数 → \to →权重相加,包含卷积核(卷积模板);滤波器(滤波模板);扫描窗
h [ x , y ] = ∑ k , l f [ k , l ] I [ x + k , y + l ] h[x, y] = \sum_{k, l} f[k, l] I[x + k, y + l] h[x,y]=k,l∑f[k,l]I[x+k,y+l]
其中: h [ x , y ] h[x, y] h[x,y]为滤波结果; f [ k , l ] f[k, l] f[k,l]为滤波函数,即卷积核中在 ( k , l ) (k, l) (k,l)上的权重参数; I [ x + k , y + l ] I[x + k, y + l] I[x+k,y+l]为像素领域值,即与 f [ k , l ] f[k, l] f[k,l]相对应的图片像素值; x , y x, y x,y为像素在图片中的位置/坐标; k , l k, l k,l为卷积核中的位置/坐标(卷积核的中心点坐标为 ( 0 , 0 ) (0, 0) (0,0))
边界填充(padding):可获得同尺寸输出。
边界填充类型有:补零、边界复制、镜像、块复制。
不同功能需要的定义不同的函数:
平滑 中值滤波/卷积:奇数尺寸的卷积核(33,55, 77,2n1 * 2n-1)
即将卷积域内的像素值从小到大排序,并取中间值作为卷积输出。平滑中值滤波/卷积可有效去除椒盐噪声
平滑 高斯滤波/卷积:采用奇数尺寸的卷积核,模拟人眼只关注中心区域,可有效去除高斯噪声。
G σ = 1 2 π σ 2 e − x 2 + y 2 2 σ 2 G_\sigma = \frac{1}{2 \pi \sigma^2} e^{-\frac{x^2 + y^2}{2 \sigma^2}} Gσ=2πσ21e−2σ2x2+y2
分解特性:级联高斯。将2D卷积拆分成两个相同的1D卷积:行卷积、列卷积。
作用:降低计算量,1D卷积只进行2K次计算,而2D卷积需要进行K*K次计算。
G σ = 1 2 π σ 2 e − x 2 + y 2 2 σ 2 = ( 1 2 π σ e − x 2 2 σ 2 ) ( 1 2 π σ e − y 2 2 σ 2 ) G_\sigma = \frac{1}{2 \pi \sigma^2} e^{-\frac{x^2 + y^2}{2 \sigma^2}} = (\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{x^2}{2 \sigma^2}})(\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{y^2}{2 \sigma^2}}) Gσ=2πσ21e−2σ2x2+y2=(2πσ1e−2σ2x2)(2πσ1e−2σ2y2)
梯度 Prewitt滤波/卷积
高斯金字塔:先进行图像平滑,再进行降采样;根据降采样率,得到一系列尺度逐渐减小的图像。
操作:n次(高斯卷积 → \to → 2倍降采样) → \to → n层金字塔
目的:捕捉不同尺寸的物体
高斯金字塔本质为信号的多尺度表示法