章节三 图像处理

  1. 点算子(不借用邻域信息)
    • 像素变换:在离散的图像信息中有g(x,y)=h(f(x,y));其中f(x,y)是像素点在(x,y)出的灰度值。常用的两个点算子:
      •  g(x)=a*f(x)+b,这个算子中参数a和b分别称作增益参数和偏差参数,分别用来控制图像的对比度和亮度。同样增益值和偏差参数可以随着空间位置的不同而改变,即:g(x)=a(x)f(x)+b(x);
      • 对于两幅图像的淡入淡出效果:g(x)=(1-a)f(x)+af(x) 
    •  伽马校正是图像预处理中的一个经常使用的非线性算子,作用是可以去除辐射量和量化的像素值之间的非线性映射,对于大多数摄像机采用的伽马滤波值为2.2. 彩色变换:灰度图转彩色图的变换操作 合成与抠图:C=(1-a)B+a*F;其中的a表示的是透明度,B表示的是背景,a的大小为0~1之间的浮点数 直方图均衡化:
  • 之前提到过可以通过改变亮度和对比增益来控制显示,如何自动的调整显示呢?这里采用一种方法:找到图像中最亮和最暗的像素值,将它们映射到纯黑和纯白。另一中方法是寻找所有像素平均值,然后扩展范围以达到尽量充满可显示的值。
  • 什么是直方图均衡化:寻找一个映射函数f(I),经过映射后直方图是平坦的,即在显示上是比较缓和,但是这样存在的潜在问题是暗区域的噪声会被放大,变得可见。
  • 局部自适应直方图均衡化:当图像很大时,分块处理,但是在分块的边界会出现边界亮度不连续的“分块效应”,解决办法是使用移动窗口(这是非线性的领域操作)。更有效的办法是先分成不重叠的块,对每块进行均衡化,然后对块与块之间的转换函数进行平滑插值,这就是自适应直方图均衡化

线性滤波(利用邻域的像素信息决定当前像素点的最终值

  1. 可分离的滤波:对于每一次卷积操作,每个像素值需要K的平方次的计算(K是卷积和的大小)是很多的,因此一般采用:先利用一维行向量进行卷积,接着用一维列向量进行卷积,一共是2K次卷积操作,如果一个卷积核是可以这样计算,则称其是可分离的;其中K是核函数,v是垂直核,h是水平核,可以提高计算效率。因此卷积核设计常常考虑了其可分离性;在判断一个核函数是否是可以分离的办法是对矩阵K进行奇异值分解(SVD),当只有一个奇异值是非零值时,这个核函数是可以分离的。
  2. 线性滤波示例:
    1. 最简单的滤波器是移动平均或者方框滤波器,将核中的均值作为输出。
    2. 模糊核函数和低通核函数(高斯核,移动平均核)的作用是通过较低频率的信号而衰弱较高频率的信号)
    3. sobel算子:由tent滤波器和水平的中心差分构成的一个可以分离的组合,这种滤波器可以有效的突出滤波边缘。
  3. 带通和导向滤波器
    1. sobel算子和角点算子都是带通和带方向的滤波器,构造更精细的核:
      1. 用一个高斯滤波器平滑图像
      2. 再采用一阶或者二阶导数,这就是称作“带通滤波器”,可以滤除高频和低频,下图的算子称作laplacian算子
      3. 上诉的两个步骤等价于直接使用LOG(laplacian of Gaussian)l滤波器与原图像卷积。
      4. 具有很好的尺度空间特性(导向滤波器即是使用方向导数构成的滤波器,越是高阶的滤波器在对边缘相应上就是越出色)
    2. 区域求和表(积分图像)
      1. 定义:区域和是指一定区域内所有像素的值的和在下图中可以看出第一个是原图,第三个是区域求和表。
      2. 2004年,人脸检测利用区域求和表来计算简单的多尺度的底层特征。特征由相邻的带有正值和负值的矩形组成,称作“方框型小波”
    3. 递归滤波器
      1. 定义:输出值取决于前一个滤波器的输出值,区域求和的增量公式就是一个

更多的邻域算子

  1. 非线性滤波(线性滤波器即是每个像素的输出值是一些像素的加权值)
    1. 中值滤波
      1. 定义:选取每个滤波器的中位数作为输出
      2. 作用:消除很极端的噪声点,尤其是椒盐噪声
      3. 不足:计算速度代价和由于中值滤波只选择一个像素作为输出像素,很难去除规则的高斯噪声,这就得采用α-截尾均值滤波(去除掉百分率为α的最小值和最大值后剩下的像素的均值)
    2. 双边滤波器
      1. 思想:前文所说α-截尾是抑制固定百分比像素,双边滤波的思想精髓是抑制和中心像素差别较大的值。
      2. 输出像素的值依赖于领域像素的值的加权组合。其中权重系数w(i,j,k,l)取决于定义域核和值域核,是二者的乘积。
      3. 迭代自适应平滑和各向异性扩散
  2. 形态学
    1. 简介:使用在二值图像处理当中
    2. 标准操作
  3. 距离变换
    1. 二值图像的距离变换
      1. 定义:距离变换D(i,j)的定义如下:其含义是此像素与最邻近的背景像素(值为0)的距离。这里的距离采用城街距离或者欧式距离,两种距离的距离变换是不一样的。
  4. 连通量
    1. 定义:具有相同的输入值的邻接像素的区域
    2. 把一张图像分成多个联通量后的操作后再统计其统计量是很有用的,包括有面积、周长、质心、二阶距(可以得到长轴和短轴的方向和长度)

傅里叶变换

  1. 简介
    1. 作用:分析不同滤波器的频率特征
    2. 各种性质:信号与系统同
  2. 傅里叶变换对
    1. 一些特殊的信号的傅里叶变换对
    2. 图像处理常用的离散核的傅里叶变换(下面的都是可分离的离散核的表达形式)
  3. 二维傅里叶变换
    1. 定义:这里不明确指出是水平还是垂直频率Wx或者Wy,构造频率为(Wx,Wy)的有方向的正弦曲线:这时在连续域的二维傅里叶变换为同样在离散域中有如下公式,其中M和N分别代表了图像的高度和宽度。
    2. 性质:一维的所有傅里叶变换的性质都可以运用到二维,区别是用2D向量(x,y)代替x,用向量内积代替乘法。
  4. 维纳滤波
    1. 高斯随机噪声图像:每个像素值的来源都是均值为0,方差分布为(WX,WY)的高斯函数,然后再对他进行FFT逆变换。
    2. 定义:假定图像源于一个相关的高斯噪声随机场,并且与一个测量过程的统计模型相结合,便可以构造出一个最优的复原滤波器,这个滤波器常常称作为“维纳滤波”。
    3. 推导:待补充
  5. 离散余弦变换
    1. 简介:DCT是傅里叶变换的一种,适合以块为单位的图像压缩。这里只介绍图像的二维离散余弦变换
    2. 图像的二维离散变换
      1. 与一维的有限长离散非周期信号存在傅里叶变换(DFT)一样,图像作为一个二维离散信号同样存在着二维离散变换(注意这里是介绍一个通用的概念,二维离散变换,包括了DFT、DCT等多种变换在内的一种通式写法),其通式可以表达为
      2. 二维变换的可分性和对称性:
      3. DCT是DFT的一种形式。所谓“余弦变换”,是在DTFT傅立叶级数展开式中,如果被展开的函数是实偶函数,那么其傅立叶级数中只包含余弦项,再将其离散化(DFT)可导出余弦变换,因此称之为离散余弦变换(DCT)。其实DCT属于DFT的一个子集。DCT用于语音和图像处理比较多。

金字塔与小波

  1. 简介:作用是改变分辨率,改变图像的大小。在搜寻人脸的时候一般需要先对图片生成一系列的图片金字塔,以便做到人脸的搜索。
  2. 插值
    1. 作用:提高图片的分辨率
    2. 插值核
    3. 窗sinc函数通常认为是品质最高的插值器,可以保留低分辨率图像的细节也可以避免混叠现象。( 所谓混叠,即高于采样频率一半的高频信号被映射到信号的低频部分,与原有低频信号叠加,对信号的完整性和准确性产生影响。
  3. 降采样:
    1. 作用:降低图像的分辨率
    2. 平滑核
  4. 多分辨率表达
    1. 图像金字塔:可以加速由粗到精的搜索算法,
    2. 拉普拉斯金字塔:
      1. 建立过程:首先对一幅低分辨率的图像进行插值得到原图像的一个重建的低通版本,从原图中减去这个低通版本得到带通拉普拉斯图像,得到的拉普拉斯图像加上基础级别的高斯足以精确重建原始图像。
  5. 小波
    1. 简介:小波是在空间域和频域都定位一个信号的滤波器,而且是在不同层次的尺度上定义的。在计算机视觉领域用于多分辨率集合处理、多尺度有向滤波和去燥
    2. 与图像金字塔的异同:二者都是将一幅图像分解为空间和频率内的多分辨率描述。但是传统金字塔分解会使用比原图更多的像素来描述图像分解,小波提供一种紧致框架,保持分解图像与原图像大小一致,方向选择性更加。
    3. 二维小波的构造:有点难,待补充
  6. 应用:图像融合

几何变换

  1. 简介:图像更加一般的操作,例如旋转和常规的卷绕。g(x)=h(f(x))
  2. 参数化变换:
    1. 在2D的变换当中有下图:具体的理解查看博客https://blog.csdn.net/chaolei3/article/details/79531140
    2. 前向卷绕算法:
      1. 解释:对于需要得到几何变换后的图像的像素值,我们可以如下的操作:
      2. 出现的问题:当目标位置不是整数的时候,就不能进行和好的定位,这时候也许可以采取近似到最近的整数坐标点的位置,但是这样会出现的问题是会产生一定的混叠,失去高分辨率细节。还有可能在目标的图像上有的点还没有涉及到像素值,因此可能产生空洞。
    3. 反向卷绕算法
      1. 解释:用于解决上诉的前向卷绕算法的弊端
      2. 与前向卷绕对比:以目标点为导向的重采样,不会再出现空洞的问题
    4. 为了防止混叠,我们需要一个滤波器对图像进行预滤波处理,这个滤波器的频率响应为最后想要的频谱变换后的投影,但是它是不可以分离的,因此下面介绍的是这个滤波器的近似
      1. MIP映射
        1. 介绍:一个标准的MIP映射是一个标准的图像金字塔,每层用一个高质量滤波器进行预滤波。
      2. 滤波过程:待补充
      3. 椭圆带权平均
      4. 各向异性滤波:由图像学硬件GPU实现
      5. 多通变换:想要在卷绕同时不产生国度的模糊和混叠,最优的方法是在每一个像素带你用一个理想低通滤波器自适应的预滤波图像
    5. 基于网络的卷绕
      1. 简介:图像在不同的部分需要不同的数量的运动,如下图所示章节三 图像处理_第1张图片

  3. 应用:基于特征的变形
    1. 两幅图像之间的卷绕形成无缝变形

全局优化

  1. 简介:在对图像进行卷积前先用一些优化准则明确表达想要变换的目标,再找到或者推断出最符合这个准则的解决办法
  2. 两种方法
    1. 正则化(变分法):(构造出一个描述解之特性的连续全局能量函数,再用稀疏线性系统或者相关迭代方法找到一个最小能量解)
      1. 简介:提出原因是试图用模型来拟合严重欠约束解空间的数据;如下图所展示的问题(在一个二维平面上凸起有九个点,通过一个平滑的平面去拟合如图B,但是当数据发生一些细微的变化时就可能平面发生很大的变化,所以这是一个病态的问题)章节三 图像处理_第2张图片
      • 变分法来源:为了找到平滑解的含义,我们在解空间上定义了一个范数,对于一维的函数,我们对其一阶导数或者二阶导数的平方进行积分\varepsilon =\int f$_{x}$^{2}$$(x)dx(这里只写出来了一阶导数的平方的积分),这相当于把函数映射到一个标量上,是一种能量泛函的样例;
      • 在二维的情况下,对应的泛函为下图,分别是一阶和二阶的。章节三 图像处理_第3张图片
      • 鲁棒正则化
  3. 马尔科夫随机场
    1. 引入:上文讲到可以使用正则化首先得到一个表示图像能量的函数,再求得其最小值,得到最小能量函数的表达式,再然后得到一个稀疏矩阵,具体作用是可以用来形式化和解决多种底层计算机视觉问题。一个可以替代的方法就是贝叶斯模型,过程是对噪声图像形成过程和解空间上假设一个统计鲜艳模型分别进行建模。
    2. 贝叶斯建模对正则化的好处:可以统计的进行建模,使我们可以尽可能的获取信息而不是猜测权重,先验概率的分布可以通过案例的学习得到
      1. 贝叶斯规则:对这个式子左右分别取对数有可以理解成给出一个测量值y,为了找到最可能的解x,我们简单的最小化这个负对数似然度,可以把这个想做一个能量的相加:
      2. 模型:正则化问题的能量最小化就是等价于一个MRF中进行的最大后验推断章节三 图像处理_第4张图片
      3. 二值马尔科夫随机场
        1. 引入:数据惩罚项作用是为了反映扫描图像和最终图像的一致性,光滑惩罚项用来反映领域像素间的一致性,如果公式表示能量的话,可以采用“上下文分类”的方法找到最小的能量值,这是进行梯度下降,但是这种方法容易到局部最优,一般在过程中加入一些随机因素,成为“随机梯度下降”,但是在视觉领域更好的办法是把能量最小化问题重定义为一个最大流/最小割的图优化算法,称作“图割”;
      4. 顺序值的马尔科夫随机场
        1.  

 

 

你可能感兴趣的:(SLAM-14讲)