数字图像处理(仅以自己现有知识和能力进行了一点点总结,图片都是网课截图)
mooc课程 数字图像处理 武汉大学 贾永红(第六次开课)
图像:对客观对象的一种相似性的,生动的写真或描述
伽马射线成像
x射线成像
紫外线成像
可见光与红外波段成像
微波成像
无线电波成像
其他成像模式:超声波成像,电子显微镜方法,合成成像
分类:
图像处理:对图像进行一系列操作,达到预期目的。
模拟图像处理 借助光学设备
数字图像处理 借助计算机 (计算机图像处理)
研究图像的获取,传输,存储,变换,显示,理解和综合利用
按抽象程度不同分为三个层次:
数字图像处理系统:
图像获取装置:图像采集,摄像机,扫描仪(光敏感器件和模/数转化装置)
图像显示:软拷贝,硬拷贝。(取决于是否将图像保存下来,例:投影是软拷贝,打印是硬拷贝)
图像存储:各种东西。我感觉没啥用。
图像通讯:把图像传送到远方终端,静止图像通讯,活动图像通讯。
主机:
微型图像处理系统:微机和工作站
大型图像处理系统:大型计算机
用矩阵描述——(左上角为f(0,0),右下角为f(M,N))
根据图像的灰度级数分为:黑白图像,灰度图像和彩色图像:
两个步骤:采样,量化
数字化器必须能够将图像划分为若干像素并分别给他们地址,能够度量每一位像素的灰度并量化为整数,能够将这些整数写入存储设备。
灰度直方图是反映一副图像中各灰度级像素出现的频率与灰度级的关系,以灰度级为横坐标,频率为纵坐标,绘制频率同灰度级的关系图就是一副灰度图像的直方图。反映了图像灰度分布的状况。
灰度直方图性质:
直方图应用:判断图像量化是否恰当;确定图像二值化的阈值(直方图具有二峰性的灰度图像)。
数字图像处理算法,是利用数据原理和计算机程序对数字图像进行处理的基础。
下面介绍几种基本功能和算法形式:
局部处理:输出像素由输入图像对应位置的领域内的像素值确定。例:卷积运算
领域:像素周围的像素构成的集合(范围可以取合适的整数)叫做该像素的领域。
点处理:输出像素由输入图像对应位置的像素值确定。
大局处理:输出像素由输入图像大范围或全部像素的值确定。
跟踪处理:选择满足适当条件的像素作为起始像素,检查输入图像和已得到的输出结果,求出下一步应该处理的像素,进行规定的处理,然后决定是继续处理下面的像素,还是终止处理。
特点:目标像素依赖于前一个像素的位置和处理条件。
窗口处理和模板处理:这两者是仅对画面中特点的部分进行处理的代表。
窗口处理:单独对图像中选定的矩形区域内的像素进行处理。
模板:任意形状的区域。
模板平面:一个和处理图像相同大小的二维数组,用来存储模板信息。一般是一副二值图像。
模板处理:参照模板平面对图像进行某种操作。
串行处理和并行处理:
串行处理:后一像素输出结果依赖于前面像素处理的结果,并且只能依次处理各像素而不能同时对各像素进行相同处理的一种处理形式。
特点:处理算法要按一定顺序进行。
并行处理:对图像内各像素同时进行相同形式运算的一种处理形式。
特点:各输出值可以独立进行运算。
图像的数据结构和文件结构是指数字图像在计算机中存储的组织方式,是计算机算法应用于图像处理的数据基础。
图像像素灰度值的存储方式。常用方式是将图像各像素灰度值用一维或二维数组相应的各元素加以存储。
也有其他存储方式:
组合方式:一个字长存放多个像素灰度值。
特点:节省内存,计算量增加,处理程序复杂;使用很少。
比特面方式:将所有像素灰度的相同比特位用一个二维数组表示,形成比特面。
特点:能充分利用内存空间,便于进行比特面之间的计算,但对灰度图像处理耗时较多。
分层结构:从原始图像开始依次构成像素数愈来愈少的系列图像,使数据表示具有分层性。例:锥形(金字塔)结构。
锥形结构:对于2k×2k个像素形成的图像,依次构成分辨率下降的k+1幅图像的层次集合。
构建方法:从原图像开始,依次产生行列数为原来1/2的图像,将原图像2×2像素的灰度的平均值作为生成图像的像素值。
特点:可以先对低分辨率图像进行处理,然后更具需要对高分辨率图像进行处理,可以提高效率。
树结构:对一副二值图像的行,列接连不断地二等分,如果图像中全体像素都具有相同地特征时,这一部分不再分割。
特点:可以把图像用4叉树表示。用于特征提取和信息压缩等。
多重图像数据存储:对于彩色图像或多波段图像而言,每个像素包括着多个波段的信息。
存储方式有三种:
1.逐波段存储,分波段处理时采用。
2.逐行存储,逐行扫描记录设备采用。
3.逐像素存储,用于分类。
按不同的方式进行组织或存储数字图像像素的灰度,就得到不同格式的图像文件。不同格式有不同的扩展名。
常见扩展名有:RAW,BMP,TGA,PCX,GIF,TIFF。
这些格式大致都包含下列特征:
1.描述图像的高度,宽度以及各种物理特征的数据
2.彩色定义
3.描述图像的位图数据体
下面对RAW,BMP格式作详细介绍:
图像傅里叶变换是图像变换的一种方式。
图像变换:通过某种变换关系,将空间图像用另一种方式来表达和表示。是对图像的另外一种表达。
图像变换的目的:
图像变换通常是一种二维正交变换,一般要求:
正交变换广泛应用于图像增强,图像恢复,特征提取,图像压缩编码,形状分析等。
傅里叶变换:
图像增强:采用一系列技术改善图像的视觉效果,或将图像转化成一种更合适于人或机器进行分析和处理的形式。
主要方法(按照图像的作用域):
空间域增强:直接对图像各像素进行处理;
频率域增强:对图像经傅里叶变换后的频谱成分进行处理,然后逆傅里叶变换得到所需要的图像。
图像增强的目的:
1.改善视觉效果。
2.突出图像中感兴趣的信息,抑制不重要的信息,来提高图像的使用价值。
3.转换为更适合于人或机器分析处理的形式。
4.增强后的图像不一定保真。
灰度变换法:线性变换;对数变换;指数变换;
灰度变换是图像增强的重要手段之一,通过调整图像的灰度动态范围或调整图像的对比度对图像进行调整。
对比度:通俗讲为明暗的对比强度;
线性变换:生成图像灰度值为原来的线性变化(曝光不足或过度);
分段线性变换:将不同段的灰度值经不同的线性函数生成生成图像(只对图像中部分目标感兴趣,这时候需要突出感兴趣目标所在的灰度区间,抑制不感兴趣的灰度区间);
非线性灰度变换:使用非线性函数作为映射函数,如对数变换和指数变换
对数变换:生成图像灰度值为原来的对数变化(与人的视觉匹配);
指数变换:生成图像灰度值为原来的指数变化;
直方图调整法:直方图均衡化;直方图规定化;
图像平滑是通过积分过程使图像边缘模糊,而图像锐化是通过微分使图像边缘突出,清晰;
图像平滑也称为图像去噪,是为了抑制图像噪声改善图像质量进行的处理。这种噪声可能是在图像获取和传输等过程中造成的,噪声会使图像恶化,质量下降,图像模糊,特征淹没,对图像分析很不利。
领域平均法;
超限像素平滑法;
有选择保边缘平滑法;
中值滤波法;
领域平均法:假设图像由许多灰度恒定的小块组成,相邻的像素之间存在很高的空间相关性,而噪声则是统计独立的。所以可以用领域内各像素的灰度平均值代替像素原来的灰度值,实现图像的平滑。
领域平均法相当于卷积的特例;
特点:算法简单,但是降低噪声的同时会使图像产生模糊,特别是在边缘处和细节处,且领域越大,去噪能力增强的同时模糊程度越严重;
超限像素平滑法:对领域平均法作了改进,将原像素与邻域平均法所得像素作差的绝对值运算,所得结果与选定阈值比较,来决定新像素的灰度值。
特点:对抑制椒盐噪声比较有效;对保护微小灰度差的细节和纹理也比较有效;
有选择保边缘平滑法:对任意像素的5*5领域,采用9个掩模,其中包括一个3*3正方形,四个5边形和四个6边形。计算各个掩模的均值和方差,对方差进行排序,最小方差所对应的掩模区的灰度均值就是像素的输出。
特点:用方差来测度区域的灰度均匀性,如果区域内含有尖锐的边缘,它的灰度方差就会很大,如果不含边缘或灰度均匀的区域,方差就小,所以最小方差所对应的区域就是灰度最均匀区域,这种平滑方法既能消除噪声,又不会破坏区域边界的细节;
中值滤波法:(这个课好像被吞了……以下是百度资料)是一种非线性滤波器,也是一种统计排序滤波器,每一像素点的灰度值为某领域窗口内的所有像素点灰度值的中值;
特点:对孤立的噪声像素即椒盐噪声,脉冲噪声具有良好的滤波效果,可以保持图像的边缘特性;
图像锐化目的是增强图像的边缘或轮廓。
对于离散图像处理来说,常用的是大小,称为梯度;
而上图公式2中的一阶偏导数用一阶差分近似的表示(如下图);
除了梯度算子,还有Roberts算子,Prewitt算子和Sobel算子也可计算梯度,增强边缘。
Prewitt算子:加大了边缘增强算子的模板大小,由2×2扩大到3×3,目的是在锐化边缘的同时减少噪声的影响。
Sobel算子:在Prewitt算子基础上,对4-领域采用加权的方法计算差分。
梯度法得到图像的输出方式:
特点:在灰度均匀的区域内或斜坡中间值为0,增强图像上像元灰度不变;在斜坡底或低灰度侧形成“下冲”;而在斜坡顶或高灰度侧形成“上冲”。
基本原理:选择合适的滤波器H对原图像进行傅里叶变换后F的频谱成分进行处理,然后经逆傅里叶变换的到增强后的图像g。
一般过程:
对于图像来讲,噪声主要在高频部分,所以要用低通滤波器来抑制图像的高频成分,再经过逆傅里叶变化得到滤波图像,以达到平滑图像的目的。
常用的频率域低通滤波器:
人的视觉特性:
分辨的灰度级介于十几到二十几之间;
彩色分辨能力可达到灰度分辨能力的百倍以上;
伪彩色增强技术:是把黑白图像的各个不同灰度级按照线性或非线性的映射函数变换成不同的彩色,得到一副彩色图像的技术。
伪彩色增强的方法:密度分割法,灰度级-彩色变换 等;
下为三种变换的函数(从左至右分别为 红变换,绿变换,蓝变换)
成像过程中,不同因素的影响导致影像质量下降,导致图像退化。
图像退化的数学模型
输入图像f(x,y)经过某个退化系统后输出的是一副退化的图像。为了讨论方便,把噪声引起的退化即噪声对图像的影响一般作为加性噪声考虑。原始图像f(x,y)经过一个退化算子或退化系统h(x,y)的作用,再和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。
通常我们假设图像经过的退化系统是线性时不变系统(这里注意是线性 移 不变系统)
用线性移不变系统模型来描述图像退化的原因:
图像复原:尽可能恢复退化图像的本来面目。沿图像退化的逆过程进行处理。
图像复原流程:
典型的图像复原是根据图像退化的先验知识,建立退化现象的数学模型,再根据模型进行反向的推演运算,以恢复原来的景物图像。因此,图像复原的关键是知道图像退化的过程,即图像退化模型。并据此采用相反的过程求得原始图像。
图像增强和图像复原的区别:
图像复原可以看成是图像的逆过程(如下图):
逆滤波复原基本原理:
将1/H(u,v)称为逆滤波器;
噪声不存在时:
F(u,v) = G(u,v)/H(u,v)
过程为 用退化函数 除 退化图像的傅里叶变换,得到退化前图像的傅里叶变换的估计。被称为直接逆滤波图像复原。
噪声存在时:
F’(u,v) = F(u,v) + N(u,v)/H(u,v)
即使知道退化函数,也不能准确的复原图像,因为N(n,v)未知,更糟糕的情况是:如果退化函数是零或是非常小的值时,则N(u,v)/H(u,v)很大,很容易支配F(u,v)的估计值,会对逆滤波复原的图像产生很大的影响。
解决方法:限制滤波的频率,从频谱图可知,高频分量(噪声)的值接近0,而H(0,0)在频率域中通常是H(u,v)的最高值。因此可能缩短滤波半径,使通过的频率解决原点,减少遇到零值的概率。
逆滤波复原基本步骤:
目的:在诸如数字识别,车牌识别,条形码识别,遥感影像信息提取等应用场景中,特别是基于日常便携图像采集设备的应用场景中,通常图形采集设备采集的图像,不可避免地存在运动模糊,畸变失真退化等成像问题。需要对这样的图像进行几何校正
几何畸变:
几何畸变可分为线性几何畸变和非线性几何畸变:
通常情况下:
线性几何畸变:缩放,平移。旋转等畸变。
非线性几何畸变:是由成像面和物平面的倾斜,物平面本身的弯曲,光学系统的像素差造成的畸变,表现为物体与实际的成像各部分比例失衡。
常见几何畸变退化问题的复原大多是:基于成像系统;
优点是一点确立成像模型,便可以快速有效地根据模型参数对图像进行几何变换,从而实现复原。同时缺点是,由于面临的图像其成像系统未知且多样化,因此,这种方法不适合于解决一般性无法预知模型的畸变退化。
另外一种方法:多项式变换技术;其实质是利用数值分析的方法求解几何变换方程。
优点是不需要预先知道成像模型,对复杂曲面畸变能够进行校正和复原。缺点是运算量较大,不适宜实时性较高系统,多多项式次数和控制点的选取要求严格。
灰度内插方法及其特点:
双线性内插法是利用待求点四个邻像素的灰度在两个方向上作线性内插。
图像压缩指的是对于图像数据进行编码存储,以减少它的存储空间为目的。本质上就是对图像源数据按一定的规则进行变换和组合,从而达到以尽可能少的代码表示尽可能多的信息。压缩通过编码来实现,或者说编码带来压缩的效果,所以,一般把此项处理称之为压缩编码。
研究背景:
信息传输方式发生了很大改变:通信方式的改变,语言+文字——>语音+文字+图像。通讯对象,人与人,人与机器,机器与机器。
图像传输与存储需要的空间:彩色视频信息,传真数据;
由于通讯方式和通信对象的改变带来的最大问题是:
传输带宽,速度,存储器容量的限制。
图像中的数据冗余的概念:
只要接收端不产生误解,就可以减少承载信息的数据量。
整理图像的描述方法可以达到压缩的目的。
视觉心理冗余,一些信息在一般视觉处理中比其他信息的相对重要程度要小,这种信息就被称为视觉心理冗余。
由于一幅图像存在数据冗余和主观视觉冗余,其压缩方式就是从这两方面着手开展的。
因为有数据的冗余,将图像信息的描述方式改变后,可以压缩掉这些冗余。因为有主观视觉冗余,当忽略一些视觉不太明显的微小差异,可以进行所谓的有损压缩。
压缩的必要性:
一幅模拟图像必须经过脉冲编码调制(PCM——Pulse Code Modulation)才能变成数字图像。(PCM-脉冲调制早期用于语言信号传送).
图像编码的目的:节省存储空间;减少传输时间;利于处理;降低处理成本。
图像压缩分类:
从应用角度分类:禁止图像编码,活动图像编码(针对视频),二值图像编码。
从信息保持程度角度分类:
有损压缩,无损压缩;
从具体的编码技术角度分类:
空域法,变换域法;预测编码,变换编码,统计编码等;
保真度准则:图像品质的核心问题是逼真度问题。经过处理的图像(包括经过压缩编码后的图像)与一个标准图像之间的偏差可以作为图像逼真度(保真度)的度量。这一偏差,包括亮度,色度,分辨率以及某些心理物理学参数。(偏差应在允许的范围内)
编码压缩的性能参数:
如何度量编码方式的优劣(速度,效率,保真度)
冗余大致可分为三类:
编码冗余:符号序列,码字
像素间相关性冗余:帧间像素信息冗余,帧内像素信息冗余。
视觉冗余:人眼对所有视觉信息并不是都具有相同的敏感度;人眼的空间分辨率,时间分辨率;
编码有统计编码,变换编码等;
统计编码:根据图像像素灰值出现的概率的分别特性而进行的压缩编码叫统计编码。
熵与平均码字长度:
统计编码的方法:
行程编码:RLE编码
基本原理:通过改变图像的描述方式,来实现压缩。将一行中颜色值相同的相邻像素用一个计数值和该颜色值来代替。
特点:适合行程较长的图像。
huffman编码(熵编码)
基本原理:为了达到更大的压缩率,提出了一个方法,就是将图像中出现频率较大的像素给一个比较短的编码,将出现频率小的像素给一个比较长的编码。
算法:哈夫曼算法。
预测编码与变换编码压缩:
预测编码:根据“过去”的时刻的像素值。运用一种模型,预测当前的像素值,预测编码通常不直接对信号编码,而是对预测误差进行编码。当预测比较准确,误差较小时,即可达到编码压缩的目的。
原理:对图像的一个像素的离散幅度的真实值,利用其相邻像素的相关性,预测它的下一个像素的可能值,再求两者差,对这种具有预测性质的差值,量化,编码,就可以达到压缩的目的。
预测编码:每行最开始的几个像素无法预测,这些像素需要用其他方式编码,这是采用预测编码所需要的额外操作;
预测系数随着不同的图像不同,但对每幅图像都计算预测系数太麻烦,也不现实,可参考前人得到的数据选择使用,在静止图像压缩的国际标准(JPEG),对这种方法的前置点形式以及预测系数有一推荐值可供参考。
变换编码:图像数据经过正交变换之后,其变换系数具有一定的独立性,(例如,对于FT来说,频谱系数大的变换系数均集中在低频部分,而高频部分的幅值很小,因而可以对低频的变换系数数量化,编码和传输,对高频部分不处理,这样可以达到图像压缩的目的。)
边缘:图像中像素灰度有阶跃变化或屋顶变化的那些像素的集合。常在目标与背景,目标与目标,区域与区域之间,勾画出了目标物体的轮廓,是人们能对各种目标一目了然,是进行图形分析和识别的重要基础。
图像边缘包括了丰富的信息,如边缘的方向,形状,阶跃性质;
具体的边缘检测算子:
梯度算子:
梯度:
为了检测边缘点,选取适当的阈值T,对梯度图像进行二值化。
特点:仅计算相邻像素的灰度值,对噪声比较敏感,无法抑制噪声的影响。
Roberts算子:
与梯度算子类似,计算方向不一致。计算45度方向两个像素的梯度值。
特点:与梯度算子检测边缘的方法类似,对噪声敏感,但效果较梯度算子略好。
Prewitt算子和Sobel算子
prewitt算子
特点:在检测边缘的同时,能抑制噪声的影响。
Sobel算子与Prewitt算子类似,只是采用了带权的计算方法。
特点:对4领域采用带权方法来计算差分,能进一步抑制噪声,但检测的边缘较宽。
拉普拉斯算子
前面的边缘检测算子都是利用边缘点一阶导数的特性。
对于阶跃边缘,其二阶导数在边缘点处出现零交叉,并且边缘点处两边像素的二阶导数符号。
各向同性,线性和位移不变
对细线和孤立点检测效果较好
对噪声的敏感,对噪声有双倍加强作用
不能检测出边的方向
常产生双像素的边缘
由于梯度算子和拉普拉斯算子都对噪声比较敏感,因此一般在用他们检测边缘前要先对图像进行平滑。
先用一种正态分布的高斯函数作为平滑函数对图像进行平滑。
高斯函数:
在该算子中,Δ的选择很重要,Δ小时边缘位置精度高,但边缘细节变化多;Δ大时平滑作用大,但细节损失大;
可以通过判断零交叉点及其两侧像素符号的变化来确定边缘点。边缘点两侧的二阶导数是异号的。
通过比较典型模板的计算值,确定一个点是否在某个方向的线上。
前面的都是阶跃状边缘的检测
而图像上的线化一般属于屋顶状边缘,线化的检测也可以通过模板计算,来确定一个点是否在某个方向的线上。
下面是集中线化模板的例子:
我们可以通过判断R1,R2,R3,R4中的最大值是否大于某一个阈值来检测线化,并且最大值对应的方向就是线化的方向;
Hough变换检测直线只要是针对图像上的边缘点,找出其共线的点集及其直线方程。
图a中一条直线对应图b中一点;
这种线到点的变换就是霍夫变换。
特点:
过粗则直线参数不准确,过细则计算量增加很多,因此,对ρ,θ的量化要兼顾参数数量化精度和计算量,
Hough变换检测直线的抗噪性能强,能将断开的边缘连接起来
Hough变换也可用来检测曲线。
Hough变换检测曲线
对Hough变换扩展后,可以用来检测图像中特定形状的物体,如:圆或椭圆;
一般来说,一幅图像中,相同区域中的像素应该具有相同或相似的属性。而不同区域的像素的属性则不同。
区域分割就是要寻找这样的就有代表性的属性,并利用这类属性进行划分。使就有相同属性的像素归属同一区域,不同属性的像素则归属不同区域
最简单的图像:只有两类区域的图像。
复杂图像:有两类以上区域的图像。
状态法:统计图像的灰度直方图,若其直方图呈双峰,且有明显的谷。将谷所对应的灰度值作为阈值,再按上面的公式进行二值化。
这种方法适合目标和背景的灰度差别比较大,且直方图有明显的谷的情况。
在应用中,有时为了便于阈值的选取,可采用灰度加权的方法产生新的直方图,得到更大的峰谷比。
判断分析法:假设最简单图像f(i,j)的灰度区域为[0 , L - 1],选择一阈值t将图像的像素分为c1,c2两组,其中c1组像素数为w1,
显然,组内方差越小,则组内像素越相似;组间方差越大,则两组的差别越大。因此,组间方差与组内方差的比值越大,则分割效果越好。通过改变t的取值,使组间方差与组内方差的比值最大,则此时t为阈值。
复杂图像分割的步骤:
利用特征空间聚类进行图像分割,可以看成是对阈值分割概念的推广。他将图像空间中的像素用对应的特征空间点表示,然后根据它们在特征空间的聚类情况对特征空间进行图像分割,最后将它们映射回原图像空间,得到分割的结果。
在复杂图像分割方法中,一般要求类别数已知,但实际中我们并没有这些先验知识。这是聚类分类方法就显示出了它的独特优越性。
K-均值聚类方法:
是一种迭代算法,每迭代一次,类中心就刷新一次,经过多次迭代,使类中心趋于稳定为止。
具体步骤:
与阈值分割类似,聚类方法也是一种全局的方法。比边缘检测的方法抗噪强。
一般来说K-均值算法需要预先设定类的数目。实际中,尝使用试探法来确定K。K均值算法的收敛问题一直没有得到理论证明,但在很多情况下,其分类结果并不受初始中心的影响。
前面的基于阈值的图像分割技术,基本上都没有考虑到图像像素空间的连接性,区域增长法则正好相反,它顾及了像素之间的连接性。
基本原理:先把图像分割成若干个小区域,然后比较相邻小区域特征是否相似,若他们足够相似,则作为同一区域合并,以此将特征相似的小区域不断合并,知道不能合并位置,最后形成特征不同的区域。
区域增长根据所用的领域方式和相似性准则的不同,产生各种不同的区域扩张法。可分为:单一型(像素与像素);质心型(像素与区域);混合型(区域与区域);
简单区域的生长方法:以图像的某个像素为生长点比较相邻像素的特性,将特征相似的相邻像素合并为同一个区域。以合并的像素为生长点,继续重复上面的操作,最终形成具有相似特征的像素的最大连通集合。
像素灰度为特征的简单区域增长法的具体步骤:
这种方法简单,但如果区域之间的边缘灰度变化平缓或者是边缘相交于点时,有可能会产生将两个区域合并的情况。
为了克服这个缺点,在上面的步骤二中,可能不是比较相邻像素的灰度而是比较已存在区域的平均灰度,于该区域相邻接的像素的灰度值。这就是下面的质心型区域生长法。
质心型链接操作步骤类似简单区域扩张法,唯一不同的是在上述步骤二的操作中,改为比较已存在区域的像素灰度平均值与该区域邻接的像素灰度值。若差值小于阈值,则合并。缺点是,区域增长的结果与起始像素有关,起始位置不同,则分割结果有差异。
混合型区域生长:把图像分割成小区域,比较相邻的小区域的相似性,相似则合并,直到不能合并为止。
两种混合型区域增长方法:
不依赖于起始点的方法:
假设检验法:根据图像子块内的灰度分布的相似性进行子块合并,最终实现图像的分割。
下面是相似的判断标准,有两种。
其中H1(g)和H2(g)分别为两个相邻子块的累计直方图。
难点在于:子块大小n如何确定?
n太大会使区域形状不自然,会遗漏小的目标。
n太小会使相似性的判断标准(a)和(b)的可靠性会下降,从而导致分割质量差。
根据经验,实际应用中,n一般取5~10。
对于待分割的图像,当事先不知道其区域形状和区域数目的时候,可以采用区域分裂合并方法,该方法也无需预先指定种子点,它是按照某种一致性的准则分裂或者是合并区域。可以先进行分裂运算,然后再进行合并运算。也可以分裂和合并运算同时进行,经过连续的分裂和合并,最后得到图像的精确分割效果。分裂合并法对分割复杂的场景图像比较有效。
分裂合并法是基于四叉树的思想。把原始图像整体作为树根或零层,将图像等分成四块,作为被分裂的第一层。
对于第一层的每一个子块,如果各像素属性一致,则不再等分。
如果属性不一致,则子块须继续分裂成相等的四块,作为第二层。如此循环。
分裂合并操作原则:
合并:当同一层中的四块中的像素满足某一特性的均匀性时,将它们合并为一母块。
分裂:当某一层中的某一子块内像素不满足均匀条件时,将它们分裂成四个子块。
在这里的均匀性可以是灰度的均匀性,也可以是某一种纹理特征的均匀性。
分裂合并法的具体步骤:
一副图像初始分割为多少层?视图像的大小而定,另外,在消失小区时,会给区域的边缘带来一定误差,与前面讲到的一些区域分割方法相比,
算法比较复杂,同时对于复杂图像的分割效果比较好。
在图形处理的研究和应用中,二值图像具有十分重要的地位,现在很多的图像处理系统,就是以二值图像的处理为主。这主要是因为二值图像处理简单,数据量小,处理速度比较快,成本也低。而且二值图像能定义几何学中的各种概念,多值图像也能转化成二值图像。
在二值图像的特征分析中,最基本的概念就是二值图像的连接性,也称连通性和距离。
领域和邻接的概念:对任意的像素(i,j),把像素{(i+p,j+q)}(p,q是适当的整数)叫做像素(i,j)的领域。(前面写过)
像素的连接:
连接成分(连通成分):在二值图像中间,把相互连接的像素集合汇集为一组,于是具有若干个0值的像素和具有若干个1值的像素的组就产生了,
连接性有连接性矛盾
单连接成分;多重连接成分;(判断内部有没有孔)(孤立点是单连接成分)
欧拉数:在二值图像中,1像素连接成分数C减去孔数H的值叫做这幅图像的欧拉数或者示性数。
用E来表示欧拉数 则 E = C -H
对于一个1像素连接成分,1减去这个连接成分中所包含的孔数的差值叫做这个1像素连接成分的欧拉数。
二值图像的欧拉数是所有1像素连接成分的欧拉数之和。
像素的可删除性和连接数:某二值图像上某个像素的值改变后,使整个图像的连接性并不发生改变,即各连接成分既不分离,不结合,孔也不产生,不消失,则这个像素是可删除的。
一个像素的可删除性可用像素的连接数来检查。
对同一图像的像素,在4或8邻接的情况下,该像素的连接数不一定相同。
像素的连接数作为二值图像局部的特征量是很有用的。
像素按连接数Nc§的大小分类:
孤立点:对于1像素p,在4/8邻接的情况下,当其4/8邻接的像素全是0时,像素p称作孤立点,其连接数N~~c~~(p) = 0.
内部点:对于1像素p,在4/8邻接的情况下,当其4/8邻接的像素全是1时,像素p称作内部点,其连接数N~~c~~(p) = 0.
边界点:在1像素中,除了孤立点和内部点以外的点;连接数1<=N~~c~~(p)<=4;当连接数为1时,该点为删除点或端点;当连接数为2时,该点位连接点;当连接数为3时,该点为分支点;;当连接数为4时,该点位交叉点;
背景点:像素值为0的所有像素;
为了从二值图像中准确地提取有关的特征,一般都需要对二值图像进行一些增强处理,这些处理通常称为二值图像连接成分的变形操作。
连接成分的标记:为了区分二值图像中的连接成分,求得连接成分个数,对属于同一个1像素连接成分的所有像素分配相同的编号,而对不同的连接成分分配不同的编号的操作。
膨胀和收缩:
膨胀:把连接成分的边界扩大一层的处理。
收缩:把连接成分的边界点去掉从而缩小一层的处理。
膨胀和收缩的反复使用就可清楚二值图像中的小成分或孔
膨胀和收缩是数学形态学中最基本的变换,而数学形态学的应用几乎涵盖了图像处理的所有领域。
线图形化:将给定的图形变成线图形的处理,在二值图像处理中是非常重要的。
距离变换和骨架化处理:把任意图形转换成线图形的最有效方法之一。是求二值图像中1像素到0像素的最短距离的一种处理。
在经过了距离变换得到的图像中,最大值点的集合就形成了区域P的骨架。
骨架反映了原始图形的形状。给定距离和骨架就能恢复该图形,但恢复的图像不能保证原始图形的连接性。距离变换和骨架化处理常用于图形压缩,提取图形幅宽和形状特征等。
细化:从二值图像中提取线宽为像素的中心线的操作。
从处理方法上分为顺序处理和并行处理,从连接性上分为8-邻接细化和4-邻接细化。
希尔迪奇(Hilditch)方法:8-邻接细化中一种
细化步骤如下:
6个条件:
对于像素值为 - 1的全部像素,若其像素值为0,然后反复进行步骤一的操作,直到像素值为-1的像素不存在时结束线的细化处理。这时得到宽度为1的线图形。
其他细化方法:掩模细化,内接圆细化。
细化方法不同,所得图形也会有不同。
不管是哪种细化方法,都存在着不足,例如噪声的影响等。在线图形的外围上有尖状突起的时候,如不消除它。到最后判断时将会有分支。但像这种外围上的不规则性,在被增强的形状上有时在中心线上表现出来毛刺。所以,还要考虑研究消除噪声和去毛刺的方法。
边界跟踪:为了求得区域间的连接关系,必须沿区域的边界点跟踪像素,这个过程就称之为边界跟踪或边缘跟踪。
边界跟踪的具体方法和步骤:
根据光栅扫描发现像素从0开始变为1的像素P0时,P0作为边界的起点,存储它的坐标(i,j)值。
从像素(i,j-1)开始反时针方向在像素(i,j)的8-领域里寻找1像素,当第一次出现1像素记为Pk(这里k = 1)存储P1的坐标。
同上,反时针方向从Pk-1以前的像素开始在Pk像素的8-领域内寻找1像素,把最先发现像素值为1的像素记为Pk-1。
当Pk = P0而且Pk+1 = P1时,跟踪结束,在其他情况下,把k+1重新当做k返回第三步,反复进行处理。
上述这种边缘跟踪,是在图像边缘连接明确的假设下进行的。但实际上很多图像的边缘连接并不是明显的,这时候可以采取浓淡图像直接跟踪边缘的方法。
直接跟踪浓淡图像边缘的时候,必须同时进行边缘的检出。
边缘检测的算法之一就是根据图像梯度的大小和方向跟踪边缘的像素。当边缘是直线时,这种方法就比较简单。
形状分析是指对图像中的区域目标提取形状特征,进而对图像进行识别和理解。
区域形状特征的提取方法可以分为以下的三类:区域内部形状特征提取;区域外部形状特征提取;利用图像层次型数据结构提取形状特性;
区域内部形状特征的提取和分析:包括空间域分析和变换域分析
空间域分析是直接在图像的空间域对区域内部提取形状特征,以便于分析。具体有:
拓扑描述子:对区域的全局描述很有用;欧拉数就是拓扑特性之一,是一个较好的区域描述子,可用于目标识别。
凹凸性:连接图形内任意两个像素的线段,如果不通过这个图形以外的像素,则这个图形就是凸的。包含一个图形的最小的凸图形称为这个图形的凸闭包。凸图形的凸闭包就是它本身。从凸闭包除去原始图形后,所产生的图形的位置和形状特征分析的重要线索。
区域的测量,区域的大小及形状的表示方法,也就是区域的描述量:
面积:对于离散的二值图像来说,区域的面积就是区域内像素的总和。
周长:第一种:在区域的边界像素中,设某像素与其上下左右像素间的距离为1,与斜方向像素间的距离为1.414。周长就是这些刑诉间距离的总和。第二种:将边界的像素的总和作为周长。
圆形度:R = 4Π * 面积 / 周长平方,区域为圆形时,R 最大,R = 1。否则,R较小
直径,幅宽,占有率等
区域内部变换法:
是形状分析的经典方法,它包括求区域的各阶统计矩,投影和截口等。
目标形心:是一个关键性的位置参数,他的精确与否直接影响到目标定位。可用矩方法来确定。
Hu矩组:对于平移,旋转和大小尺度变化均为不变的矩组。
在图像变化是,这7个矩数值基本保持不变。
矩方法是一种经典的区域形状分析方法,但由于它的计算量大而缺少实用价值。四叉树近似的表示以及近年来发展的并行算法和超大规模集成电路的实现为矩方法向实用化方向发展提供了基础。
投影和截口是另一种区域内部的变换方法
所绘出的曲线都是离散波形曲线。这是,对二值图像的形状分析转化为对一维离散曲线的波形分析。
如果投影和截口都通过f(i,j)中的区域,那么上面的公式均是区域的形状特征。
在分析染色体图像时,着丝点(凹点)位置是一个关键特征。用投影方法可以提取着丝点的位置。
图像纹理指的是图像像素的一种规则性排列
纹理:最初指纤维物的外观。字典中对纹理的定义是“由紧密的交织在一起的单元组成的某种结构”。
纹理分析的原理:
提到纹理,人们自然会想到木质家具上的木纹,花布上的花纹等。木纹为自然纹理,花纹为人工纹理,它们反映了物体表面颜色与灰度的某种变化,这些变化与事物本身的属性有关。
图像的纹理分析:通过一定的图像处理技术提取出纹理特征参数,从而获得纹理的定量或定性描述的处理过程。
纹理分析的关键:首先要把纹理特征提取出来,表达出纹理的特点,然后进行纹理识别,纹理分类,三位表面重建。
特征提取是纹理分析的基础。用于纹理识别,纹理分类以及三位表面重建。
图像纹理分析的方法:统计分析法,结构分析法,频谱分析法,模型分析法;
统计分析法:主要基于图像像素灰度值的分布与相互关系,找出反映这些关系的特征。
基本原理是选择不同的统计量对纹理图像的统计特征进行提取。
统计分析中最常用的是共生矩阵法,另外,还有长行程法。其中共生矩阵(GLCM)又包括灰度共生矩阵和灰度——梯度共生矩阵。
结构分析法:分析图像纹理的结构,从中获取结构特征。
结构分析法首先把纹理看成许多纹理基元按照一定位置的规则组成,然后分两步处理如下:及提取问纹理基元和推论纹理基元位置规律。
该方法适用于规则和周期性纹理,实际中较少采用。
频谱分析法:主要基于滤波器理论。包括了傅里叶变换法,Gabor(加伯)变换法。小波变换法。
傅里叶变换法:只能完成图像的频率分解。因而获得的信息不是很充分。
Gabor变换法:Gabor函数可以捕捉到相当多的纹理信息,且具有极佳的空间/频率联合分辨率,因此在实际中获得了较为广泛的应用。
小波变换法:该方法大体分为金字塔形小波变换法和树形小波变换法。
模型分析法:有自回归模型,马尔可夫随机场模型,Gibbs随机场模型,分形模型,这些方法都是用模型系数来表征纹理图像,其关键在于首先对纹理图像的结构进行分析以选择到最合适的模型,其次为如何估计这些模型关系。
这种方法存在着计算量大,自然纹理很难用单一模型表达的缺点。
Gibbs随机场模型(GFR):通过集团势能的概念,利用局部计算机就能获得全局的结果,因此该模型目前应用较多。
分形模型:分形是一种适合于描述具有复杂和不规则形状研究对象的数学模型。
方法概述:
一阶分析方法:分析方法简单,有效。但提供的模板较少,应用收到一定的限制。
原理:laws纹理测量的基本思想是设置两个窗口:一个是微窗口,可为3×3,5×5或7×7,常取5×5用来测量以像素为中心的小区域的灰度的不规则性,以形成属性,称为微窗口滤波;另一个为宏窗口,为15×15或32×32,用来在更大的窗口上求属性的一阶统计量(常为均值和标准偏差,称为能量变换),在进行纹理特征提取分析。
分析流程:
纹理模型分析法:一个像素与其领域像素存在着某种相互关系,这种关系既可以是线性的,也可以是服从条件概率的。
常用模型:自相关模型,自回归模型,Markov随机场模型和分形模型等。
自相关模型:通常用自相关函数;
图像的纹理的一个重要性质是纹理的反复性。
自相关函数定义:
纹理度量:利用图像纹理的自相关函数ρ随x,y大小变化的规律,可以描述图像纹理的粗糙度,规整度,粗略度等特征。
令d = pow(x2 +y2 ,0.5),则ρ随d增加而下降的速度较慢;如果图像的纹理较细,则ρ随d增加而下降的速度较快;随着d的不断增加,ρ会呈现周期性变化,其周期性的大小能够反映出局部模式排列规则的稀疏,稠密程度。
适用于比较规则的纹理图像分析。
又称为灰度空间相关矩阵,是通过研究灰度的空间相关特性来描述纹理的常用方法。(也称为联合概率矩阵)
他作为传统的图像纹理分析方法已广泛应用于数字图像处理的许多领域,尤其是利用图像纹理特征值所表征的图像空间结构信息来改善遥感图像的地学目标分类效果。
d,θ取不同的数值组合,可以得到不同情况下的灰度共生矩阵。
当d取值较小时,对应于变化缓慢的纹理图像(较细的纹理),其灰度共生矩阵对角线上的数值较大。
而纹理的变化越快,则对角线上的数值越小,而对角线两侧上的元素值增大。
矩阵特点:
一副图像的灰度共生矩阵反映了图像灰度关于方向,相邻间隔,变化幅度的综合信息,是分析图像的局部特征和排列规律的基础。灰度共生矩阵并不能直接提供纹理信息,为了能描述纹理的状况,需在灰度共生矩阵的基础上再提取能综合表现灰度共生矩阵状况的纹理特征量,称为二次统计量。
为进一步描述图像纹理的特征,Haralick根据共生矩阵定义了熵,对比度,能量,相关,方差等14种用于提取图像种纹理信息的特征统计量。
矩阵优化:
一幅图像的灰度级数一般是256级,这样级数太多会导致计算灰度共生矩阵大,计算量大。为了解决这一问题,在求灰度共生矩阵之前,将图像的灰度级数压缩为16级。
在提取特征之前,需对灰度共生矩阵作正规化处理。
令(i,j) = ρ(i,j) / R R是正规化常数。
当取d = 1,φ = 0 时,每一行有2(Nx - 1)个水平像素对,因此共有2Ny(Nx - 1)水平相邻像素对,这时R = 2Ny(Nx - 1)。同样当取 d = 1,φ = 45°时,共有2(Ny-1)(Nx - 1)相邻像素对,R = 2(Ny-1)(Nx - 1)。由对称性可知,当φ = 90° 和135°时,其相邻像素对数是显然的。
模板匹配是一种最原始,最基本的模式识别方法。它是研究某一个特定的对象的图案位于图像的什么地方,进而来识别对象,实际上是一个匹配的问题。
模板匹配:当对象物的图案以图像的形式表现时,根据该图案与一副图像的各部分的相似度判断其是否存在,并求得对象物在图像中位置的操作叫做模板匹配。
模板匹配的用途:
在几何变换中,检测变换的对应点;
多光谱或多时相图像间的几何配准;
在立体影像分析中提取影像间的对应关系;
运动物体的跟踪;
图像中对象物位置的检测;
基本思想:设检测对象的模板为t(x,y),令其中心与图像f(x,y)中的一点(i,j)重合,检测t(x,y)和图像重合部分之间的相似度,对图像中所有的点都进行这样的操作,根据相似度为最大或者超过某一阈值来确定对象物是否存在,并求得对象物所在的位置。
序贯相似性检测法SSDA法
(2).粗精检索结合方法
首先进行粗检索,它不是让模板每次移动一个像素,而是每隔若干个像素把模板和图像重叠,并计算匹配的尺度,从而求出对象物大致存在的范围。然后,仅在这个范围内,让模板每隔一个像素移动一次,根据求出的匹配尺度确定对象物所在的位置。这样,整体上计算模板匹配的次数减少,计算时间缩短,匹配速度提高。但是用这种方法具有漏掉图像中最恰当位置的危险性。
在一般图像中有较强的自相关性。因此,进行模板匹配算法的相似度就在以对象物存在的地方为中心形成平缓的峰。
基于图案轮廓的特征匹配方法与一般的匹配相比较,表现出更尖锐的相似度的分布。可获得高精度的定位。
基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。
特征向量分布的获得是基于一个类别已知的训练样本集。
是一种监督分类方法,分类器是概念驱动的。
聚类分析:
目标:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。
是一种非监督学习的方法,解决方案是数据驱动的。
模糊模式识别:
基于模糊数学理论,利用隶属函数描述事物的不确定性。
识别根据研究对象对于某模糊子集的隶属程度采用最大隶属原则识别法,择近原则识别法,模糊聚类分析法对模式进行识别。
结构模式识别:
该方法通过考虑识别对象的个部分之间的联系来达到识别分类的目的。
识别采用结构匹配的形式,通过计算一个匹配程度值(matching score)来评估一个未知的对象或未知对象某些部分与某种典型模式的关系如何。
当成功地制定出了一组可以描述对象部分之间关系的规则后,可以应用一种特殊的结构模式识别方法 - 句法模式识别,来检查一个模式基元的序列是否遵守某种规则,及句法规则或语法。
人工神经网络方法:
神经网络是受人脑组织的生理学启发而创立的。
由一系列互相联系的,相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。
增强或抑制是通过调整神经元相互间联系的权重系数来实现。
神经网络可以实现监督学习和非监督学习条件下的分类。
图像识别:利用计算机对图像进行处理,分析和理解,以识别各种不同模式的目标和对象的技术。
图像识别发展经历阶段:文字识别;数字图像处理与识别;物体识别;
数字图像处理和识别的研究开始于1965年。数字图下昂与模拟图像相比具有存储,传输方便可压缩,传输过程中不易失真,处理方便等巨大优势,这些都为图像识别技术的发展提供了强大的动力。
物体的识别主要指的是对三维世界的客体及环境的感知和认识,属于高级的计算机视觉范畴。它是以数字图像处理与识别为基础的结合人工智能,系统学等学科的研究方向,其研究成果被广泛应用在各种工业及探测机器人上。
图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前,在图像识别的发展中,主要有四种识别方法:统计模式识别,结构模式识别,模糊模式识别,人工神经网络方法。
模式:存在于时间,空间中可观察的事物,具有时间或空间分布的信息。
广义上说,存在与时间个空间中可观察的物体,如果我们可以区别它们是否相同或是是否相似,都可以称之为模式。
模式所指的不是事物本身,而是从事物获得的信息,因此,模式往往表现具有时间和空间分布的信息。
模式的直观特性:可观察性,可区分性,相似性;
模式识别:用计算机实现人对各种事物或现象的分析,描述,判断,识别。