图像特征提取:图像的矩特征

1. 矩的概念

图像识别的一个核心问题是图像的特征提取,简单描述即为用一组简单的数据(图像描述量)来描述整个图像,这组数据越简单越有代表性越好。良好的特征不受光线、噪点、几何形变的干扰。图像识别发展几十年,不断有新的特征提出,而图像不变矩就是其中一个。

矩是概率与统计中的一个概念,是随机变量的一种数字特征。设X为随机变量,c为常数,k为正整数。则量E[(xc)k]称为X关于c点的k阶矩。

比较重要的有两种情况:

1. c=0。这时ak=E(Xk)称为Xk阶原点矩

2. c=E(X)。这时μk=E[(XEX)k]称为Xk阶中心矩。

一阶原点矩就是期望。一阶中心矩μ1=0,二阶中心矩μ2就是X的方差Var(X)。在统计学上,高于4阶的矩极少使用。μ3可以去衡量分布是否有偏。μ4可以去衡量分布(密度)在均值附近的陡峭程度如何。

针对于一幅图像,我们把像素的坐标看成是一个二维随机变量(X,Y),那么一幅灰度图像可以用二维灰度密度函数来表示,因此可以用矩来描述灰度图像的特征。

不变矩(Invariant Moments)是一处高度浓缩的图像特征,具有平移、灰度、尺度、旋转不变性。M.K.Hu在1961年首先提出了不变矩的概念。1979年M.R.Teague根据正交多项式理论提出了Zernike矩。下面主要介绍这两种矩特征的算法原理与实现。

2. Hu矩

一幅M×N的数字图像f(i,j),其p+q阶几何矩mpq和中心矩μpq为:

 

mpq=i=1Mj=1Nipjqf(i,j)

 

 

μpq=i=1Mj=1N(ii¯)p(jj¯)qf(i,j)

 

其中f(i,j)为图像在坐标点(i,j)处的灰度值。i¯=m10/m00,j¯=m01/m00

若将m00看作是图像的灰度质量,则(i¯,j¯)为图像的质心坐标,那么中心矩μpa反映的是图像灰度相对于其灰度质心的分布情况。可以用几何矩来表示中心矩,0~3阶中心矩与几何矩的关系如下:

μ00=Mi=1Nj=1(ii¯)0(jj¯)0f(i,j)=m00

μ10=Mi=1Nj=1(ii¯)1(jj¯)0f(i,j)=0

μ01=Mi=1Nj=1(ii¯)0(jj¯)1f(i,j)=0

μ11=Mi=1Nj=1(ii¯)1(jj¯)1f(i,j)=m11y¯m10

μ20=Mi=1Nj=1(ii¯)2(jj¯)0f(i,j)=m20y¯m01

μ02=Mi=1Nj=1(ii¯)0(jj¯)2f(i,j)=m02y¯m01

μ30=Mi=1Nj=1(ii¯)3(jj¯)0f(i,j)=m302x¯m20+2x¯2m10

μ12=Mi=1Nj=1(ii¯)1(jj¯)2f(i,j)=m122y¯m11x¯m02+2y¯2m10

μ21=Mi=1Nj=1(ii¯)2(jj¯)1f(i,j)=m212x¯m11y¯m20+2x¯2m01

μ03=Mi=1Nj=1(ii¯)0(jj¯)3f(i,j)=m032y¯m02+2y¯2m01

为了消除图像比例变化带来的影响,定义规格化中心矩如下:

 

ηpq=μpaμγ00,(γ=p+q2,p+q=2,3,)

 

利用二阶和三阶规格中心矩可以导出下面7个不变矩组(Φ1 Φ7),它们在图像平移、旋转和比例变化时保持不变。

Φ1=η20+η02

Φ2=(η20η02)2+4η211

Φ3=(η203η12)2+3(η21η03)2

Φ4=(η30+η12)2+(η21+η03)2

Φ5=(η30+3η12)(η30+η12)[(η30+η12)23(η21+η03)2]+(3η21η03)(η21+η03)[3(η30+η12)2(η21+η03)2]

Φ6=(η20η02)[(η30+η12)2(η21+η03)2]+4η11(η30+η12)(η21+η03)

Φ7=(3η21η03)(η30+η12)[(η30+η12)23(η21+η03)2]+]+(3η12η30)(η21+η03)[3(η30+η12)2(η21+η03)2]

3. 利用OpenCV计算Hu矩

opencv里对Hu矩的计算有直接的API,它分为了两个函数:moments()函数用于计算中心矩,HuMoments函数用于由中心矩计算Hu矩。

Moments moments(InputArray array, bool binaryImage=false )

参数说明

  • 输入参数:array是一幅单通道,8-bits的图像,或一个二维浮点数组(Point of Point2f)。binaryImage用来指示输出图像是否为一幅二值图像,如果是二值图像,则图像中所有非0像素看作为1进行计算。
  • 输出参数:moments是一个类:
class Moments
{
public:
    Moments(); Moments(double m00, double m10, double m01, double m20, double m11, double m02, double m30, double m21, double m12, double m03 ); Moments( const CvMoments& moments ); operator CvMoments() const;

里面保存了图像的2阶与3阶中心矩的值。

void HuMoments(const Moments& moments, double* hu)

参数说明:

  • 输入参数:moments即为上面一个函数计算得到的moments类型。
  • 输出参数:hu是一个含有7个数的数组。

int main(int argc, char** argv) 

    Mat image = imread(argv[1]);  
    cvtColor(image, image, CV_BGR2GRAY); 
    Moments mts = moments(image); 
    double hu[7]; 
    HuMoments(mts, hu); 
    for (int i=0; i<7; i++) 
    { 
        cout << log(abs(hu[i])) <    } 
   return 0; 
}

上面代码中,最终输出的值为log|Φi|

我们分别计算一幅图像在,旋转,噪声与模糊时的Hu矩。

图像特征提取:图像的矩特征_第1张图片 图像特征提取:图像的矩特征_第2张图片 图像特征提取:图像的矩特征_第3张图片 图像特征提取:图像的矩特征_第4张图片

类别 log|Φ1| log|Φ2| log|Φ3| log|Φ4| log|Φ5| log|Φ6| log|Φ7|
原图 -6.76181 -19.1286 -23.7441 -26.776 -51.7618 -35.8491 -51.534
旋转 -6.72102 -19.0844 -23.5756 -25.9122 -51.4619 -35.4595 -50.7674
加放噪点 -6.76086 -19.1255 -23.7611 -26.3228 -51.5056 -35.895 -51.6321
模糊 -6.76183 -19.1295 -23.7451 -26.2767 -51.765 -35.8484 -51.5307

4. Zernike矩

Hu矩在图像描述上有广泛的应用,但是其低阶几何矩与图像整体特征有关,不包含太多的图像细节信息,而高阶几何矩易受噪声影响,因此很难利用几何矩恢复图像。

Zernike矩能够很容易地构造图像的任意高阶矩,并能够使用较少的矩来重建图像。Zernike矩是基于Zernike多项式的正交化函数,虽然其计算比较复杂,但是Zernide矩在图像旋转和低噪声敏感度方面具有较大的优越性。由于Zernike矩具有图像旋转不变性,而且可以构造任意高阶矩,所以被广泛应用对目标进行识别中。

4.1 Zernike矩多项式

首先要弄清楚什么是正交多项式。若函数W(x)在区间(a,b)可积,且W(x)0,则可作为权函数。

对于一个多项式的序列fi和权函数W(x),定义内积:<fm,fn>=bafm(x)fn(x)W(x)dx

nm,<fm,fn>=0,这些多项式则称为正交多项式。若fi除了正交之外,更有<fm,fn>=1的话,则称为规范正交多项式。

那么正交多项式有什么作用呢?答案是:逼近!正交多项式相当于基,任何一个n维多项式函数f(x)都可以用一组正交多项式加权求和来逼近。

 

Zernike在1934年提出了在单位圆上定义的一组正交多项式,即Zernike正交多项式,其定义形式为:

 

Rnm(ρ)=s=0(n|m|)/2(1)s[(ns)!]ρn2ss!(n+|m|2s)!(n+|m|2+s)!

 

 

Vnm(x,y)=Vnm(ρ,θ)=Rnm(ρ)ejmθ

 

其中Rnm(ρ)表示点(x,y)的径向多项式,Vnm(x,y)为Zernike正交多项式,n,m为正交多项式的阶数,n是非负整数,n|m|是偶数,并且n|m|

Zernike多项式Vnm(x,y)=Vnm(ρ,θ)是定义在单位圆x2+y21上的正交复函数的集合,具有重要的递推性质,即Rnm可由R(n2)mR(n4)m得到,公式如下:

 

Rnm(ρ)=[(K22ρ2+K3)R(n2)m(ρ)+K4R(n4)m(ρ)]K1

 

 

Rmm(ρ)=ρm

 

式中:K1=(n+1)(n1)(n2)/2,K2=2n(n1)(n2),K3=(n1)3,K4=n(n1)(n3)/2

4.2 Zernike矩的定义

由于Zernike多项式的正交完备性,所以在单位圆内的任何图像f(x,y)都可以唯一的用下面式子展开:

 

f(x,y)=n=0m=0ZnmVn,m(ρ,θ)

 

上式中的Znm就是Zernike矩。

对二维函数f(x,y)的Zernike矩的定义如下:

 

Znm=n+1π102π0[Vnm(ρ,θ)]f(ρ,θ)ρdydxdρdθ

 

 

=n+1πRnm(ρ)ejmθf(ρ,θ)dρdθ

 

式中ρ=x2+y2−−−−−−√(1<x,y<1)θ为轴xρ矢量在逆时针方向的夹角;Rnm(ρ)表示点(x,y)的径向多项式。

4.3 Zernike矩的计算

从Zernike矩的计算公式上来看,对于二维图像,其Zernike矩Znm为复数,将其实部和虚部分别记为CnmSnm,则有:

 

Cnm=2n+2π102π0[Rnm(ρ)cos(mθ)f(ρ,θ)ρdρdθ

 

 

Cnm=2n+2π102π0[Rnm(ρ)sin(mθ)f(ρ,θ)ρdρdθ

 

因为数字图像是离散形式的点,所以需要将上式离散化,把积分号换为求和号,但是需要作一些坐标变换。

对于N×N的图像f(x,y),令坐标原点位于图像的中心,则N/2x,yN/2,对于像素(x,y),引入2个参数(r,σ),唯一对应于像素,其定义为:

r=max(|x|,|y|)

如果|x|=r,则:

 

σ=2(rx)y|y|+xyr

 

如果|y|=r,则:

 

σ=2yxyr

 

我们容易计算出,r的取值范围为1N/2σ的取值范围是18r,再根据参数(r,σ)定义相应的极坐标:

 

ρ=2r/N,θ=πσ(4r)

 

所以,最终我们得到离散化的Zernike矩的计算公式:

 

Cnm=2n+2N2r=1N/2Rnm(2r/N)σ=18rcosπmσ4rf(r,σ)

 

 

Snm=2n+2N2r=1N/2Rnm(2r/N)σ=18rsinπmσ4rf(r,σ)

 

1. 确定图像的大小N×N,即公式中的N

2. 确定r,σ的范围;

3. 利用Zernike多项式的递推性质计算各阶Rnm(ρ),并结合上面Zernike矩计算公式,算出Cnm,Snm

4. 对Cnm,Snm求模,进而计算得到|Znm|

现在我们用Zernike矩来计算美女图像在4种状态下的值:

类别 log|Z11| log|Z20| log|Z22| log|Z31| log|Z40| log|Z42| log|Z44|
原图 11.1732 13.8469 12.3515 12.4391 14.2782 12.6137 11.5745
旋转 12.3036 13.8309 13.5861 12.0467 13.1320 13.8396 12.7862
加放噪点 11.1538 13.8490 12.3315 12.4316 14.2730 12.5925 11.5591
模糊 11.1636 13.8465 12.3480 12.4367 14.2799 12.6130 11.5752

通过表中,可以看出,Zernike在总体上效果比Hu矩更好(PS:感觉在旋转上好像差强人意!)

下面是Zernike矩的matlab实现[来自《现代数字图像-处理技术提高及应用案例详解》],这里偷懒了,有机会的话会把C++版的实现补上。

  View Code

5. 总结

不变矩的应用过程一般包括:

  1. 选择合适的不变矩类型;
  2. 选择分类器(如神经网络、最短距离等);
  3. 如果是神经网络分类器,则需要计算学习样例的不变矩去训练神经网络;
  4. 计算待识别对象的不变矩,输入神经网络就可得到待识别对象的类型,或者计算待识别对象不变矩与类别对象不变矩之间的距离,选择最短距离的类别作为待识别对象的类别。

可以看出,不变矩作用主要目的是描述事物(图像)的特征。人眼识别图像的特征往往又表现为“求和”的形式,因此不变矩是对图像元素进行了积分操作。

不变矩能够描述图像整体特征就是因为它具有平移不变形、比例不变性和旋转不变性等性质。

然而,另一方面图像的各阶不变矩究竟代表的什么特征很难进行直观的物理解释。

6. 参考资料

[1] 《现代数字图像处理》(matlab版)

[2] 正交多项式WIKI

[3] opencv形态描述

你可能感兴趣的:(图像特征提取:图像的矩特征)