ColorLayout原理及性能

什么是Color Layout?

Color Layout Descriptor是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,在基于内容的图像检索(Content Based Image Retrieval (CBIR) ) 中表现出很好性能,拥有计算成本低,匹配计算速度快,识别准确率高等优点。

Color Layout可以应用于以图搜图、匹配视频片段等方面,目前比较成熟以图搜图的开源项目LIRE就有对该算法的实现。


Color Layout Descriptor(CLD)提取过程

Descriptor的提取过程,在以图搜图的功能中,就是对图像提取特征值并建立索引的过程。以图搜图,简单来说就是首先对数据库中所有的图片建立索引,在图片匹配阶段,通过对目标图片进行Descriptor提取,再与数据库中的索引信息进行匹配运算,对所有的结果进行排序,输出理想图片。

Color Descriptor的提取过程包括四个阶段:

  • 图像分割
  • 代表颜色选择
  • DCT变换
  • Z字形扫描

ColorLayout原理及性能_第1张图片

一、图像分割

ColorLayout原理及性能_第2张图片

在图像分割阶段,将输入图像(在RGB颜色空间)分割成64个块。每个块的大小为W / 8×H / 8,其中W和H表示作为输入图像的宽度和高度。

输入级1 输出级1
输入图像[M×N] 输入图像分为64个块[M/8xN/8]

二、代表颜色选择

ColorLayout原理及性能_第3张图片

在此过程中,MPEG-7标准建议使用的YCbCr用于CLD色彩空间。首先将图像从RGB色彩空间转换到YCbCr色彩空间,然后使用块中的像素颜色的平均值作为相应的代表颜色,因为这样选取很简单,并且描述精度一般是足够的。

输入级2 输出级2
输入图像分为64个块[M/8xN/8] 小的图像图标[8×8]
输入级3 输出级3
在RGB颜色空间小的图像图标[8×8] 在YCbCr颜色空间中小的图像图标[8×8]

三、DCT变换

ColorLayout原理及性能_第4张图片

在此阶段,亮度(Y)和蓝色和红色色度(Cb和Cr)通过8×8 DCT变换,由此得到三组含有64个系数的DCT矩阵,DCT变换使用的公式如上。

输入级4 输出级4
在YCbCr颜色空间中小的图像图标[8×8] 64个系数的3 [8×8]矩阵(DCTY,DCTCb,DCTCr)

四、Z字形扫描

ColorLayout原理及性能_第5张图片

对上一个步骤中得到的三组含有64个DCT系数的矩阵进行Z字形扫描,按照图中的顺序进行扫描,这样扫描的目的是对8x8矩阵的低频系数进行分组。

扫描之后得到的三个矩阵即为输入图像的Color Layout Descriptor。

由于对步骤二中选取的主要颜色进行了DCT变换,在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下文关于优化的部分将详细说明。

输入级5 输出级5
64个系数的3组[8×8]矩阵(DCTY,DCTCb,DCTCr) 3个折线扫描矩阵(DY,DCb,DCR)

Descriptor匹配

完成Color Layout Descriptor提取之后,即可以实现以图搜图的功能,通常通过计算Descriptor之间的距离来完成匹配工作。计算两张图片Color Layout Descriptor之间的距离公示如下:

这里写图片描述

其中,Yi,Cbi和Cri表示Y,Cb,Cr颜色分量的第i个系数,w1i,w2i和w3i分别代表第i组系数的加权值,由于低频部分含有较多的信息,故加权值应根据Z字形扫描顺序减少。

由于上述相似度匹配处理的复杂度低,所以可以实现高速图像匹配。

Descriptor优化

此处的优化工作主要是从两方面进行的:

  1. 包含在Color Layout Descriptor中的系数的最佳数量
  2. 存储每个系数的最佳bit数

在检索精度和相似度计算成本之间的权衡,可以优化系数的数量以最大化检索效率。
在检索精度和描述符大小之间的权衡,可以优化比特分配以最大化检索效率。

通过ANMRR (Average Normalized Modified Retrieval Rank)来评价Descriptor的检索效率,它是由Manjunath引入的用于评估Color Descriptor的性能的度量,也被应用于MPEG-7开发中的客观评价。较小的ANMRR具有较高的性能。

实验结果如下:

ColorLayout原理及性能_第6张图片

上图显示出了具有固定数目的Y系数的系数总数与ANMRR之间的关系。该图表明,总共12个系数,6个亮度系数和每个色度3个系数是最佳的选择。

ColorLayout原理及性能_第7张图片

从上图我们得出结论,最佳Descriptor用63位表示,最优位分配为6 bits / DC系数 和 5 bits / AC系数。

下面给出一张图片的最优存储结果:

[beach.jpg] mpeg7:YACCoeff5 “16 12 15 12 17” ;
mpeg7:CbACCoeff2 “22 17” ;
mpeg7:CrACCoeff2 “16 14” ;
mpeg7:YDCCoeff “50”^^mpeg7:unsigned6 ;
mpeg7:CbDCCoeff “34”^^mpeg7:unsigned6 ;
mpeg7:CrDCCoeff “30”^^mpeg7:unsigned6 .

YACCoeff5由五个mpeg7:unsigned5值声明
CbACCoeff2和CrACCoeff2由两个mpeg7:unsigned5值声明。
YDCCoeff,CbDCCoeff 和 CrDCCoeff 由6位的 mpeg7:unsigned6值声明。


针对上述优化过程,可以得出在实际建立索引的过程中,存储的索引内容只包含12个系数,那么,根据前面提到的在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下面给出一种可行的权重W的分配方案:
这里写图片描述

Weight 1 2 3 4 5 6
Y 2 2 2 1 1 1
Cb 2 1 1
Cr 4 2 2

参考资料:
1.Wiki 百科 Color layout descriptor
2.The MPEG-7 color layout descriptor: a compact image feature description for high-speed image/video segment retrieval
3.Efficient vehicle identification using MPEG-7 Color Layout Descriptor
4.Robust video editing detection using Scalable Color and Color Layout Descriptors
5.Segmentation-based Fractal Texture Analysis and Color Layout Descriptor for Content Based Image Retrieval

你可能感兴趣的:(基于内容的图像检索)