Color Layout Descriptor是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,在基于内容的图像检索(Content Based Image Retrieval (CBIR) ) 中表现出很好性能,拥有计算成本低,匹配计算速度快,识别准确率高等优点。
Color Layout可以应用于以图搜图、匹配视频片段等方面,目前比较成熟以图搜图的开源项目LIRE就有对该算法的实现。
Descriptor的提取过程,在以图搜图的功能中,就是对图像提取特征值并建立索引的过程。以图搜图,简单来说就是首先对数据库中所有的图片建立索引,在图片匹配阶段,通过对目标图片进行Descriptor提取,再与数据库中的索引信息进行匹配运算,对所有的结果进行排序,输出理想图片。
Color Descriptor的提取过程包括四个阶段:
在图像分割阶段,将输入图像(在RGB颜色空间)分割成64个块。每个块的大小为W / 8×H / 8,其中W和H表示作为输入图像的宽度和高度。
输入级1 | 输出级1 |
---|---|
输入图像[M×N] | 输入图像分为64个块[M/8xN/8] |
在此过程中,MPEG-7标准建议使用的YCbCr用于CLD色彩空间。首先将图像从RGB色彩空间转换到YCbCr色彩空间,然后使用块中的像素颜色的平均值作为相应的代表颜色,因为这样选取很简单,并且描述精度一般是足够的。
输入级2 | 输出级2 |
---|---|
输入图像分为64个块[M/8xN/8] | 小的图像图标[8×8] |
输入级3 | 输出级3 |
---|---|
在RGB颜色空间小的图像图标[8×8] | 在YCbCr颜色空间中小的图像图标[8×8] |
在此阶段,亮度(Y)和蓝色和红色色度(Cb和Cr)通过8×8 DCT变换,由此得到三组含有64个系数的DCT矩阵,DCT变换使用的公式如上。
输入级4 | 输出级4 |
---|---|
在YCbCr颜色空间中小的图像图标[8×8] | 64个系数的3 [8×8]矩阵(DCTY,DCTCb,DCTCr) |
对上一个步骤中得到的三组含有64个DCT系数的矩阵进行Z字形扫描,按照图中的顺序进行扫描,这样扫描的目的是对8x8矩阵的低频系数进行分组。
扫描之后得到的三个矩阵即为输入图像的Color Layout Descriptor。
由于对步骤二中选取的主要颜色进行了DCT变换,在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下文关于优化的部分将详细说明。
输入级5 | 输出级5 |
---|---|
64个系数的3组[8×8]矩阵(DCTY,DCTCb,DCTCr) | 3个折线扫描矩阵(DY,DCb,DCR) |
完成Color Layout Descriptor提取之后,即可以实现以图搜图的功能,通常通过计算Descriptor之间的距离来完成匹配工作。计算两张图片Color Layout Descriptor之间的距离公示如下:
其中,Yi,Cbi和Cri表示Y,Cb,Cr颜色分量的第i个系数,w1i,w2i和w3i分别代表第i组系数的加权值,由于低频部分含有较多的信息,故加权值应根据Z字形扫描顺序减少。
由于上述相似度匹配处理的复杂度低,所以可以实现高速图像匹配。
此处的优化工作主要是从两方面进行的:
在检索精度和相似度计算成本之间的权衡,可以优化系数的数量以最大化检索效率。
在检索精度和描述符大小之间的权衡,可以优化比特分配以最大化检索效率。
通过ANMRR (Average Normalized Modified Retrieval Rank)来评价Descriptor的检索效率,它是由Manjunath引入的用于评估Color Descriptor的性能的度量,也被应用于MPEG-7开发中的客观评价。较小的ANMRR具有较高的性能。
实验结果如下:
上图显示出了具有固定数目的Y系数的系数总数与ANMRR之间的关系。该图表明,总共12个系数,6个亮度系数和每个色度3个系数是最佳的选择。
从上图我们得出结论,最佳Descriptor用63位表示,最优位分配为6 bits / DC系数 和 5 bits / AC系数。
下面给出一张图片的最优存储结果:
[beach.jpg] mpeg7:YACCoeff5 “16 12 15 12 17” ;
mpeg7:CbACCoeff2 “22 17” ;
mpeg7:CrACCoeff2 “16 14” ;
mpeg7:YDCCoeff “50”^^mpeg7:unsigned6 ;
mpeg7:CbDCCoeff “34”^^mpeg7:unsigned6 ;
mpeg7:CrDCCoeff “30”^^mpeg7:unsigned6 .
YACCoeff5由五个mpeg7:unsigned5值声明
CbACCoeff2和CrACCoeff2由两个mpeg7:unsigned5值声明。
YDCCoeff,CbDCCoeff 和 CrDCCoeff 由6位的 mpeg7:unsigned6值声明。
针对上述优化过程,可以得出在实际建立索引的过程中,存储的索引内容只包含12个系数,那么,根据前面提到的在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下面给出一种可行的权重W的分配方案:
Weight | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
Y | 2 | 2 | 2 | 1 | 1 | 1 |
Cb | 2 | 1 | 1 | |||
Cr | 4 | 2 | 2 |
参考资料:
1.Wiki 百科 Color layout descriptor
2.The MPEG-7 color layout descriptor: a compact image feature description for high-speed image/video segment retrieval
3.Efficient vehicle identification using MPEG-7 Color Layout Descriptor
4.Robust video editing detection using Scalable Color and Color Layout Descriptors
5.Segmentation-based Fractal Texture Analysis and Color Layout Descriptor for Content Based Image Retrieval