最近一直在做数字图像处理方面的项目,其中基于内容的图像搜索是自己最感兴趣的一个方向,项目还在进行中,今天先对之前的工作做一个小结。
提到基于内容的图像搜索,就不能不提基于文本的图像搜索。 当前几乎所有的商用图像搜索引擎如Google、百度、雅虎等都是采用基于文本的检索方式,这种方式存在很大的弊端:首先图像一般都具有丰富的细节和它的引申意义,这是难以用文字描述出来的,仅靠几个关键字或简单的注释是远远不够的;其次,对同样一幅图像,每个人都会有不同的理解,这使得利用文本标注准确的响应用户查询非常困难;第三、对图像进行文本标注只能通过手工完成,这在图像数量较少时还基本可行,但如果图像数量增长过快或总量巨大时,依靠手工来完成文本的标注将变得十分困难。而基于内容的图像检索技术很好的解决了这些问题,通过提取图像本身的特征进行检索,获得的结果将是客观而全面的,并且整个过程都是计算机自动完成的,无需人工介入,速度和精度都有了很大提高。
基于内容的图像搜索技术早在70年代就有机构在做相关的研究,目前比较成功的有IBM的QBIC系统,Virage公司的图像检索系统,MIT的Photobook及美国加州大学开发的Chabot。基于内容的图像检索最关键的就是找到适合用于搜索的特征,常用的特征提取算法有:
基于颜色特征:颜色直方图、颜色集、颜色矩、颜色聚合向量、MEPG7颜色布局算子;
基于纹理特征:Tamura纹理特征、自回归纹理模型、Gabor变换、小波变换、MPEG7边缘直方图;
基于形状特征:傅立叶形状描述符、形状无关矩、小波轮廓描述符;
如果是视频文件的话,还有基于运动的特征提取算法,以上各种算法都有自己的优缺点,适用场合也不尽相同,通常需要多个特征组合在一起才能得到比较好的结果。