基于内容的图像检索概述
摘要:我们现在处于信息爆炸的时代,各种海量信息充斥在我们周围,如何能在海量的数据中搜索到我们想要的图像是个很有挑战性的研究课题。本文简要分析了目前基于内容的图像检索(CBIR)的几种主要方法,如颜色,纹理,语义和综合多特征等。最后还对基于内容图像检索的未来进行展望。
关键词:CBIR;图像检索;颜色;语义
我们目前搜索信息主要是利用文本搜索,现在这种技术已经相当成熟,但是这种方式有很大的局限性。CBIR不同于传统的检索手段,它是利用图像的颜色,纹理,形状,对象的空间关系等基本特征进行检索,并把这些量化特征与图像存储在一起。其特点是:直接从媒体内容中提取信息线索;基于内容的检索是一种近似匹配;特征提取和索引建立常需要用人机交互的方法,学习人的主观相似度感受。它主要使用的是基于相似度量的示例查询方法。基于内容的图像检索可以突破很多限制,给人们的获取信息带来更大的方便,相比传统的文本检索有很大的优势。图像检索虽然有巨大的应用潜力,但是目前的技术还不够成熟,依然有很大的提升空间,这也吸引了很多科研工作者进行研究与探索。
用颜色特征进行图像检索最早是由Swain和Ballard提出的。他们的想法是利用颜色直方图作为图像内容的索引特征。利用颜色特征进行图像检索可分为两类:全局颜色特征检索和局部颜色特征检索。
全局色彩特征检索方法目前采用最多的是色彩直方图的方法, Swain和Ballard主要采用直方图相交(histogram intersection)和直方图反向投射(histogram backprojection)两种技术[1]。由于颜色与图片中物体的形状无关,所以算法比较简单而且适用面很广,而且这种方法的实时性也非常好。但是这个方法有个很大的缺陷就是丢失了像素之间的空间信息。这样就会导致很多的误差出现。后来有人提出以图像的色彩聚合矢量 CCV ( color coherence vector)作为图像的索引,它是图像直方图的一种演变, 它将连续的像素点和孤立离散的像素点分离,取得了更好的效果,聚合矢量中的聚合信息在某种程度上保留了图像色彩的空间信息。Huang提出颜色相关性进行图像检索的方法,采用和灰度共生矩阵相似的定义计算两两颜色之间的相似性,为了减小计算量,一般只计算颜色的自相关。
我们一般使用的搜索图片中无用的或者有害的像素占了很大比例,我们其实真正需要的只是图片的某个局部信息。由于全局色彩特征检索获取了整幅图像色彩分布的信息, 局部的重要信息就被弱化了。目前从划分局部区域的角度来说可分为:基于固定块的图像分割、基于手工的区域分割、采用交互的半自动的区域分割以及一些自动的色彩分割方法。局部区域中的色彩信息可以表示为平均色彩、主色彩、色彩直方图和二进制色彩集。Smith 和Chang采用色彩的自动分割方法,形成一个二进制的色彩索引集,在图像匹配中, 比较这些图像色彩集的距离和色彩区域的空间信息.色彩的空间关系主要有色彩区域的分离、包含、 交, 每种关系对应一定的评分, 查询的空间距离是所有这些色彩区域所对应的空间关系的评分和[2]。
纹理是图像的一个重要的特征。准确的纹理定义并不存在,一种定义认为纹理是由纹理基元按某种确定性的规律或者只有某种统计规律排列组成的。使用数学或信息论的方法抽取的纹理度量称为纹理特征,纹理特征可用来对图像中的空间信息进行定量的描述。目前大部分学者认为纹理分析算法的分类是统计法、结构法,模型和空间/频域联合分析[3]。
统计法是对图像中颜色强度的空间分部信息进行统计得到纹理信息,该方法使用于广泛的自然纹理和人工纹理。该方法的研究比较广泛,典型的有灰度共生矩阵、低阶矩与高阶矩特征统计、Laws纹理能量法。
结构法研究的出发点是纹理由纹理基元组成.对图像中具有结构规律的特性加以分析而得到的纹理特征。分析基元的方法最简的是从基元之间的相位、距离、尺度等的统计法考虑,也可以考虑用比较复杂的方法分析,如句法。结构法主要适用于非常规的人工纹理,对于分析自然纹理图像时很难得到令人满意的效果。
由于空间/频域联合的纹理分析方法与人类视觉过程是相一致的,所以引起了学者的注意。主要有Gabor变换法和小波变换法等,其主要应用是在空域和频域可以同时获得较好的局部化特性的滤波器对纹理图像进行滤波,从而获得较为理想的纹理特征。这种分析方法在分析自然纹理图像时可以取得一定的效果。
形状作为一种最为重要的图像特征,是人们理解图像的一个重要依据。调查显示,在图像检索系统中人们更倾向于使用基于形状的图像检索方法,因为它更符合人们的视觉感知。但是,基于形状的图像检索的真正实用化还有许多问题需要解决。例如,被认为比较成功的IBM的QBIC检索系统也只是在基于颜色和纹理的算法上能取得较满意的效果,在基于形状的检索时还差强人意。形状匹配是视觉信息系统、计算机视觉、模式识别和机器人等课题的中心课题,同样基于形状的图像检索也是研究怎样有效地进行形状匹配的问题。但是形状是一种二维特征,通常的做法是将二维特征进行降维,变为一维特征,然后对一维特征进行匹配。图像检索必须满足平移、旋转和尺度不变性,同时由于通常图像数据库都是非常庞大的,所以运算效率也是必须考虑的[4]。
研究形状要解决的重要问题是形状的描述,也就是形状特征的提取,是在形状分割的基础上实现的。获得形状特征一般经过3个步骤:经过形状边界或区域的分割获得原始像素数据;对形状边界或区域进行表达;在表达的基础上对形状边界或区域进行抽象的描述。
形状的描述可以分为基于边界的和基于区域的两类,这种分类是基于形状特征是仅从边界曲线中提取,还是从整个形状区域中提取;对于每一类不同的方法,又进一步划分为结构的方法和全局的方法,这种子类的划分是基于形状的特征的提取是源于一个整体还是部分:这些方法还可以进一步划分为空间域的方法和变换域的方法,这是基于形状特征是从空间域获得的还是从变换域获得。
在CBIR中,基于底层的视觉特征的图像检索不能满足用户的语义理解需求,为了克服这一检索方法的不足,我们引入了基于语义的图像检索。在用户观察图像时,对图像的概念往往是建立在图像所描述的对象、行为、表达的感情等的基础上,结合了日常生活中积累的大量经验,并根据知识推理得到图像的语义。人对图像的理解无法从图像的底层视觉特征直接获得。图像检索的理想目标是使计算机按照人的主观感觉和理解来检索图像,使计算机检索图像的能力达到人的理解水平,这就关系到人类视觉机制的了解。要使图像检索技术真正满足用户个性化的需要, 必须把图像检索看作一个系统, 考虑包括人在内的各种因素对于系统的影响. 其中主要的工作和面临的困难来自3个方面: ①必须提供图像语义的有效描述方式; ②必须有提取图像语义描述的方法; ③语义检索系统的语义处理方法.对图像语义的建模和表示、图像语义的抽取方法和语义检索系统的设计。
语义图像检索技术要取得突破性的进展,需要计算机视觉、模式识别、心理学、生物学等多个研究领域的密切合作和共同推动[5]。
图像本身包含了丰富的信息,单一的检索技术肯定都有各自的局限性。所以我们很自然的联想到使用多种特征来进行检索。综合特征检索就是综合图像的颜色、形状、纹理或空间位置等特征表示,计算图像特征向量。各个特征间应有一个权重关系,由用户根据需要进行调整,以适于不同情况的查询。如果综合的特征向量的维数过大的话,必须要采取各种方式进行降维处理。
由于不同特征的物理意义不同,取值范围也不同,这样的特征没有可比性。,因此首先要进行特征归一,使综合特征的各特征向量在相似距离计算中的地位相同。常见的归一化的方法主要有线性放缩到单位区间,线性放缩为单位方差,变换为在[0,1]上的均匀分布的随机变量和排序归一化。
当归一化完成后,就可以将已获得的特征参数进行综合。常见的综合方式有颜色和纹理的综合,颜色和形状的综合,形状和纹理的综合[6]。
相关反馈技术首先是在文本检索领域提出的.在文本检索中,由于用户通常不能准确地给出查询表达以及特征与语义间存在的间隔,初始的检索结果通常不能让用户满意。于是,用户通过不断地修改查询表达以期得到更好的检索结果,这被称为查询优化(query reformulation).相关反馈技术代替用户来优化查询,用户只需要查看检索结果并给出它们与用户信息需求是否相关或相关程度的判断,系统根据用户反馈来构造更好的查询表达或修改检索策略中的参数以更好地把握用户的信息需求。
按照在相关反馈过程中用户的参与方式可以区分两种用户模式:“贪婪的”和“合作的”。目前大多数相关反馈的方案采用了贪婪的(greedy)用户模式.它假设用户是贪婪和没有耐心的,可能在交互过程中随时结束查询过程,因此期望在每轮反馈后系统都给出尽可能好的结果.相应地,系统每次都把通过当前学习认为最可能与查询相关的(most—positive)图像返回给用户,这样用户在每轮反馈后就能得到当时系统所能给出的最好结果.相反地,如果用户更合作,愿意在看到最后结果之前进行更多轮的反馈,系统就可以做别的选择,比如在每轮返回那些一旦被用户标记就能获得最有价值的反馈信息的图像.这样就得到另一种相关反馈方式:在用户结束整个查询前,系统在每轮用户反馈后返回那些最能提供信息(most—informative)的图像,在用户结束整个查询时,才把通过学习认为是最可能相关的图像返回给用户.这种用户模式被称为合作的(cooperative)用户模式。
在反馈时,用户查看这些检出的图像或其中的一部分,并为它们给出相关与否的或相关程度的标记。通常使用以下三种方法[7]:
1. 基于距离度量的方法
在这类方法中,图像检索被看作一种是近邻搜索,图像被表示为特征空间中的一个点,然后根据图
像特征和查询问的距离度量把忌幅离查询最近的图像检出.常用的距离度量有Minkowski距离及其加权变形以及二次距离
2.基于概率框架的方法
另有一些方法采用的检索模型类似于信息检索中的概率模型(probabilistic modeI)[2],用概率框架来描述检索问题,它们往往都借鉴统计模式识别中的一些方法.文献[10,18]中的方法也等价于在假设相关图像的特征服从高斯分布的情况下,采用极大似然估计(MLE)来估计高斯分布的参数.
3.基于机器学习的方法
近年来,许多工作把检索看成不同类型的监督学习问题,比如一类的学习问题、两类的分类问题或顺序回归问题,并针对该学习问题的特点把各种机器学习方法引入到相关反馈算法的研究中.
在基于内容的检索中,由于检索算法比较多,需要对各种算法的检索结果进行评判,以比较其优劣检索算法的评价方法能够在相同的条件下找出最佳算法,使不同的检索方法能更好地改进和提高,以使基于内容的检索方法朝更好的方向发展从现在的研究情况来看,对于系统的响应时间和吞吐率的评价论述得较少,对检索效果评价更多地放在对检索结果的正确与否,主要使用的是查准率和查全率两个指标查全率的主要含义是在一次查询过程中,用户所查到的相关图像的数目和数据库中与目标图像相关的所有图像数目之比;而查准率主要指在一次查询过程中所查到的相关图像数目同该次查到的所有图像数目之比。用户在评价算法的时候,可以预先选定含有特有目标的图像作为一组相关的图像,然后根据返回的结果计算查全率和查准率查全率和查准率越高,说明该检索算法的效果越好。
基于内容的图像检索已经深入应用到社会和生活的许多方面。目前,CBIR 的主要应用领域包括:电子会议、远程教学、艺术收藏、博物馆管理和电子图书馆、建筑工程设计、遥感和地球资源管理、地球信息系统、科学数据库管理、天气预报、商业零售、织物时装设计、商标和版权数据库管理、公共安全和犯罪调查、图像档案和通讯系统、远程医疗、智能群体决策、防汛指挥[8]。信息时代的一个突出特点就是信息量的爆炸式增长和信息传播的网络化,对海量信息查询,必须有一个有效、快速的搜索引擎. 目前的文本搜索引擎对文本信息的查找起着举足轻重的作用,而对于图像信息来说,就必须研究基于内容的图像检索技术,本文对目前的研究现状进行了阐述. 虽然研究已取得很大进展,并且还开发了许多CBIR 系统,但离真正的实用阶段还有一定的距离,许多方面还值得深入研究[9]:
如何提高查询速度? 由于在实际应用中图像数据库很大,速度是优先考虑的问题之一,必须研究优化的检索算法.除计算机硬件的限制外,特征矢量的高维数和现有多维索引方法的低效性是影响查询速度的主要原因,所以要深入研究如何降低特征矢量维和建立有效高速的多维索引方法. 另外,研究压缩域的检索方法也是提高查询速度的有效途径.
目前使用的相似度计算基本上是基于数学比较,与人的视觉感知特性还具有一定的差距,因此,如何建立符合人眼特性的相似度计算模型,是一个不可回避的研究课题.
需要深入研究图像数据库的数据模型. 因为目前基于关系和对象的数据库模型不能有效地管理图像(视频) 的空间关系、时间关系、空间- 时间关系等之间的同步,给图像数据的检索和管理带来了一定的困难.
如何实现从低层物理特征到高层语义特征的转换? 虽然这是计算机视觉所研究的传统问题,但并没有突破性进展。在CBIR 中如何实现这种转换仍然是一个关键难题.
计算机网络已成为我们获取图像信息的重要来源之一,如何利用网络特点来查询图像数据是十分必要的,并已有一些研究成果。随着网络技术的飞速发展,面向网络的图像查询技术也应作深入的研究.图像检索技术的研究是一个涉及到多个领域的综合性课题,是对计算机视觉技术、数据库检索和管理技术、用户界面技术、数学建模技术、图像分析处理技术、计算机网络技术以及人类心理学等各个方面成果的融合,只有这样才能建立一个高效、快速、实用的图像检索系统.
参考文献:
[1] Swain MJ. Color indexing. International journal of computer vision. 1991-11;7:11-32.
[2] 赵晨,任郁苗.基于形状的图像检索技术研究[J].现代电子技术,2008,31(13):159-162.
[3] 闫晶莹,王成儒,王云晓等.基于纹理的图像检索[J].计算机安全,2010,(12):46-48.
[4] 徐珂.基于形状的图像检索技术研究[D].国防科学技术大学,2007.
[5] 史美艳.基于语义的图像检索技术研究[D].山东大学,2011.
[6] 周金财.基于内容的多特征组合图像检索的研究[D].南昌大学,2007.
[7] 吴洪,卢汉清,马颂德等.基于内容图像检索中相关反馈技术的回顾[J].计算机学报,2005,28(12):1969-1979.
[8] 左渭斌.浅析基于内容的图像检索[J].现代营销,2011,(9):221-221.
[9] 黄祥林,沈兰荪.基于内容的图像检索技术研究[J].电子学报,2002,30(7):1065-1071.