Internet上的图像检索技术

http://chinaitpower.com/A/2001-05-11/159383.html
 随着网上图像信息的急剧膨胀,对这一部分信息的检索给传统的检索理论带来了挑战。由于图像不同于文本,文本本身就可以说明所讲的内容,而图像则需要靠人们各自的理解来说明其蕴义,因此图像检索比起文本的查询和匹配要困难得多。

  目前,网上图像信息的检索技术大致可分为两大部分,一是基于整个网络的图像搜索引擎的检索技术,再就是主要基于图像数据库的各种图像检索系统。二者从不同的角度出发检索图像信息。比较而言,后者的技术更为成熟,前者由于要求反映信息快速、全面、覆盖面广,因而技术相对粗糙些。并且前者越来越倾向于与后者的检索技术相结合。

  一. 图像搜索引擎的检索技术

  近年来随着用户对网上图像搜索要求的不断增长,各种基于web的图像搜索引擎应运而生,它们各自以不同的工作方式为用户提供各种检索途径,使网上图像信息的搜索变得非常简单,尽管还不很完善,却已经可以满足用户的大多数要求。

  1. 工作原理

  WWW图像搜索引擎需要为在web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出的索引信息建立索引库,理想的图像搜索引擎还应该能支持基于内容的图像检索[1]。

  图像搜索引擎主要通过以下两种方法识别图像[2]: (1)自动查找图像文件 可以通过两个HTML标签,即IMG SRC和HREF来检测是否存在可显示的图像文件,IMG SRC表示"显示下面的图像文件",导向的是嵌入式图像;而HREF则表示"下面是一个链接",导向的是被链接的图像。搜索引擎通过检查文件扩展名来判断其导向的是否是图像文件。如果文件扩展名是.GIF或.JPG,即是一个可显示的图像。(2)人工干预找出图像并进行分类 由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,限制处理图像的数量。

  2. 图像搜索引擎的检索途径

  目前图像搜索引擎大多支持关键词搜索和分类浏览两种检索方式,部分可提供可视属性检索,但也很有限。主要的检索途径有以下三种:

  (1) 关键词检索

  即基于图像外部信息或人工赋予的关键词进行自由词检索。图像的外部信息包括图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息。基于这部分信息的检索是目前图像搜索引擎采用最多的方法。在找出图像文件后,图像搜索引擎通过查看文件名或路径名确定文件内容,但这取决于文件名或路径名的描述程度。也可以通过查看图像的标题来匹配检索词,但嵌入式或被链接的图像可能有也可能没有正规标题,即使存在正规标题,可能还是缺少让搜索引擎可识别的一致性标志,如带冒号的"photo"一类的词。但HTML的ALT标签可以起到图像标题的作用,它紧跟在IMG SRC标签后面。也可以查找网站或页面的标题,但这取决于其是否准确描述了该站点的内容,而这几乎是不可能的,所以只是偶尔起作用[2]。

  有些图像搜索引擎采用人工对图像的内容(如物体、背景、构成、颜色等)进行描述并分类,给出标引词,检索时,主要在这些标引词中搜索用户的检索词。这种查询方式比较准确,可以获得较好的查准率。但需人工参与,劳动强度大,因而限制了可处理的图像数量,并且需要一定的规范和标准,效果取决于人工描述的精确度。

  (2) 分类目录浏览方式

  图像搜索引擎将采集到的图像或通过某种自动机制或采用人工进行分类标引,为用户提供按主题浏览的检索方式。适用于检索目标不明确或以一般浏览为目的的用户。如WebSEEK提供了含有16个大类77个小类的极为丰富的类目体系,Yahoo!的Image Surfer的类目体系虽只包括几个流行主题,但对类目的划分比较深入,含有6个大类14个二级类以及更多的三级类,每个类目下的图像从几个到几百个不等。

  (3) 基于图像可视属性的检索

  又称为基于图像内容(content-based)的检索。由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像固有属性的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索),产生的结果也比较准确。目前这种较成熟的检索技术主要应用于图像数据库的检索,在基于web的图像搜索引擎中应用这种检索技术虽还具有一定的困难,但已有部分图像搜索引擎进行了尝试,如Yahoo、WebSEEK就提供了基于图像的形状或颜色直方图的粗陋的可视检索功能。本文的第二部分将具体讨论这种检索技术在图像检索软件中的应用。

  3. 具代表性的几个图像搜索引擎简介[2]

  (1) .Scour(http://www.scour.com)[3][4]

  Scour成立于1998年,自称是第一个基于web的多媒体搜索引擎。虽严格讲,它并非是一个图像搜索引擎,但可以将检索限制在图像搜索上。

  它的工作原理是在文件名、路径名或ALT标签中搜索检索词。主要使用关键词检索,可以用"+"或"-"来增加或排除关键词,使用尽可能少的关键词会更有效。在高级检索中,可以将检索结果图像限制在GIF、BMP、JPEG等格式中。检索结果显示简图、图像类型(如GIF、BMP)、图像大小、最后被查找的日期、检索词的匹配数量、标引使用的关键词、成功下载的可靠程度等,并同时给出图像文件的URL和源站点的URL。

  主要缺陷是标引深度不足,查准率较低,但查全率较好。

  (2) .WebSEEK (http://disney.ctr.columbia.edu/webseek/)[5]

  WebSEEK是由哥伦比亚大学开发的一种实验性系统。采用代理自动搜索可视信息并对其进行分类,目前已分类的图像有66万多幅,形成了一个极富创新性的图像目录,主题分类是它的主要优点。

  WebSEEK的检索途径有三种,一是使用关键词进行自由全文检索,但不支持短语检索;二是利用不同的类目等级进行主题浏览;三是在检出图像的基础上利用其可视属性进一步检索。

  其检索结果显示为没有文本的简图及图像大小。单击简图可得到原图。每个简图下面提供三个链接,分别是:"col"-根据该图颜色在检出图像列表中搜索相关图像;"web"-在整个WebSEEK目录中根据该图颜色再次检索相近图像;"his"-通过手动调整该图像的颜色直方图进行另一新的检索。

  (3) .Amazing Picture Machine(http://www.ncrtec.org/picture.htm)[6]

  这是由NCRTEC组织开发的一个"真正人工建立的完全的关键词式索引"。 Amazing Picture Machine后面的教师负责选择图像丰富的站点,然后对每幅选定的图像内容进行描述,给出关键词。因此它的最大特点就是人工干预,关键词检索是主要的检索手段。

  Amazing Picture Machine的搜索结果将显示一个简短的标题、有关图像的说明(如彩色或黑白)、文件的大小、文件类型及象素多少等,但不显示简图。单击该标题可得到原图像,但需由该URL回溯才能找出源站点。

  由于人工干预检索过程,它的查准率极好,但这也限制了它的查全率。它的检索范围很有限,只包括web上人工选择的部分站点。

  (4) .Lycos (http://multimedia.lycos.com/)[7][8]

  图像搜索是Lycos 的多媒体检索功能之一,其搜索范围包括整个网络和一个内含80,000幅图像的图库供浏览和检索,并划分为主题目录。

  Lycos对所收录的图像进行了详尽的内容描述(description),并支持短语检索,从而使其查准率大大提高。它根据文件扩展名识别图像,在描述词、文件名、目录名或ALT字段中查询检索词。结果显示的信息极为丰富,包括简图、图像大小、最后检索日期、图像文件名、图像内容描述词、图像所在页面等。点击简图将得到原图及更多的信息,如著作权人和更多的相关图像。比较而言它的检索效果很好,速度也很快。



  二. 基于内容特征的图像检索系统

  从上面对图像搜索引擎的讨论中,我们可以看出,图像搜索引擎所实现的图像检索基本上是与文本搜索引擎类似的基于图像内容描述(description-based)的语义层次的匹配(例如通过关键词或自由词、分类目录)。因为许多情况下,用户习惯于通过概念来提交查询。概念查询的一种实现即是基于文本式的描述,用关键词、关键词逻辑组合或自然语言来表达查询的概念,这就是语义层次的匹配。但由于对图像的理解比文本更容易产生歧义,当语词不足以形象和准确地描述视觉感知时,用户就需要利用其所呈现的视觉特性来查询,例如利用颜色、纹理、形状等特征[9]。因此,就出现了基于图像本身固有属性(content-based)匹配的图像检索技术。

  1 基于内容的图像检索技术[10]

  (1) 基于颜色特征的检索

  颜色特征是图像最直观而明显的特征,一般采用直方图来描述。颜色直方图是表示图像中颜色分布的一种方法,它的横轴表示颜色等级,纵轴表示在某一个颜色等级上具有该颜色的像素在整幅图像中所占的比例,直方图颜色空间中的每一个刻度表示了颜色空间中的一种颜色。采用直方图计算图像间的相似性比较简单,但它不能反映图像中对象的空间特征。

  (2) 基于纹理特征的检索

  图像可以看成是不同纹理区域的组合,纹理通常定义为图像的某种局部性质,或是对局部区域中像素之间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。根据纹理特征进行检索主要考虑粗糙性、方向性和对比性三种特征。

  由于纹理描述比较困难,一般对纹理的检索都采用示例查询(Query By Example)方式。用户给出示例的全部或部分区域特征,从而找到类似图像。

  (3) 基 于形状特征的检索

  采用该特征进行检索时,用户通过勾勒图像的形状或轮廓,从图像库中检出形状类似的图像。基于此特征的检索方法有两种:(1)分割图像经过边缘提取后,得到目标图像的轮廓线,针对这种轮廓线进行的形状特征检索。(2)直接针对图形寻找适当的矢量特征用于检索算法。但处理这种结构化检索更为复杂,需做更多的预处理。

  2 基于内容特征的图像库检索引擎[11]

  目前已有Virage、Excalibur和IBM公司开发出了基于图像内容相似性特征的图像库检索引擎,并在网上提供了演示站点。

  (1) VIRAGEhttp://www.virage.com

  VIRAGE公司的VIR(Visual Information Retrieval)图像引擎提供了四种可视属性检索(颜色、成分、纹理和形状)。每种属性被赋予0到10的权值。通过颜色特性检索是最简单明了的,该软件对选出的基础图像的色调、色彩以及饱合度进行分析,然后在图像库中查找与这些颜色属性最接近的图像。成分(composition)特性指相关颜色区域的近似程度。

  用户可以设定一个或多个属性权值来优化检索。要达到最佳平衡度需要反复试验,但检索过程是相当快的。在结果显示矩阵中可以选择查看3、6、9、12、15或18个简图。通过对四个属性权值的调整,显示出不同的检索结果。简图是根据相似度降序排列。点击简图标题将得到该图像的一些详细说明,包括Virage计算出的相似比。

  (2) EXCALIBUR( http://www.excalib.com)

  Visual RetrievalWare只是Excalbur提供的查询程序之一。在它的演示站点中提供了对其检索参数的综合设置的测试。Excalbur提供基于6种图像属性的检索,分别是颜色、形状、纹理、颜色结构、亮度结构和纵横比。颜色属性是对图像的颜色及其所占的比率进行测定,但并不包括对颜色的结构或位置的测定,这一项是由颜色结构属性控制的;形状属性指图像中物体的轮廓或线条的相对方位、弯曲度及对比度;纹理属性是指图像的平滑度或粗糙度,一幅图的表面特性;亮度属性是指构成图像的象素组合的亮度。这是一个非常有力的图像检索工具。

  每一个属性值范围从0到5。例如,主要以形状属性进行检索时,将形状属性的权值设为5,而将其它属性的权值设为0或1。不同的权值设定产生的结果不同。当主要用形状属性检索时,检出的结果可能看起来毫不相干,例如,用一幅意大利地图为示例图像会检出一幅GUCCI的靴子,因为它们的形状的确很相似。应该注意到,图像的形状相似性与该图像中的物体是什么没有关系。

  (3) QBIChttp://www.qbic.almaden.ibm.com)[12]

  QBIC(Query By Image Content)是由IBM公司著名的Almaden实验室开发的。它可能是目前应用最广的图像检索系统,如旧金山现代艺术博物馆以及法国文化部等机构。

  虽然QBIC只提供了3 种属性的检索功能:颜色属性、形状属性和纹理属性,但它的检索效率非常高。颜色特性的查询包括颜色百分比查询和颜色分布查询,利用颜色百分比查询,用户可以找到具有相似颜色及比率的图像,而利用颜色分布查询可进一步找到不仅颜色相似且颜色分布也相似的图像。纹理特性是对图像中线条的粗糙性、对比性、方向性三者的综合考虑。形状属性查询包括对象形状查询和轮廓查询。

  QBIC除了上面的基于内容特性的检索,还辅以文本查询手段。例如为旧金山现代艺术博物馆的每幅作品给予标准描述信息:作者、标题、日期,许多作品还有内容的自然描述。


  三. 目前图像检索技术研究的热点问题

  尽管各种图像搜索引擎为快速、大量地查找网上图像信息创造了条件,而基于内容特征的图像库检索技术亦为图像数据的检索从可视角度开辟了一条更为准确直观的途径,但仍存在一些有待研究的热点问题。

  1 两类图像检索技术的结合

  现有的图像搜索引擎主要侧重于对图像内容的语义描述,而图像库检索技术则侧重于图像内容的特征提取,二者虽侧重不同但却互相补充。如果能将二者结合起来取长补短,则网络的图像检索技术必有新的进展。已有的图像搜索引擎在信息的自动加工和标引方面都有待提高,需要开发出计算机自动识别和标引图像的算法和技术,以完善现有的检索功能,并与已有的成熟的图像库检索技术相结合,这是今后应该研究的一个课题。而且,图像库检索技术也应面向网络,利用网络技术进行改造,提供新的WWW访问界面代替原来的应用系统界面。同时将巨大的图像库资源利用网络实现共享。

  2 对基于内容编码技术的研究

  目前,国际上还没有通用的基于内容的编码标准。20世纪90年代初,国际上就开始了对基于内容的图像信息检索方面的研究。从基本的颜色检索,到综合利用多种图像特征进行检索,大量原型系统已经推出,其中,部分已投入到实际应用中以检验其有效性。同时,MPEG-7标准作为基于内容的多媒体编码标准也正在制定当中,即将成为国际标准中的一员。因此,应尽快对MPEG-7标准进行研究,分析其编码的实质,在此基础上进一步研究基于内容检索的系统,使我国基于内容的图像检索尽快走向实际应用阶段[9]。

  3 对用户查询接口的研究

  这涉及到用户对图像内容的感知表达、交互方式的设计、用户如何形成并提交查询等方面。现代多媒体信息系统的一个重要特征就是信息获取过程的可交互性,人在系统中是主动的。除了提供示例和描绘查询基本接口之外,用户的查询接口应提供丰富的交互能力,使用户在主动的交互过程中表达对图像语义的感知,调整查询参数及其组合,最终获得满意的查询结果。用户的查询接口应该是直观易用的,底层的特征选择对用户是透明的。这里涉及到如何把用户的查询表达转换为可以执行检索的特征矢量,如何从交互过程中获取用户的内容感知,以便选择合适的检索特征等问题[9]。

  随着网上多媒体的广泛应用,对图像的检索需求将会越来越迫切。未来的图像检索技术将是网络技术和基于内容的图像库检索技术的结合。随着多媒体信息处理技术的日益发展和深化,图像信息的加工、处理和检索标准的出台,网上的图像检索技术将会日趋完善,而图像搜索引擎也将成为Internet上的新宠。

你可能感兴趣的:(internet)