基于内容的多媒体和跨媒体信息检索技术

信息检索的基本概念

  信息检索(IR - Information Retrieval)泛指从包含丰富内容的信息集中找到所需要的或感兴趣的信息或知识的过程,信息检索的主要任务包括对信息项(information items)的表示(representation)、存储(storage)、组织(organization)和访问(access)。

  传统信息检索技术主要是面向文本(text)的,今天广泛使用的Google、Yahoo、和百度等搜索引擎主要采用文本检索技术,通常是利用一组关键字或词组成的查询项来搜索定位文本数据库中相关文本文档,如果某个文档中包含较多查询项,那么就认为比其他包含较少查询项的文档更相关,搜索系统将按照这种相关程度对查询结果进行排序,并依次展现给用户,以便用户浏览和进一步查找。

  基于内容的多媒体信息检索 :面向单一媒体

  对图像和视频等多媒体信息集来说,目前绝大多数检索系统仍采取文本搜索技术,例如Google的图像和视频检索功能仍是基于文本关键词(keyword)的,这些关键词可能来源于图片周围的文本、文件名等,其中少量的也可能来源于人工标注。由于多媒体信息制作者的文化背景不同、专业知识迥异,这些与图片关联的文本信息往往是极不可靠的,我们都能够体会到。对于图像和视频等多媒体信息,一般难以用自然语言进行有效的、精确的描述,无法表达其实质内容和语义关系,所以这种依据文本信息检索图片和视频的解决方案很难满足人们的查询需要,搜索精度很低。

  经过10多年的努力,许多学者试图实现基于内容的多媒体信息查询技术,以弥补上述多媒体信息检索技术的缺陷。国内外有很多学者在积极研究基于内容的多媒体信息检索技术,其中包括对图像、视频和音频等多媒体信息的内容处理和分析(parsing)、自动标注(annotation)、构建索引(indexing)和相似检索(retrieval)等。大量研究结果表明,除了在一般的、通用的视觉特征(如颜色、纹理、形状、运动、镜头等)和听觉特征(频谱分布和变化规律、节奏、韵律、话音、说话人特征等)上建立索引和实现检索之外,还要研究更有效的高层语义特征的索引方法。众所周知,计算机很难从多媒体信息中自动获取高层语义特征,因此必须采用各种各样的智能处理与识别技术,例如:通过图像和视频的字符识别(Video OCR)翻译图片中出现的文字信息,从而得到关于图像或视频的文本描述;通过人脸检测和识别技术自动分析图像或视频镜头中出现的人脸,从而得到人物的身份信息;通过连续语音识别技术自动将音频转换为文本,可以得到关于各个音视频片段的文本表示;通过说话人的语音声纹分析,就可以判断说话人的身份等。

  基于内容的跨媒体检索 :

  面向多种媒体

  随着计算机、互联网和数字媒体等进一步普及,以文本、视频、音频、图形与图像为主体的多媒体信息急剧增加,通过互联网实现全球多媒体信息的共享成为可能,用户查询多媒体信息也变得越来越普遍,各种新的应用需求也随之而来。

  对于希望利用多媒体数据资源的用户来说,一般要求他们具备一定的知识背景,才能提交符合IR系统要求或IR系统可以理解的查询。但是,在实际应用中,大量用户对于某些概念语义的精通程度并不足以明确叙述其查询意愿,此时如果IR系统允许用户能够以多种媒体信息来描述方式输入查询意愿,那么将检索到更多符合心愿的查询结果。于是,新的需求提出一个非常重要的、富有挑战性的研究问题 —— 以某一种或多种媒体表达方式描述的用户查询与以不同类型媒体表达方式描述的媒体信息之间的相关匹配问题,即基于内容的跨越媒体的信息检索(Content-based Cross-media Information Retrieval - CMIR),它从单一媒体检索走向各种媒体的综合检索。

  虽然传统的文本检索、面向单一媒体的多媒体信息检索技术等已获得一定成功, 它们却难以有效应用到跨媒体信息检索之中,主要原因有:(1)跨媒体信息检索系统融入语音、视频、图像以及其他混杂的媒体,从这些媒体中分析提取语义信息是一个相当复杂的过程, 需要计算机视觉、语音图像智能处理、人工智能与模式识别、数据挖掘等多方面技术的高度综合,而传统的信息检索基本上只依赖于自然语言与文本处理技术;(2)跨媒体融入了多种信息源和异构多媒体数据库,信息提取和语义分析需要考虑各个单独的信息源,因为融合所有可能的信息能有效的帮助系统精确地搜索定位用户的查询,这与单一的基于某一种媒体的检索系统截然不同,具有更大的意义和挑战性;(3)跨媒体信息检索并不是直接在海量多媒体数据库上进行的检索,它需要提出有效索引和搜索框架。这种跨媒体的检索框架能综合所有类型的媒体,有效支持用户查询描述、系统内容访问以及查询结果的可视化显示等。这一领域的研究是现在基于任何单一媒体检索中都未尝试过的。

  更具体一点来说,跨媒体信息检索是指根据媒体内容及其上下文联系在大规模多种媒体共存的数据库中进行检索,系统组成主要有:(1)多媒体和跨媒体信息建模和表示;(2)对多媒体信息(如视频、图像、文本、音频、动画等)的智能处理与识别;(3)复合媒体信息中各媒体之间融合方法;(4)支持海量媒体数据快速相似检索的数据组织和索引结构;(5)支持多模态用户信息需求的查询处理和相关反馈技术;(6)海量多媒体与跨媒体内容的管理和检索系统。限于文章篇幅,这里不能一一展开。

你可能感兴趣的:(基于内容的多媒体和跨媒体信息检索技术)