多媒体信息检索技术简介 (基于内容的视频检索)

http://www.istis.sh.cn/list/list.asp?id=1532
多媒体技术和Internet的发展给人们带来巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到对多媒体信息的描述和检索的,这就需要有一种针对多媒体的有效的检索方式。如何有效的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。
 
基于内容的信息检索(Content-Based Retrival)是一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行检索,如对图像中的颜色、纹理,或视频中的场景、片断进行分析和特征提取,并基于这些特征进行相似性匹配。
 
基于内容的图像检索:
 
它是根据分析图像的内容,提取其颜色、形状、纹理,以及对象空间关系等信息,建立图像的特征索引。目前有的图像检索系统有:
 
  • QBIC(Query By Image Content)是IBM Almaden研究中心开发的第一个商用基于内容的图像及视频检索系统,它提供了对静止图像及视频信息基于内容的检索手段,其系统结构及所用技术对后来的视频检索有深远的影响;
  • 由MIT的媒体实验室开发研制的Photobook,图像在存储时按人脸、形状或纹理特性自动分类,图像根据类别通过显著语义特征压缩编码;
  • 美国哥伦比亚大学开发的VisualSEEK图像查询系统,该系统的主要特点是用到了图像区域的空间关系查询和直接从压缩数据中提取视觉特征。
  • EXCALIBUR技术公司开发的retrieval ware系统;
  • Virage公司开发的virage检索系统能;
  • 香港中央图书馆的多媒体信息系统(MMIS)是IBM和分包商ICO于1999年底开始承建190万美元的数字图书馆项目,被认为是世界上最大且最复杂的“中文/英文”双语图书馆服务之一,其采用的DB2 Text 和Image Extenders既支持文本查找,也支持图片查找。
 
基于内容的视频检索:
 
基于内容的视频信息检索是当前多媒体数据库发展的一个重要研究领域,它通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段——镜头,作为检索的基本单元,在此基础上进行代表帧(representative frame)的提取和动态特征的提取,形成描述镜头的特征索引;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据。其中,视频分割、代表帧和动态特征提取是基于内容的视频检索的关键技术。目前相关的研究有:
 
  • MPEG-7标准称为“多媒体内容描述接口”(Multimedia Content Description Inteface) ,它是一种多媒体内容描述的标准,它定义了描述符、描述语言和描述方案,对多媒体信息进行标准化的描述,实现快速有效的检索;
  • JJACOB基于内容的视频检索系统,可进行视频自动发段并从中抽取代表帧,并可按彩色及纹理特征以代表帧描述基于内容的检索;
  • 卡内基·梅隆大学的informedia数字视频图书馆系统,结合语音识别、视频分析和文本检索技术,支持2000小时的视频广播的检索;实现全内容的、基于知识的查询和检索。
 
基于内容的音频检索:
 
基于内容的图像检索要提取颜色、纹理、形状等特征,视频检索要提取关键帧特征,同样要实现基于内容的音频检索,必须从音频数据中提取听觉特征信息。音频特征可以分为:听觉感知特征和听觉非感知特征(物理特性),听觉感知特征包括音量、音调、音强等。在语音识别方面,IBM的Via Voice已趋于成熟,另外剑桥大学的VMR系统,以及卡内基悔隆大学的Informedia都是很出色的音频处理系统。在基于内容的音频信息检索方面,美国的Muscle fish公司推出了较为完整的原型系统,对音频的检索和分类有较高的准确率。
 
基于内容的多媒体检索是一个新兴的研究领域,国内外都处于研究、探索阶段。目前仍存在着诸如算法处理速度慢、漏检误检率高、检索效果无评价标准、支持多种检索手段缺少等问题。但随着多媒体内容的增多和存储技术的提高,对基于内容的多媒体检索的需求将更加上升。

你可能感兴趣的:(多媒体)