Multimedia Information Retrieval 多媒体信息检索

多媒体信息不不同于传统的⽂文本或者数字数据,多媒体对象需要很⼤大的内存和特 殊的处理理操作。⼀一个多媒体数据库管理理系统应该能够处理理多种数据类型(图 像,视频,语⾳音,⽂文本)和⼤大量量的此类对象,提供⾼高性能和具有成本效益的对 象存储,并⽀支持插⼊入,删除,更更新和搜索等功能(Shih, 2002).。典型的多媒体 ⽂文档或者演示⽂文稿包含⼤大量量不不同类型的对象,如图⽚片,⾳音乐或者⽂文本。因此基 于内容的多媒体信息检索已经成为⼀一个⾮非常重要的新的研究课题。与传统的基 于⽂文本和数字数据⽐比较的搜索⽅方案不不同,多媒体信息的搜索和匹配标准很难建 模。

图像和视频检索基于如何表示图像或者图像链的内容。传统的⽂文本数据检索技 术只有在每个图像和视频记录都附有⽂文本内容描述(图像的数据元)的情况下 才能应⽤用。但是和⽂文本相⽐比,图像或者视频内容更更加通⽤用,在⼤大多数检索情况 下,查询的主题并不不会反映在可⽤用的⽂文本元数据中。由于图像本身的性质,包 括“⾮非⽂文本性”,⾮非结构化信息,这些信息很难被⾃自动捕获。追求索引⾮非结构化 视觉信息⽬目标的计算机技术被称为基于内容视频信息检索(CBVIR),更更常⽤用 的是基于内容的图像检索(CBIR)。因此,基于内容的视频信息检索和基于通 ⽤用内容的视频信息检索使⽤用相同的缩写(CBIR)。


image.png

在基于内容的图像检索中,用户应该根据视觉特征来描述所需的内容,图像应该根据与描述的相似度进行排序,并且检索出最高级(最相似)的图像,在最低或最初的描述水平上,图像被认为是像素的集合。虽然像素级的内容可能对某些特定的应用(例如,地球表面遥感)有用,但是今天的CBIR是基于更精细的描述符,显示视觉对象的特定局部和全局光度和几何特征以及特征之间的语义关系。

多媒体信息检索最困难的问题是如何进行查询来满足用户需要的描述。例如,处理“给我找到一个有一匹马和一辆汽车的图片”这样的查询是一个很艰巨的任务,而在多媒体数据库中的大量图片文件中匹配规范更加困难。通常,人工的和自动化的基于内容的信息检索有很大的不同。人工检索任务(查询)是在认知层面进行描述,利用人类的知识、分析、核对信息上下文的理解,包括对象,人物,景观,语言片段的意义或者一般的故事语境。因此,根据内容的查询可以用不同的方式来表达,例如:
1."寻找澳大利亚总理约翰 · 霍华德的最新照片”
2.”寻找所有美国秃鹰的图片"
3.”找到泰坦尼克号撞上冰山的电影场景"
4.根据拍摄地点将所有影像分类
5.”选取朗伊托托岛最近的航空照片"
6.”在阿拉巴马州发现类似龙卷风的图片"
7.”选择最令人印象深刻的日落图像"等等

目前内容的概念很难正式化。在众多可能的定义中,万维网上“内容”被定义为:
1.艺术作品所包含和传达的意义或信息,包括其情感的、智利的、象征性的、主题性的和叙事性的内容(see www.ackland.org/tours/classes/glossary.html)
2.除了艺术家的能力之外,艺术作品的主题及其价值; 形式和内容是构成一件作品的两个要素(see www.worldimages.com/art_glossary.php)
3.传递信息的工具,例如文字、数据、符号、数字、图像、声音和视觉(see www.naa.gov.au/recordkeeping/er/guidelines/14-glossary.html)
4.文件的“内容”,而不是其格式或外观(see www.microsoft.com/technet/prodtechnol/visio/visio2002/plan/glossary.mspx)
5.传媒以信息检索传递资讯或知识(see www.cordis.lu/ist/ka1/administrations/publications/glossary.htm)

目前的计算机视觉无法轻松自动地提取语义信息。最终的图像编码应该以符合人类解释的方式捕获图像语义内容。 但最初感知的图像编码包括原始像素值-灰度值或颜色。 图像分析解决了这两个极端之间的一系列中间可能性,但主要集中在低层特征是像素值的函数 (Cox e.a.,2000). 虽然一些特征,如颜色,在某些情况下与图像语义有关,但通常并不反映真实的图像意义,而且更高层次的图像描述对于有效和实际地表达内容是必要的。

到目前为止,内容是根据通用和特定领域的数量特征来描述的。通用特征包括颜色、纹理、几何形状、草图和图像或视频序列中区域的空间关系。 特定领域的特征出现在一些特殊应用中,例如人脸检测和识别或地球遥感。 语义描述(意义)是一个非常困难的问题,没有通用的解决方案。

例如,看一下下面的一个自然图像的小数据库:

在基于内容的图像检索中,用户应该根据视觉特征来描述所需的内容,图像应该根据与描述的相似度进行排序,并且检索出最高级(最相似)的图像,在最低或最初的描述水平上,图像被认为是像素的集合。虽然像素级的内容可能对某些特定的应用(例如,地球表面遥感)有用,但是今天的CBIR是基于更精细的描述符,显示视觉对象的特定局部和全局光度和几何特征以及特征之间的语义关系。

多媒体信息检索最困难的问题是如何进行查询来满足用户需要的描述。例如,处理“给我找到一个有一匹马和一辆汽车的图片”这样的查询是一个很艰巨的任务,而在多媒体数据库中的大量图片文件中匹配规范更加困难。通常,人工的和自动化的基于内容的信息检索有很大的不同。人工检索任务(查询)是在认知层面进行描述,利用人类的知识、分析、核对信息上下文的理解,包括对象,人物,景观,语言片段的意义或者一般的故事语境。因此,根据内容的查询可以用不同的方式来表达,例如:
1."寻找澳大利亚总理约翰 · 霍华德的最新照片”
2.”寻找所有美国秃鹰的图片"
3.”找到泰坦尼克号撞上冰山的电影场景"
4.根据拍摄地点将所有影像分类
5.”选取朗伊托托岛最近的航空照片"
6.”在阿拉巴马州发现类似龙卷风的图片"
7.”选择最令人印象深刻的日落图像"等等

目前内容的概念很难正式化。在众多可能的定义中,万维网上“内容”被定义为:
艺术作品所包含和传达的意义或信息,包括其情感的、智利的、象征性的、主题性的和叙事性的内容(see www.ackland.org/tours/classes/glossary.html)
除了艺术家的能力之外,艺术作品的主题及其价值; 形式和内容是构成一件作品的两个要素(see www.worldimages.com/art_glossary.php)
传递信息的工具,例如文字、数据、符号、数字、图像、声音和视觉(see www.naa.gov.au/recordkeeping/er/guidelines/14-glossary.html)
文件的“内容”,而不是其格式或外观(see www.microsoft.com/technet/prodtechnol/visio/visio2002/plan/glossary.mspx)
传媒以信息检索传递资讯或知识(see www.cordis.lu/ist/ka1/administrations/publications/glossary.htm)

目前的计算机视觉无法轻松自动地提取语义信息。最终的图像编码应该以符合人类解释的方式捕获图像语义内容。 但最初感知的图像编码包括原始像素值-灰度值或颜色。 图像分析解决了这两个极端之间的一系列中间可能性,但主要集中在低层特征是像素值的函数 (Cox e.a.,2000). 虽然一些特征,如颜色,在某些情况下与图像语义有关,但通常并不反映真实的图像意义,而且更高层次的图像描述对于有效和实际地表达内容是必要的。

到目前为止,内容是根据通用和特定领域的数量特征来描述的。通用特征包括颜色、纹理、几何形状、草图和图像或视频序列中区域的空间关系。 特定领域的特征出现在一些特殊应用中,例如人脸检测和识别或地球遥感。 语义描述(意义)是一个非常困难的问题,没有通用的解决方案。

例如,看一下下面的一个自然图像的小数据库:


image.png

这些三维场景包含各种各样的对象,如马、小马、牛、草地、灌木、水、山丘等等,其内容是多种多样的,因为场景、对象以及每个这样的场景中对象之间的关系的解释依赖于观察者、时间、目标以及其他主观和客观因素。

最困难的问题是如何描述用户在进行查询时的需要和考虑的内容。 最简单但仍然困难的例子是明确概述要搜索的语义元素:"查找一张在灌木附近有一匹棕色小马驹的图片"。 甚至更困难的任务是在大型多媒体数据库中匹配这种或更一般的规范。 人类对于数据搜索的查询总是在认知层面上利用人类对于上下文的认知,包括对象、人、景观、场景等等。 这些查询可以使用自然语言和可视示例以不同的方式制定。 但是,对 CBIR 系统的查询必须考虑到自动数据描述和搜索能力的限制。

基于内容的视频信息检索首先要处理一个“感官鸿沟”(Smeulders e.a., 2000) ,这是由物体在世界上的属性和它从一个图像或者一系列图像衍生出来的计算描述的属性之间的区别造成的。感官鸿沟使得内容描述问题不适定,明显限制了图像内容的形式化表示能力。其次,在语义上存在差异,或者说“用户理想的查询与用户实际上可以提交到信息检索系统的查询之间存在差异”(Castelli & Bergman, 2002)。语义学(希腊语为“有意义”)描述语言学中词汇和它们的意义之间的关系,以及符号和它们在逻辑上的意义之间的关系。对于图像而言,语义学关心的是描述对象的意义及其特征。

语义鸿沟导致了从视觉数据中提取的描述和人类在某种特定情况下对相同数据的解释之间的巨大差异。基于内容的检索主要的限制是用户搜索语义,即意义的相似性,而基于内容的检索系统只提供通过数据处理获得的定量特征的相似性。语义关系编码人类对与每个特定应用相关的图像的解释,但这些解释只是所有可能的有意义解释中的一小部分。这就是为什么一个”真实"的图像内容的自动描述是一个无法解决的问题,这是由于本质上人类对图像和视频序列的主观感知。

到目前为止,内容都是用数字签名来描述的,结合了可是别的对象、形状、特征、和关系,图像则根据它们与查询描述的数量相似性按照这些对象、形状、特征及其关系进行排序。最顶级的就是检索和输出的最相似的图像集。非正式地,静态图像的内容包括,非正式地,静态图像的内容包括,在不断增加的复杂性水平上,视觉信息的感知或算法属性,语义属性,例如抽象的原语,例如物体、角色和场景,以及与感知属性相关的主观属性,例如印象、情感和意义
(Shih, 2002).基于内容的视频记录检索不仅涉及到所显示的对象,还涉及到对象运动的时间和空间模式。

但是基于计算图像 / 视频理解、对象跟踪和语义分析的内容描述工具仍然在发展中,并将在很长一段时间内继续发展。 首先,图像的内容是一个非常主观的概念,没有"客观"的方法在语义层面上标注内容,以反映所有甚至大部分对图像的主观解释。 其次,通过扩展图像描述,使用户查询适应 CBIR 系统的运行方式,从两个方面弥合”形式"和"人"(用户)语义之间的鸿沟。

正如 Cox e.a. ,2000所提到的,编纂图像语义需要一种语言来表达它们。 因为它必须用于人类查询和人类解释数据库图像的描述,语言必须是自然的表达搜索目标,并给出准确和一致的描述每个数据库图像。 因此,很难设计出如此一致的形式语言。 今天的 CBIR 系统开发了一种更加实用的方法,使用隐藏语言进行语义编码和概率学习,并使用分类框架将图像特征和语义类联系起来。 特别是利用支持向量机(SVM)或贝叶斯网络等现代特征聚类和分类技术,建立图像的"语义"表示。 基于特征的图像块(区域)标记用于解释图像的语义内容。

CBIR系统的用户有多种目标,特别是关联搜索、特定图片搜索或类别搜索(Smeulders e.a,2000)。 关联搜索首先没有局部目标,并且意味着使用草图或示例图像对搜索进行高度交互式的迭代精化。 在头脑中搜索图像的精确副本(例如,在一个艺术目录中) ,或者搜索同一对象的另一个图像,假定 targer 可以被交互式地指定为与一组给定的例子相似。 类别搜索检索特定类别的任意图像代表,或者由示例指定,或者由标签或其他数据库信息派生。

目前,对视频、图像、音乐片段、语音片段或文本的唯一可行分析只能在算法级别进行。 这些分析涉及音频和视频信号的可计算特征,例如颜色、纹理、形状、频率分量、信号的时间特征,以及根据这些特征运算的算法。


image.png

在图像和视频检索中,使用多种算法对同一个区域进行图像分割,在连续帧中监测运动物体,提取特定(例如,空间不变)类型的纹理和几何形状,确定不同物体之间的关系,并分析而为频谱来获取特征。但与大多数计算机视觉应用不同的是,图像和视频检索将自动图像识别与用户积极参与检索过程结合起来(Castelli & Bergman,2002)。此外,检索本质上与查询示例的相似性排序相关,而不是与模型匹配的图像分类相关。 在 CBIR 系统中,用户评估系统响应,细化查询,并确定所收到的答案是否与该查询相关。

当然,基于认知和基于特征的检索结果几乎没有平行性,即使是像"含有一只鸟的图像"这样的简单任务也是如此。 正如 Chang e.a. 中强调的那样,"多媒体信息高度分布,索引很少,缺乏适当的模式。 多媒体搜索的关键问题是如何设计一个可扩展的、可视化的信息检索搜索系统? 这种视听信息系统需要大量资源用于传输、存储和处理,这些因素使得索引、检索和管理视听信息成为一项巨大的挑战”。

你可能感兴趣的:(Multimedia Information Retrieval 多媒体信息检索)