■ 李蓬涛 编者按:视频搜索技术针对音视频这类非结构化数据,使用了语音识别、自动抽帧和内容自动关联等技术,真正做到了从内容上对视频进行搜索。2006年互联网行业的新热点是各类垂直搜索,随着行业细分,视频搜索将激荡起搜索领域内的一轮新热潮。为此,本报特地编撰了一组文章,全面介绍视频搜索技术及其应用态势。
Autonomy非结构化视频搜索技术是信息论与概率论的巧妙结合,实现了计算机对文本、网页、语音和视频的自动分析和处理。 非结构化视频搜索的核心技术来源于英国“Autonomy”,它是全球最为著名的非结构化信息智能处理公司。 非结构化视频搜索的领先技术实现了计算机对文本、网页、电子邮件、语音、视频、文档和个性档案的自动分析和处理。 视频处理亮点: ● 建立实时音频索引 音频实时索引是Autonomy视频搜索技术基础构架中的重要模块,并具有良好的扩展性,有三个独特的音频处理功能,可从音频信号中自动生成关键字、辨别说话者和建立音频分类索引,无论信号是来自卫星、磁带录像机、正在播出的节目或直接来自于麦克风,音频辨识模块都可以将视频中的音频部分实时转换为可搜索的文字内容。到目前为止,Autonomy语音识别模块支持的语言语种包括英文、法文、阿拉伯语、德语、西班牙语、中文、意大利语、希腊语、俄语等数十种。 ● 视频编码 Autonomy能够从录像带、卫星或者数字文件中获取视频,也可以从正在播出的信号源中截取。利用SmartEncode实时处理方法,将视频内容制作成完整的视频索引。训练有素的编辑人员通过整理和丰富视频索引,使网站用户的搜索结果更准确,更易于浏览。可以选择使用最流行的流式视频格式,如RealVideo、QuickTime、Windows Media等。 ● 建立实时视频索引 Autonomy使用先进的技术“捕捉、听取和阅读”模拟视频信号或者数字信号,建立信息丰富的视频数据索引。VideoLogger具有特殊的智能,能够寻找视频内容中的变化,分割视频材料,生成可供浏览的关联帧,还能从视频信号中摘取字母文字和屏幕上的插播文字。 VideoLogger软件能够同时辨别视频中的内容和屏幕上的文字与数字。配合音频索引模块,您可以及时准确地搜索、取出您所需要的视频片断。 ● 即时裁片 Autonomy视频技术能在索引的任何一个切点直接将视频传输到用户的桌面。用户可使用标准的互联网浏览器迅速搜索内外网,取出视频内容。 ● 多路控制 ControlCenter可同时控制多路视频采集、音频识别模块的工作,通过控制中心,管理员可灵活设置多种策略,根据不同视频采集需求,进行统筹管理。每路采集均可通过差异化配置文件来满足不断变化的用户需求。 ● 特定图像识别 对相应的新闻节目进行自动标引的同时,能自动检测出预定义的播音员头像,系统自动将该视频标引出。 ● 视频的自动标引 自动对语音识别模块返回的中文语音识别中特定的词语(如人名、地名、组织名称等等)以相应的标记进行标注。 技术架构及模块化设计 1.视频处理部分 视频处理部分包括一整套完整的后台视频处理技术,从视频的采集、编码转换、自动数字化、视频抽帧、自动标引、语音识别、视频索引等,全部实现自动化流程。 整套系统主要由Encoder、Stream Media服务器、Video Logger、Control Center、Video Server和Autonomy IDOL Server(核心引擎)等几个模块组成,此外Audio Indexer为Video Logger提供语音识别等音频信息处理与分析功能。 每个模块的具体功能如下: Video Server: 存储与管理处理完成的视频,提供相应的界面或者API供最终用户使用; VideoLogger: 处理音视频的核心部件,实现对视频的自动采集、标引、关键帧抽取、特定图像识别等,与ControlCenter交互发送音频给AudioIndexer,同时合成结果; 图1 视频处理系统架构图 图2 搜索引擎系统架构图 图3 IDOL技术框架示意图 图4 分布式模块结构图 图5 按贝叶斯概率论和申农信息论进行搜索 Control Center: 控制多个VideoLoggers索引视频的进程,同时实现日程和管理等功能; Audio Indexer: 中文语音识别的核心部件。 2.搜索引擎部分 核心搜索引擎部分是IDOL Server,它是一个信息智能操作层,能自动把各个信息源和各种文件格式统一在一个智能的信息操作平台下,这个智能信息操作平台可以提供多种信息操作的功能,比如自动链接、文章分类、内容概括和信息聚类等。在这种情况下,用户只需要发送一次请求,就可以从不同的系统中得到相应的结果。 在IDOL(信息智能操作层)下,Autonomy的产品是围绕着核心技术一层开发的模块化的部件。 (1)动态推理引擎DRE 动态推理引擎DRE(Dynamic Reasoning Engine)是最核心的服务器产品部件,它是一个扩展性极强、多线程的核心引擎。概念分析、内容提取、概念模式识别和相关度计算等关键工作都是由动态推理引擎来完成的。 当配置设定好以后,动态推理引擎将自动地运行,接收和处理新的信息,并向其它软件部件通过HTTP(XML) 来提供功能服务。DRE是一个多操作系统的引擎,可以在多种硬件和操作系统环境下最佳化地运行,支持从Intel PC使用的Windows,到多处理器终端运行的Unix。 DRE使用HTTP/XML来与所有其它软件部件沟通联系。这样就允许在局域网和因特网上大量分布式地安装实施动态推理引擎DRE。 (2)分类服务器 在提供DRE的概念理解功能外,Autonomy平台中第二个核心部件是分类服务器(ClassificationServer)。分类服务器负责提供诸如自动分类和自动信息群识别等功能。 ● 自动信息群识别: 分类服务器可以管理海量的信息和用户档案,按内容把它们自动分成有条理的信息群。信息群识别使用的是一项自动凝聚的技术,把大量文章按概念划分。 ● 自动分类: 分类服务器可以把新接收到的文章按相关度自动分门别类 ,然后可以按类别进行自动标引、发送和存放。 ● 自动结构化标引生成: 分类服务器可以管理海量的信息和用户档案,按内容把它们自动分成有条理的信息群,然后为这些信息群生成标引名称。 (3)用户管理服务器 用户管理服务器(UAServer)是Autonomy平台中的第三个核心部件。用户管理服务器提供用户自动建档、档案搜寻、档案分析和档案实时自动更新等功能。 (4)分布式模块 分布式模块主要包含三个主要部件: ● 分布式访问控制器DAH (Distri-buted Action Handler): 每个分布式访问控制器可以与多个动态推理引擎DRE连接,DAH还可以与其它DAH连接。这些连接都使用HTTP并遵循XML标准。DAH可以提供更可靠的功能服务、更好的容灾能力和迅速的反应能力,打破地域界限,提高系统的可伸展性和灵活性。 ● 分布式索引控制器DIH (Distri-buted Index Handler): 每个DIH可以与多个连接器与动态推理引擎服务器连接,这些连接都使用HTTP并遵循XML标准。 ● 分布式管理控制器: DiSH (Distri-buted Service Handler): 控制和监视整个Autonomy系统,使所有系统中服务器的状态一目了然。 (5)应用软件及Web服务 在“信息智能操作层”之上Autonomy提供各种应用软件。比如搜索引擎、企业电子门户、用户关系管理系统、知识管理系统和电子商务系统。这些应用软件与“信息智能操作层”的关系也是构架在HTTP和XML网络服务标准之上的。 Autonomy还提供简单易用并且功能强大的建设开发工具(API/SDK)。合作伙伴可以选择自己的开发环境(C/C++、Java、VB、ActiveX、COM、DCOM、HTTP、JSP和ASP等),通过XML网络服务,来迅速地开发设计出最符合用户需求的应用软件和用户界面。 信息论与概率论的巧妙结合 众所周知,视频搜索不同于常见的全文检索,由于富媒体格式的特殊性,长久以来,人们仅仅是通过关键词来检索音视频文件名和标引的元数据,无法达到对富媒体的深层次检索应用。 Autonomy根据信息论和概率论,巧妙地运用概念匹配技术,实现视频搜索功能。其视频搜索技术打破了传统视频检索系统仅仅提供文件名和元数据搜索的瓶颈,允许用户使用关键词、句子或一段文字作为检索条件,检索所有电视节目、网络博客和网络视频等元数据,检索结果准确定位到相应的视频位置时间点,在提供高速播放的同时自动展示内容相关的各种音视频关联结果。 Autonomy搜索技术的概率论基础可以追溯到托马斯.贝叶斯时代,贝叶斯的论文主要是计算多个变量之间的概率关系以及决定一个变量影响其他变量的范围。 一个典型问题就是判断一个文档与指定查询或特定概念的相关性。贝叶斯概率论可通过判断该文档与已知细节之间的关联,从而帮助我们的计算。作为“未来的”结果分布(适用于判断相关性)可更有效地被“已产生的”已知模型和相似性所利用。 对于文本的指定查询来讲,该理论的延伸比相关性信息更加深入。适应性概论概念模型(APCM)可分析文档中的特性之间的关系,从而发现新的概念和文档,并确定与文档集紧密关联的概念,从而对新文档准确分类。 传统的统计学论点认为: 如果一枚硬币被抛100次并且每次都是正面朝上,则下次被抛出后背面朝上的几率仍然相同。而贝叶斯方法认为: 100次连续正面朝上证明该硬币不均衡或者两面都是正面。用相似方法,被用户认为与特定相关的文档的知识可用来判断未来文档的相关性。APCM可使信息“繁衍”。 虽然没有人知道贝叶斯的初衷是什么,但不可否认的是贝叶斯定理已经成为当今统计学概率模型的核心原理。将当代计算能力应用于贝叶斯所倡导的概念中,可快速高效地计算出多个变量之间的关系,使得软件可以自行处理概念。 信息论是所有信息处理系统的数学基础。 从克劳德·申农的创新(《通信数学原理》1949年出版)中我们发现: “信息”在处理中可被作为一种可计算值。 举个最基本的例子(处理单元如文字或短语,彼此相互独立),根据申农的熵(平均信息量)或不确定测量,一个单元平均传送的信息量应该是: H=-∑pi.log2(pi) 当概率完全相同时该公式计算出最高值,这样,结果文本应该是任意的,如果不是这样,被文本传送的信息将低于最高值,也就是说有冗余。该结果通过更多复杂的数学理论进一步得到扩展,直到有单元关联。 自然语言包含高度的冗余,比如在一个嘈杂的房间里谈话时,虽然对方的有些字没有听到,但丝毫不影响我们理解对方的谈话; 又如阅读报纸时,即使一目十行,我们也可以获取新闻文章的大意。信息论为抽取冗余中的概念提供了一个框架。 Autonomy对概念模型的处理方法基于申农信息论,那就是,通信单元出现的频率越低,它所表达的信息越多。因此,上下文中处理单元出现的越少,它所预示的意思就越多。正是这一理论使得Autonomy 软件可确定文档中最重要的或包含最多信息的概念。 贝叶斯概率论是根据概念之间相互联系而建立其意义模型的数学方法。申农信息论为提取相关文档中最有意义的概念提供一种机制。下面有关企鹅的例子能很好地说明上述方法。 有些时候我们希望了解环境污染对企鹅的影响。传统方法是利用关键字搜索引擎并输入“Penguin(企鹅)”来寻找我们感兴趣的信息。在返回有用信息的同时,这种方法还会带来大量不相干的内容,如出版公司、巧克力饼干、电影“蝙蝠侠与罗宾”等等。但是,在我们的例子中,我们主要关心有关企鹅这种鸟类的内容。一篇包含“海洋”的文章可能与企鹅有关,但是“海洋”会在许多情况下出现,因此很可能其内容是讲述其他东西。不过,如果文章包含“黑色”、“白色”、“不会飞”、“羽毛”、“光滑”和“石油”等词汇,则很可能与企鹅和污染有关。另外,其搜索过程并没有使用“企鹅”一词,而是使用更多较次要的信息,其中任何一项都可以省略而不会明显降低结果的高相关性。总之,Autonomy的方法可以根据主要概念、关键词或数量更多的次要信息理解上下文。 输入一段有关狗的检索条件,Autonomy能够根据输入内容和索引,按照一定相关度提供符合用户要求的搜索结果,而一些无关的结果,如狗粮、卖狗等信息,则根据相关性原则被过滤掉,这样,用户也更容易找到自己关心的结果。 Autonomy搜索技术既支持传统搜索技术,例如关键字、布尔操作、字段检索、逼近式检索和同义词检索等,也支持诸如自然语言搜索、多语种混合检索、联合检索、二次检索、图片及多媒体数据检索等功能: ● 支持全文检索、组合检索和字段(元数据)检索; ● 对信息内容进行有效的中文分词处理,支持字词混合索引; ● 支持词、句和段落进行检索,支持逻辑表达式检索; ● 支持智能化检索,如自然语言检索,用户可以通过描述性语言进行搜索; ● 支持按多种方式将结果排序,如按照与检索内容的相关程度排序、按照时间排序和按字母顺序排序等; ● 支持多种数据格式检索,例如: 图片、多媒体、文本信息等; ● 二次检索,具有快速的收敛能力,它通过结果中若干最为相关的信息,依据其内容进行二次概念检索,从而实现检索结果的主题钻取; ● 支持个性检索服务,如专题搜索,个性化信息推送等功能; ● 支持跨多个数据源的统一搜索。 此外,Autonomy提供高达80种以上的多语言支持,实现在一套系统之上的多语言检索能力。 Autonomy核心算法是基于两种数学模型(概率论和信息论)之上的(非某种语言模型),因此理论上能够处理所有有文字表现形式的语言;同时可以自动识别语言语种,支持多种语言的混合检索。 链接:几家视频搜索网站介绍 新浪视频搜索 http://ikan.sina.com.cn/ 新浪视频搜索用于搜索网络上的视频文件,可搜索到rmvb、rm、asx、wmv和mpg等各种视频播放格式的文件,以及压缩后的rar、zip等文件。文件类型涉及影视题材、音乐mv、新闻资讯、广告、DV作品和Flash等。
SOSO视频搜索 http://video.soso.com/ 腾讯旗下的视频搜索网站,分电视视频和网络视频两大类,可以按“热门搜索”、“精彩视频”和“最新视频”等来进行快捷搜索。
北京赛金传媒 http://www.openv.tv/ 特色在于其独特的电视墙展现方式,可以将热点视频与最新视频内容统一展现,一点击即可播放。
Google视频搜索 (英) http://video.google.com/ 用户用关键字即可搜索到许多组织的视频数据库索引以及网友上载的视频文件。 用户需要下载Google视频观看器(Google Video Viewer)的软件才能够观看完整的视频。 |