返回
---- 对于人的感官来说,有视觉、听觉、触觉和味觉等方面的感知。在视觉方面,可以感知位置、运动、颜色、纹理、形状、符号等;在听觉方面,可以感知位置、运动、音调、音量、旋律等;另外还有触觉(机械的、热的、电的、肌肉运动方面的)和嗅觉(气味、味道等)。除了视觉、触觉和嗅觉外,人们可以从听觉中获得许多信息,如我们日常收听的电台节目、欣赏的音乐、聆听的自然声响等。有许多与音频相关的应用,如音频数据库、广播、音频编辑、监控、在线音乐等。
----音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz,其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8 位或16位比特表示。
----以前的许多研究工作涉及到语音信号的处理,如语音识别。机器容易自动识别孤立的字词,如用在专用的听写和电话应用方面,而对连续的语音识别则较困难,错误较多,但目前在这方面已经取得了突破性的进展,同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很大帮助。
----常规的信息检索(IR)研究主要是基于文本,例如我们已经非常熟悉的诸如Yahoo!和AltaVista这样的搜索引擎。经典的IR问题是利用一组关键字组成的查询来定位需要的文本文档,即定位文档中的查询关键字来发现匹配的文档。如果一个文档中包含较多的查询项,那么,它就被认为比其他包含较少查询项的文档更“相关”。于是,文档可以按照“相关”度来排序,并显示给用户,以便进一步搜索。虽然这种一般的IR过程是为文本设计的,但显然也适用于音频或其他多媒体信息的检索。但是,如果我们把数字音频当成一种不透明的位流来管理,虽然可以赋予名字、文件格式、采样率等属性,但其中没有可以确认的词或可比较的实体,因此,不能像文本那样搜索或检索其内部的内容。对于音乐和非语音声响也是这样。
----基于人工输入的属性和描述来进行音频检索是我们首先想到的方法。该方法的主要缺点反映在以下几个方面:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但我们同时注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。
----本文将从信息存取的角度介绍基于内容的音频检索概念和方法。
----音频是声音信号的形式。作为一种信息载体,音频可以分为三种类型:
----波形声音 对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。
----语音 具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。
----音乐 具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。
----不同的类型将具有不同的内在内容。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。
----在物理样本级,音频内容呈现的是流媒体形式,用户可以通过时间刻度,检索或调用音频的样本数据。如现在常见的音频录放程序接口。
----中间层是声学特征级。声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知,可以直接用于检索;一些特征用于语音的识别或检测,支持更高层的内容表示。另外还有音频的时空结构。
----最高层是语义级,是音频内容、音频对象的概念级描述。具体来说,在这个级别上,音频的内容是语音识别、检测、辨别的结果,音乐旋律和叙事的说明,以及音频对象和概念的描述。
----后两层是基于内容的音频检索技术最关心的。在这两个层次上,用户可以提交概念查询或按照听觉感知来查询。
----音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小。另外,可以强调或关闭(忽略)某些特征成分,甚至可以施加逻辑“非”(或模糊的less匹配关系)来指定检索条件,检索那些不具有或少有某种特征成分(如指定没有“尖锐”或少有“尖锐”)的声音。另外,还可以对给定的一组声音,按照声学特征进行排序,如按声音的嘈杂程度排序。
----在查询接口上,用户可以采用以下形式提交查询:
----示例 用户选择一个声音例子表达其查询要求,查找出与该声音在某些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音。
----直喻 通过选择一些声学/感知物理特性来描述查询要求,如亮度、音调和音量等。这种方式与可视查询中的描绘查询相似。
----拟声 发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。
----主观特征 用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义,如用户可能要寻找“欢快”的声音。
----浏览 这是信息发现的一种重要手段,尤其是对于音频这种时基媒体。除了在分类的基础上浏览目录外,重要的是基于音频的结构进行浏览。
----根据对音频媒体的划分可以知道,语音、音乐和其他声响具有显著不同的特性,因而目前的处理方法可以分为相应的三种:处理包含语音的音频和不包含语音的音频,后者又把音乐单独划分出来。换句话说,第一种是利用自动语音识别技术,后两种是利用更一般性的音频分析,以适合更广泛的音频媒体,如音乐和声音效果,当然也包含数字化语音信号。音频信息检索分为以下几方面:
----1.基于语音技术的检索
----语音检索是以语音为中心的检索,采用语音识别等处理技术。如电台节目、电话交谈、会议录音等。
----基于语音技术的检索是利用语音处理技术检索音频信息。过去人们对语音信号处理开展了大量的研究,许多成果可以用于语音检索。
----(1)利用大词汇语音识别技术进行检索
----这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但在实际应用中,如电话和新闻广播等,识别率并不高。即使这样,ASR识别出来的脚本仍然对信息检索有用,这是因为检索任务只是匹配包含在音频数据中的查询词句,而不是要求一篇可读性好的文章。例如,采用这种方法把视频的语音对话轨迹转换为文本脚本,然后组织成适合全文检索的形式支持检索。
----(2)基于子词单元进行检索
----当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(SubWord)索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。
----(3)基于识别关键词进行检索
----在无约束的语音中自动检测词或短语通常称为关键词的发现(Spotting)。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“进球”的词语可以标记进球的内容。
----(4)基于说话人的辨认进行分割
----这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。如用这种技术检测视频或多媒体资源的声音轨迹中的说话人的变化,建立索引和确定某种类型的结构(如对话)。例如,分割和分析会议录音,分割的区段对应于不同的说话人,可以方便地直接浏览长篇的会议资料。
----2.音频检索
----音频检索是以波形声音为对象的检索,这里的音频可以是汽车发动机声、雨声、鸟叫声,也可以是语音和音乐等,这些音频都统一用声学特征来检索。
----虽然ASR可以对语音内容给出有价值的线索,但是,还有大量其他的音频数据需要处理,从声音效果到动物叫声以及合成声音等。因此,对于一般的音频,仅仅有语音技术是不够的,使用户能从大型音频数据库中或一段长录音中找到感兴趣的音频内容是音频检索要做的事。音频数据的训练、分类和分割方便了音频数据库的浏览和查找,基于听觉特征的检索为用户提供高级的音频查询接口。这里指的音频检索就是针对广泛的声音数据的检索,分析和检索的音频可以包含语音和音乐,但是采用的是更一般性的声学特性分析方法。
----(1)声音训练和分类
----通过训练来形成一个声音类。用户选择一些表达某类特性的声音例子(样本),如“脚步声”。对于每个进入数据库中的声音,先计算其N维声学特征矢量,然后计算这些训练样本的平均矢量和协方差矩阵,这个均值和协方差就是用户训练得出的表达某类声音的类模型。
----声音分类是把声音按照预定的类组合。首先计算被分类声音与以上类模型的距离,可以利用Euclidean或 Manhattan距离度量,然后距离值与门限(阈值)比较,以确定是否该声音纳入或不属于比较的声音类。也有某个声音不属于任何比较的类的情况发生,这时可以建立新的类,或纳入一个“其他”类,或归并到距离最近的类中。
----(2) 听觉检索
----听觉感知特性,如基音和音高等,可以自动提取并用于听觉感知的检索,也可以提取其他能够区分不同声音的声学特征,形成特征矢量用于查询。
----例如,按时间片计算一组听觉感知特征:基音、响度、音调等。考虑到声音波形随时间的变化,最终的特征矢量将是这些特征的统计值,例如用平均值、方差和自相关值表示。这种方法适合检索和对声音效果数据进行分类,如动物声、机器声、乐器声、语音和其他自然声等。
----(3)音频分割
----以上方法适合单体声音的情况,如一小段电话铃声、汽车鸣笛声等。但是,一般的情况是一段录音包含许多类型的声音,由多个部分组成。更为复杂的情况是,以上各种声音可能会混在一起,如一个有背景音乐的朗诵、同声翻译等。这需要在处理单体声音之前先分割长段的音频录音。另外,还涉及到区分语音、音乐或其他声音。例如对电台新闻节目进行分割,分割出语音、静音、音乐、广告声和音乐背景上的语音等。
----通过信号的声学分析并查找声音的转变点就可以实现音频的分割。转变点是度量特征突然改变的地方。转变点定义信号的区段,然后这些区段就可以作为单个的声音处理。例如,对一段音乐会的录音,可通过自动扫描找到鼓掌声音,以确定音乐片断的边界。这些技术包括:暂停段检测、说话人改变检测、男女声辨别,以及其他的声学特征。
----音频是时基线性媒体。现在我们看到的典型音频播放接口是与磁带录音机相似的界面,具有停止、暂停、播放、快进、倒带等按钮。为了不丢失其中的重要东西,必须从头到尾听一遍声音文件,这样要花费很多时间,即使使用“快进”,也容易丢失重要的片断,不能满足信息技术的要求。因此,在分割的基础上,就可以结构化表示音频的内容,建立超越常规的顺序浏览界面和基于内容的音频浏览接口。
----3.音乐检索
----音乐检索是以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。如检索乐器、声乐作品等。
----音乐是我们经常接触的媒体,像MIDI、MP3和各种压缩音乐制品、实时的音乐广播等。音乐检索虽然可以利用文本注释,但音乐的旋律和感受并不都是可以用语言讲得清楚的。通过在查询中出示例子,基于内容的检索技术在某种程度上可以解决这种问题。
----音乐检索利用的是诸如节奏、音符、乐器特征。节奏是可度量的节拍,是音乐中一种周期特性和表示。音乐的乐谱典型地以事件形式描述,如以起始时间、持续时间和一组声学参数(基音、音高、颤音等)来描述一个音乐事件。注意到许多特征是随时间变化的,所以,我们应该用统计方法来度量音乐的特性。
----人的音乐认知可以基于时间和频率模式,就像其他声音分析一样。时间结构的分析基于振幅统计,得到现代音乐中的拍子。频谱分析获得音乐和声的基本频率,可以用这些基本频率进行音乐检索。有的方法是使用直接获得的节奏特征,即假设低音乐器更适合提取节拍特征,通过归一化低音时间序列得到节奏特征矢量。
----除了用示例进行音乐查询之外,用户甚至可以唱或哼出要查找的曲调。基音抽取算法把这些录音转换成音符形式的表示,然后用于对音乐数据库的查询。但是,抽取乐谱这样的属性,哪怕是极其简单的一段也是非常困难的。研究人员现在改用MIDI音乐数据格式解决这个问题。用户可以给出一个旋律查询,然后搜索 MIDI文件,就可以找出相似的旋律。
----在基于内容的多媒体检索研究中,许多方法是通过自动提取的媒体特征来检索的,如图像中的颜色和纹理。现在的研究关注于语义级的检索,这需要一些语义分析或知识,例如分析注释或对象的标题、字幕等。而语义检索是理想的,因为它是人类所希望的一种检索方式,但是,它需要高强度的人工注释,或者需要难以实现的复杂的自动内容分析。从图像中提取语义非常困难,例如,如果没有关键字的注释,找出“长城”的照片非常困难,但现在的自动语音识别技术使音频检索可以达到语义级,可以自动识别出音频流中的词语,而完全可能自动定位到某人,他正在谈论长城,或是真正找出有关长城的记录片或镜头。因此,音频检索具有其自身的优势,并且可以达到较好的效果。
----在音频数据库领域,许多研究是有关语音方面的,因为语音是音频中一种重要的信息载体。非语音的音频数据检索和混合系统方面的研究工作也开始引起重视。这项研究涉及多学科,包括语音识别、信息检索、音频分析、信号处理、心理声学、机器学习等。
----目前关注的研究问题有:
----集成的检索方法 把音频特征与视频检索技术以及其他媒体特征相结合,以提高检索效率和检索能力。
---- WWW上基于内容的音频检索 需要研究快速的大规模音频库的浏览、检索和连续音频媒体的提交。
----长音频的浏览和检索 结构化表示音频流,并设计出新形式的音频内容浏览界面。研究通用的基于片段级的内容检索,在时间轨迹上匹配一组特征,这需要研究模糊的匹配方法。
----其他音频特征 继续研究有效的可区分性的听觉解析特征,以支持通用的和专用的音频检索问题。
---- 用户的音频查询接口 需要一种友善的和易用的用户接口来提交音频查询,包括音频轨迹的可视表示、查询表达、交互和求精、结构化浏览等。
----音频索引 多维特征索引结构的建立,以满足大容量数据库和WWW检索的要求。