说话人识别概述

又称为话者识别,通过对说话人语音信号的分析处理,自动确认是别人是否在所记录的话者集合中,以及进一步确认说话人是谁。

和语音识别技术很相似,都是在提取原始语音信号中某些特征参数的基础上,建立相应的参考模板或模型,然后按照一定的判决规则进行识别。语音识别中,尽可能将不同人说话的差异归一化;说话人识别中,力求通过将语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人的个性因素,强调不同人之间的特征差异。

发音器官和发音习惯的差异都以复杂的形势反映在说话人语音的波形中,使得每个人的语音都带有强烈的个人色彩,这是对说话者进行识别的客观保证。

说话人识别是交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等知识的一门综合性研究课题。说话人识别技术按其识别任务分为两类,说话人辨认和说话人确认。前者,多对一,后者,一对一。说话人辨认可分为闭集和开集。开集说话人可在集合外,闭集在集合内。闭集要与集合中的说话人个数一一匹配,开集还要做出拒绝。确认只涉及到一个特定的参考模型和测试语音之间的比较和判决。

识别对象的不同,还可将说话人识别分为3类,文本有关、文本无关和文本提示型。文本有关的说话人识别技术,要求说话人的发音的关键词和关键句子作为训练文本,识别时按照相同内容发音。文本无关的说话人识别技术,不论是在训练时还是在识别时都不规定说话内容,识别对象是自由的语音信号。文本无关难度大,必须在自由的语音信号中找到能表征说话人的信息的特证和方法,建立其说话人模型困难。文本提示的说话人识别方法,避免被系统误识别的情况,每一次识别时,识别系统在一个规模很大的文本集合中选择提示文本,要求说话人按提示文本发音,识别和判断都是在说话人对文本内容正确发音的基础上进行的,防止说话人语音被盗用。文本集合大小跟防盗能力成正比。集合大时,训练困难,采用对有限声元进行训练,然后在识别时通过将基元模型连接组合形成提示文本模型的方法解决问题。

应用广阔,身份鉴别,缉拿电话信道罪犯,法庭中根据电话录音做身份确认,电话语音跟踪,提供防盗门开启功能。互联网应用和通信领域,说话人识别技术可以应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。呼叫中心提供人性化的人机交互界面。

主要两个阶段,训练阶段和识别阶段。训练阶段,根据话者集中的每个说话人的训练语料,经特征提取,建立各说话人的模版或模型。识别阶段,有待识别说话人说的语音同样经特征提取,与系统训练时产生的模版或者模型进行比较。说话人辨识中,取预测语音相似度最大的模型所对应的说话人作为识别结果,说话人确认中,通过判断测试音和所声称说话人的模型之间的相似度是否大于某一阀值,作出判断。

说话人识别系统的实现分为如下几个基本问题:

1.语音信号的预处理和特征提取,即提取能够表征说话人特征的参数

2.说话人模型的建立和模型参数的训练

3测试语音与说话人模型的匹配计算

4.识别与判决策略。说话人辨认或者确认。

 

目前实现方法可分为3类

1.模版匹配法:训练过程中从每个说话人的训练语句中提取出特征矢量,形成特征矢量序列,选择方法优化,求取一个特征矢量集合表征特征矢量序列,将此集合作为参考模板。识别时,同样的方法提取特征矢量序列,按匹配规则跟所有参考模板比较。匹配往往通过特征矢量之间的距离测度来实现,累计距离为匹配结果。说话人识别中最常用的模版匹配方法有动态时间归正DTW和矢量量化VQ方法。

2.概率模型法

从某人的一次或多次发音中提出有效特征矢量,根据统计特性为其建立相应的数学模型,使其能够有效的刻画出此说话人特征矢量在特征空间的分布规律。数学模型一般通过少量的模型参数来表示和存储。识别时,将测试语音的特征矢量与表征说话人的数学模型进行匹配,从概率统计角度,计算得到测试语音与模型间的相似度,并以此作为识别判决的依据。最常用的模型时HMM,很好描述平稳性和可变性,准确描述人的声道变化特性

3人工神经网络方法

类比于生物神经系统处理信息的方式,用大量的简单处理单元并行连接而构成一种独具特点的=复杂的信息处理网络。系统具有自组织、自学习的能力,可以随着经验的累积而改善自身的性能。人工神经网络这些特性对说话人识别系统的实现有很大的帮助,可以用于更好的提取语音样本中所包含的说话人的个性特征。

说话人识别评价系统性能指标很多,系统的识别率,训练时间长短、训练语料的数量、系统相应时间、话者集规模=说话方式及价格。场合不同,评价指标不同。

最重要的是识别率,必须优先得到保证,设定其他性能指标的出发点。说话人辨认系统中,常用的是正确识别率和错误识别率。说话人确认系统是错误拒识率和错误接收率。两者矛盾。场合不同,其要求的大小也不相同。等错误概率是在判决门限一定情况下,其两者相等,器作为评价说话人确认的一个重要指标。

你可能感兴趣的:(说话人识别概述)