从语音信号中提取能够表征说话人特征的参数是说话人识别技术实现的关键。在理想情况下,这些特征应该具有以下特点:
1、具有很高的区别说话人的能力,同时对于同一个人语音发生变化时应该保持稳定
2、在输入语音容易受到传输通道和噪声的影响时,应该具有较好的顽健性
3、易于提取、计算,且特征的各维参数之间应该具有独立性,在保持高识别率的情况下,应有尽可能少的特征维数
4、不易被模仿
目前还没有符合这样条件的参数。
语音产生的声学模型表明,语音是声源的激励信号经过声道共鸣最后通过口腔、鼻腔的共鸣辐射生成的。因此可以从语音信号中分别提取出反映说话人声门特性和声道特性的特征参数
特征参数的评价方法:
评价特征对识别的贡献有来年各种方法:一种是通过F比和D比,来分别表征单个参数和多维特征矢量在特征空间中的区分能力,以衡量特征参数的有效性;另一种方法是考察各特征参数对识别率的影响。后者的识别方法更直接,但是评价结果受到识别方法的影响,使用不同识别方法时,两参数间不能通过识别率来比较它们的有效性。前者可以做到与识别方法无关。
1、F比和D比
对于一个说话人的一段语音提取出一组特征参数,相当于把该段语音映射到多维特征空间上的一个点。
同一说话人的不同语音会在特征空间产生不同的点,其分布可用多变量概率密度函数来描述。
如果对于同一个人的不同次发音,这些点比较集中;而不同说话人的发音分布较远,则所选择的特征参数能够有效描述说话人的个性特征。
对于单个参数而言,可以取两种分布的方差之比(成为F比)来作为有效性的度量准则。
F比的计算如下:
式中各变量分别为:ot-i:第i个人第t次发音得到的特征参数;<>i:为对不同说话人求平均;<>t:为对说话人的不同次语音求平均;ui=
某一特征参数的F比越大,说明此特征具有越好的性能。但也不是绝对的,因为F比并不能保证这些分布彼此之间不重叠,且为对单一特征进行评估,忽略了特征矢量中每个特征参数的相关性。
D比,用以衡量多维特征矢量在说话人识别系统中的有效性。
定义两个协方差矩阵,即说话人间的协方差矩阵B和说话人内协方差矩阵W,分别表示为:
根据这两个协方差矩阵,可以定义对多维特征矢量的可分性测度,称为散度(divergence),即D比,表示为:
即D比即为矩阵的迹。
D比考虑了特征矢量中各维度之间的相关性,更适于作为一组特征有效性的度量。
D比维数为1时即退化为F比。
2、增减分量法
说话人识别系统中常用的特征
20世纪60年代以前:基于滤波器组和傅立叶变换的频谱特征
20世纪70年代以来:线性预测倒谱系数LPCC(linear predictive cepstral coefficient)
20世纪80年代:Mel频域倒谱系数MFCC(mel frequency cepstral coefficient)和感知线性预测系数PLP(perceptual linear predictive)
目前,说话人识别中常用的语音特征包括:基于声道的LPCC、基于临界带的MFCC、基于临界带和等响度曲线的PLP、基音轮廓特征、考虑语音动态特性的一阶和二阶差分倒谱、考虑语音时域特性的RASTA滤波、以及其他基于听觉模型的特征等
选取参数一般考虑两个方面:生成语音的发音器官的差异(先天的)与发音器官发音时动作的差异(后天的)。
前者主要表现在语音的频率结构上,代表性的特征参数有倒谱和基音参数。
后者主要表现在语音频率结构的时间变化上,代表性的参数有差分倒谱和差分基音参数。
说话人识别中,频谱包络特征,特别是倒谱特征可以得到比较好的识别性能,且易于提取。
而基音特征只存在于浊音中,且准确稳定的基音特征比较难提取。
如果利用多种特征的有效组合,可以得到比较稳定的识别性能。如利用动态特征和静态特征的组合,可以得到比较好的识别结果。