一、LPC和LPCC
1、LPC
假设:当前信号的值x(n),可以用过去p个取样值的加权和s(n)^来预测
其中,s(n)^为预测值,s(n)为真实值, 加权系数a1、a2、a3…ai称为p阶线性预测系数。
LPC分析:对于预测误差滤波器而言,求其预测系数a1、a2、a3…ai,使得预测误差e(n)在某种预测条件下最小的过程。
A(z)称为LPC误差滤波器,用于求p阶参数。
最小准则:常用的是均方误差E[e(n)^2]最小。
2、语音信号模型与LPC之间的关系
语音信号产生过程:声门激励u(n),声道调制h(n)。
声道系统函数:H(z)=S(z)/U(z)是线性预测合成滤波器,用于重建语音
结论:声道系统函数H(z)可以通过线性预测进行表示,即LPC可以反映声道的参数。(当p足够大的时候,该H(z)模型可以模拟所有语音信号的声道系统。)
3、LPCC
本质:声道可以进行线性假设
原因:LPC对误差比较敏感(LPC误差滤波器,误差本身就是很小的数值,较容易被影响),导致小的误差也会使频谱质量下降
过程:LPCC是LPC系数在倒谱中的表示。LPC系数的z变换的对数模函数的反Z变换
优点:计算量小,易于实现,元音描述的好,还可以描述共振峰,去除激励信息
缺点:对辅音描述能力弱,因为线性假设针对辅音不成立,抗噪性能差
与倒谱包络的对比:LPC阶数决定了共振峰个数,倒谱没有这种限制
matlab程序(待完成)
二、MFCC
1、倒谱
此部分详细介绍可移步频谱、倒谱介绍及matlab实现
工程定义:信号功率谱对数值进行傅立叶逆变换的结果。
实际过程:是实部求逆变换,也叫实倒谱,用于估计语音参数
实现框图:
2、MFCC
实质:听觉感知(更符合人的听觉范围),非线性。
根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。
这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
过程:过程类似倒谱分析,只是将频率f转换为梅尔频率m,具体关系如下
Mel滤波器组:将频率f(N=512)转换为m(滤波器组数),通过滤波器组实现。
假设使用的是26组滤波器,那么对应的就是26阶MFCC。横坐标是f,纵坐标是m,将m平均插入26个值(不包括0和最大值),然后对应横坐标f上的26个坐标非均匀分布),将横坐标f插入26个数,26组滤波器的每一个滤波器对应一个值。(如果做的是512点fft,得到的f共有512个点)
特点:低频分辨率高,高频分辨率低;三角滤波对高频信息的幅度有衰减作用 各f(i)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽
每一个滤波器求得N点概率和,再分别乘以能量,得到新的频谱。
mel滤波器作用:低频增强,高频衰减。对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰 具有子代,降低运算量。
matlab程序(待完成)
与LPCC对比:MFCC更符合人的听觉特性;LPCC不适合分析辅音,MFCC可以
三、CQT和CQCC
1、CQT
本质:基于音乐识别的变换(若干八度的12平均律)
核心:频谱频率非线性,而是以log2为底进行转换的(类似梅尔频率的过程)
过程:中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。
优点:避免了时频分辨率均匀的缺点,对于低频的波,它的带宽十分小,但有更高的频率分辨率来分解相近的音符;但是对于高频的波,它的带宽比较大,在高频有更高的时间分辨率来跟踪快速变化的泛音。
2、CQCC
实现框图
与其他频谱的对比:
matlab程序(待完成)
四、参考
1、频域特征值提取的MATLAB代码实现(频谱、功率谱、倒频谱)
2、信号频域分析方法的理解(频谱、能量谱、功率谱、倒频谱、小波分析)
3、基于音乐识别的频谱转换算法——CQT
4、语音信号提取声学特征时,MFCC和PLP的区别是什么?
5、语音信号处理(二)—— MFCC详解
6、语音识别第4讲:语音特征参数MFCC
7、AI(I)语音(I):MFCC特征参数提取
8、M. Todisco, H. Delgado, and N. Evans, “A new feature for automatic speaker verification antispoofing: Constant q cepstral coefficients,” Processings of Odyssey 2016, 2016.
9、张雪英.《数字语音处理及MATLAB仿真》(第2版)[M].北京:电子工业出版社,2016