一些语音特征--学习笔记

  1. 常用的语音特征:

    一些语音特征--学习笔记_第1张图片

    1. 语谱图(spectrogram):输入语音,预加重,分帧,加窗,FFT,幅值平方,对数功率
    2. Fbank:输入语音,预加重,分帧,加窗,FFT,幅值平方,mel滤波器,对数功率
    3. MFCC:输入语音,预加重,分帧,加窗,FFT,幅值平方,mel滤波器,对数功率,离散余弦变换
    4. PLP:输入语音,预加重,分帧,加窗,FFT,幅值平方,bark滤波器,等响度预加重,强度-响度转换,逆傅里叶变换,线性预测
    5. CQCC:输入语音,预加重,分帧,加窗,CQT,幅值平方对数功率,均匀采样,离散余弦变换
  2. 主要的声学特征分为三种:MFCC,PLP,CQCC。
    1. MFCC:是一组用来建立梅尔倒频谱的关键系数,对语音当中的片段,我们可以得到一组足以代表此语音的倒频谱,而梅尔倒频谱系数即是从这个倒频谱中推得的倒频谱(也就是频谱的频谱)。与一般的倒频谱不同 ,梅尔倒频谱最大的特色在于梅尔倒频谱上的频带是均匀分布于梅尔刻度上的,也就是说,这样的频带会较一般我们所看到线性的倒频谱表示方法,和人类非线性的听觉系统(audio system)更为接近。PLP (Hermansky, JASA 1990)这家伙呢利用等响度预加重以及立方根压缩(由感知的结果),而不是MFCCs用到的对数压缩;利用线性预测自回归模型获得倒谱系数。已经被证明的是PLP跟MFCCs比较,其具有更好的语音识别准确度以及更好的噪声鲁棒性。
    2. PLP:
      1. 具体实现:将语音信号通过傅立叶变换得到频谱,再对幅度求平方,然后进行临界频带积分(critical-band intergration),接着进行等响度预加重,接着求立方根(对强度进行等响度压缩),然后是进行逆傅立叶变换,最后再经过线性预测即可得到PLP。
      2. PLP特征有时候效果比MFCC要好,但是它的提取过程比较复杂。
    3. MFCC和PLP的主要区别为解卷积的过程。
    4. 根据语音生成的理论模型,语音信号是由激励信号和信道冲激响应信号卷积产生的,根据任务需求,强化或提取某种信号是有必要的。
    5. 判断某段是浊音还是清音,或要求出基音频率,就必须获取激励信号;要获取能反映信道特性的频谱包络,就要去掉激励信号。
    6. 解卷积就是把卷积信号的各种分量分开,主要有两种方式:
      1. 非参数卷积(又称为同态解卷积),即倒谱分析
        1. 代表:MFCC
        2. 同态解卷积:把卷积(非线性问题)转换到线性问题上解决,具体:在频谱(时域卷积转为频谱乘积)上做log(乘积转加性),再在加性的对数频谱上做DCT或DFT,即可得到所谓的倒谱
      2. 参数解卷积,即线性预测分析
        1. 代表:PLP
        2. 线性预测分析:在p阶上能通过若干个语音采样信号的线性组合逼近原始信号,使得与原始信号的最小均方误差最小,求得一组唯一预测稀疏。
    7. 谱估计的方法:
      1. 自回归AR,全极点模型
      2. 移动平均MA,全零点模型
      3. 自回归-移动平均ARMA,同时含极点与零点模型
    8. 关于p阶和零点:
      1. p阶的选择应和共振峰个数吻合,一般是两个极点对应一个共振峰。
      2. 但摩擦音是同时包含极点和零点的,所以在AR模型中为满足全极点假设,会用多个极点近似一个零点来套用AR模型,所以p阶会稍大于两倍共振峰个数,而PLP基于这种假设,当遇到含有零点的音时,就不能很好拟合(使用极点逼近),当阶数不够,就逼近较差了。
    9. MFCC和PLP的区别:
      1. 频谱映射的方式不同:Mel滤波器组和log对数与Bark滤波器组和cube root立方根;
      2. 解卷方式不同:倒谱分析与线性预测分析;
      3. 对噪声的鲁棒性:PLP对噪声的鲁棒性更高(可能与AR有关)
  3. other:
    1. 音色与基音频率有关,最好提取带上pitch特征,例如mfcc+pitch
    2. mel滤波器对于8khz以下的部分比较注重,特别是人耳可听范围,基音都是100多hz,mel会弱化掉的
    3. 最原始的特征才能提供更多细节的信息,被太多滤波器平滑过的特征反而缺失了分辨粒度
    4. 宽带语谱图spectrogram就能表征音频包络

#---------------2022.10.11更新------------------------

对于所列举以及还没列举的特征进行了代码复现,放置在仓库wsywsywsywsywsy979/speech_feature: 放置一些常用语音特征的抽取代码 (github.com)

欢迎讨论和学习~ 

#-----------------2022.11.6 add--------------------

  1. 过零率(Zero Crossing Rate,ZCR)是指在每帧中,语音信号通过零点(从正变为负或从负变为正)的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,是对敲击的声音的分类的关键特征。
    特性:
    1. 一般而言,清音(unvoiced sound)和环境噪音的ZCR都大于浊音(voiced sound);
    2. 由于清音和环境噪音的ZCR大小相近,因而不能够通过ZCR来区分它们;
    3. 在实际当中,过零率经常与短时能量特性相结合来进行端点检测,尤其是ZCR用来检测清音的起止点;
    4. 有时也可以用ZCR来进行粗略的基频估算,但这是非常不可靠的,除非有后续的修正(refine)处理过程。
  2. 谱质心:

    1. 描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。它是声音信号的频率分布和能量分布的重要信息。在主观感知领域,谱质心描述了声音的明亮度,具有阴暗、低沉品质的声音倾向有较多低频内容,谱质心相对较低,具有明亮、欢快品质的多数集中在高频,谱质心相对较高。该参数常用于对乐器声色的分析研究。

    2. 谱质心就是基于能量分布的频率一阶矩,能够反映信号中主谐波的基频值的特性

你可能感兴趣的:(speech,学习,语音识别,人工智能)