语音情感识别常见的声学特征

1.韵律特征
  1. 基于基音频率的特征,包含Jitter,基音频率的包络,基音频率的线性预测系数。
  2. 共振峰特征,包含一阶共振峰,二阶共振峰,以及共振峰的带宽等。
  3.  基于能量的特征,包含 shimmer,4 阶Legendre 参数等。
  4.  时间特征,包含说话部分和不说话部分的比值,最长说话的时间等。
  5. 发音清晰程度的特征。
  6.  声音级别:信号幅度,能量被证明与声音级别有很大的关系。
  7.  短语,音素,单词以及这些特征的边界。
  8.  时间结构。
 
2.谱特征
  1. 短时连贯性(Short Time Coherence,SMC)
  2. 过零幅度峰值(Zeros Crossing Peak Amplitude,ZCPA)
  3. 线性预测倒谱系数(Linear Predictor Cepstral Coefficients,LPCC)
  4. LPC MFCC LSP PLP ,RASTA 感知线性预测倒谱系数(RASTA-PLP)
  5. 最小二乘改进Yule-Walker 方程(Least Squares Modified Yule-Walker Equations,LSMYWE)
  6. 单边自相关线性预测系数(One-sided Autocorrelation Linear PredictorCoefficients,OSALPC)
  7. 单边自相关线性预测倒谱系数(One-side Autocorrelation Linear Predictor Cepstral Coefficients,OSALPCC)
 
 
3.其他特征
  1. 根据发音系统提出的基于Teager 能量算子(Teager Energy Operator,TEO)的语音特征。
  2. 根据语音属于一种非平稳的信号原理,提出的基于经验模态分解(Empirical Mode Decomposition,EMD)的语音特征。
  3. 根据语音信号的混沌程度在缓和的情绪中比较小,在激烈的情绪中比较大的原理,基于分形维(Fractal Dimension)的语音特征。
  4. 另外基于深度学习的语音特征在语音信号处理中的作用越来越大。

你可能感兴趣的:(语音识别,模式识别)