语音情感识别(特征、处理、分类方法)--学习笔记

  1. 将情感划分为两个维度:    
    1. activation:
      1. 表达情感需要的能量。
      2. 比较强烈的情感比如愤怒,喜悦,恐惧。伴随着这类感情可能会有心跳加速,血压升高等等,同时人的语速会变快,音高变高。
      3. 比较舒缓的情感比如忧伤,语速可能会降低,高频会减少。
      4. activation类似的感情,比如愤怒与喜悦,则用valence来加以区分。
    2. valence:用何种feature来描述valence尚无定论。因此,在情感识别系统中,强烈的感情与舒缓的感情很好区分,而区分不同类别的情感则还是一个挑战。
  2. 语音情感识别中的特征:
    1. 特征提取的作用域:局部特征还是全局特征
      1. 全局特征在分类的准确率上往往比局部特征表现的要好,同时耗时也更少(特征量较少)。然而全局特征也有许多缺点:
        1. 只在分类高兴奋度的情感(high-arousal emotions,也是我们之前说的activation较高的情感)中比较有效,比如在分类anger和joy时,全局特征就会失效。
        2. 全局特征会丢失语音的短时信息(temporal information)。
        3. 当使用较为复杂的分类器(HMM,SVM等)时,全局变量会因为特征较少而无法进行有效的训练。
      2.  因此在复杂的模型中使用局部特征,模型的准确率更好。
      3. 还有一种做法是对语音信号根据音素进行分段而不是分帧。研究显示了把分段的特征和全局特征相结合可以一定程度提高是别的准确率。
    2.   提取什么样的特征:
      1. Continuous speech features 连续语音特征
      2. pitch-related features:基音相关特征
      3. formants features:共振峰特征
      4. energy-related features:能量相关特征
      5. timing features:时域特征
      6. articulation feature:发音特征
      7. 常用的有F0,Energy,Duration,Formants。另外在特征的提取中,除了使用特征还对特征进行一些转换,比如平均,最大最小等
      8. is09特征:对于每一帧信号,提取16个特征和它们的delta,并对这32个特征进行右边的12种变换,得到384维((16x2)x12)的特征向量(每一帧)。
    3. 语音质量特征:

      1. voice quality

      2. harsh

      3. tense

      4. breathy

    4. Spectral-based speech features:
      1. LPC
      2. MFCC
      3. LFPC
      4. TEO-based features
    5. Continuous speech features 用来检测high-arousal和low-arousal的情感;频谱特征比如MFCC用来做N-way classification的问题,TEO-based features 用于压力检测;
  3. 语音处理:
    1. 前处理:
      1. pre-emphasis filter: to equalize the effect of the propagation of speech throungh air.
      2. overlapped frames: to smooth the extracted contours.
      3. Hamming window: to reduce ripples in the spectrum of the speech spectrum.
      4. slient intervals: 语音中的静音间隔也包含情感信息,通常会保留下来。
    2. 特征提取
    3. 后处理:
      1. 正规化 feature normalization,由于方差中包含许多情感信息,normalize后会消除这些特征,需要考虑这一点
      2. 降维:
        1. feature selection:找到分类效果最好的子特征。
        2. feature extraction:对原始特征进行mapping到另一空间,从而达到降维效果。
  4. 分类方法:
    1. HMM:效果好
    2. GMM:比HMM高效,但不能利用短时特征
    3. 神经网络
    4. SVM
    5. Multiple classifer system

你可能感兴趣的:(speech,学习)