语音的关键声学特征(语音情感特征提取)

语音情感特征提取及其降维方法综述1

语音传递的信息可以分为两大类:语义信息和声学信息。关注语义方面的研究比较多,但是声学特征也能包含很多关键信息,既可以作为辅助语义信息进行研究和应用,也可以单独进行语音情绪识别投入应用中。

所以我们来看一下语音有哪些关键声学特征。


文章目录

  • 语音情感特征提取及其降维方法综述[^1]
    • 语音情感特征分类
    • 语音特征的提取
        • 1.基频特征
        • 2.共振峰特征
        • 3.Mel频率倒谱系数(MFCC)提取
        • 4.基于导数的非个性语音情感特征提取
        • 5.基于Teager能量算子(TEO)非线性特征提取
        • 6.基于深度学习的特征提取
    • 常用特征降维算法


语音情感特征分类

主要分为三大类

  • 韵律学特征(超音段特征/超语言学特征)

    包括时长相关特征/基频相关特征/能量相关特征等
    语音的关键声学特征(语音情感特征提取)_第1张图片

  • 音质特征

  • 基于谱的相关性分析特征
    是声道形状变化和发声运动之间相关性的体现,目前基于谱的相关特征主要有线性预测倒谱系数(LPCC)、Mel频率倒谱系数。

语音情感相关的特征通常由以下这些构成:
语音的关键声学特征(语音情感特征提取)_第2张图片

此外,由于不同民族不同语种的情况下情感表达的差异性,以及个体之间说话特征的差异性,还可以把语音情感特征分为个性化/非个性化两类。

个性化语音情感特征:
语音的关键声学特征(语音情感特征提取)_第3张图片
个性化语言情感特征是一些直接反映数值的指标,因此人与人之间差异较大,携带了大量个人情感信息,不具有通性。研究较多,实际应用比较困难。

非个性化语音情感特征:
在这里插入图片描述
语音的关键声学特征(语音情感特征提取)_第4张图片
非个性化语言情感特征是一些变化率(导数)的指标,不易受到说话者个人特征的影响。

语音特征的提取

1.基频特征

基音周期(Pitch)是声带振动频率的倒数。它指的是人发出浊音时,气流通过声道促使声带振动的周期。声带震动的周期即为基音周期。基音周期的估计称为基音检测(Pitch Detection)。

基频包含了大量表征语音情感的特征,在语音情感识别中至关重要

变化范围大,50-500Hz,且检测难度较高。

常用的基频特征提取方法有:

  • 自相关函数法(ACF)-时域
    在这里插入图片描述
  • 平均幅度差法(AMFD)-时域
    在这里插入图片描述
  • 小波法-频域

2.共振峰特征

根据声学观点,声道可以看作非均匀截面的声管,当声音激励信号的频率与声道频率一致时,声道将发生共振,产生的波形称为共振峰。

共振峰是语音信号处理最重要的参数之一,它决定着元音中的音质。

共振峰参数包括共振峰频率和共振峰带宽

不同情感发音的共振峰位置不同,情感状态发生变化时前三个共振峰的峰值变化较大,且其峰值从低到高依次为第一共振峰、第二共振峰和第三共振峰。

一般选取第一共振峰、第二共振峰、第三共振峰的平均值、最大值、最小值、动态变化范围、平均变化率、均方差,共振峰频率的1/4 分位点、1/3 分位点以及共振峰变化的1/3 分位点、1/4 分位点等统计特征。

常用的共振峰提取方法有:

  • 倒谱法
    倒谱法采用同态解卷技术,将基音信息和声道信息分离开来,从而可以直接求取共振峰参数,这种方法相对直接进行DFT 运算求取共振峰更加精确,避免了由基音谐波频率产生的误差。

  • 线性预测分析方法(LPC)
    基本思想是语音信号可由过去若干个语音采样点的线性组合来逼近,通过使预测的采样值与实际输出值的方差最小可以求取一组线性预测系数,由此可得到声道的传递函数为在这里插入图片描述
    对H(z) 取模可以得到声道传递函数的功率谱,根据功率谱可以较为精准地检测出带宽和中心频率。

  • 带通滤波组法

3.Mel频率倒谱系数(MFCC)提取

Mel 频率倒谱系数(MFCC)是根据人的听觉机理发现的特征参数,它与频率成非线性对应关系。在1000 Hz 以下,人耳对声音的感知能力与频率成线性关系,而在1000Hz 以上,人耳对声音的感知能力与频率成非线性关系。

Mel 倒谱系数就是利用了这种非线性关系,得到频谱特征,它是基于人耳听觉特性的、鲁棒性较好的频域语音特征参数,其频率的对应关系为
在这里插入图片描述
人耳主观上用Mel 来度量音高的大小。规定1000 Hz,40 dB 的语音信号音高为1000 Mel。在Mel 刻度上人耳对语音音高的主观感受是线性的。人耳基底膜相当于一个非均匀滤波器组,它不同地方的细胞膜对频率的响应不同,每一部分对应一个滤波器群,每一个滤波器群对应一个中心频率和带宽,而每个滤波器的带宽大约为100 Mel。

为了模拟人耳的特点,研究者们根据人耳滤波器组的中心频率和带宽设计了一组Mel滤波器,其波形如图示。
语音的关键声学特征(语音情感特征提取)_第5张图片

MFCC系数提取过程:
语音的关键声学特征(语音情感特征提取)_第6张图片
在这里插入图片描述
以一阶差分MFCC系数:
在这里插入图片描述

4.基于导数的非个性语音情感特征提取

5.基于Teager能量算子(TEO)非线性特征提取

在这里插入图片描述
TEO 算子可与传统的基频、共振峰特征相结合形成新的语音特征。

6.基于深度学习的特征提取

常用特征降维算法

  • 主成分分析法(PCA)
  • 线性判别分析法(LDA)
  • 局部保留投影法(LPP)
  • 多维尺度分析法(MDS)
  • 等距映射法(Isomap)
  • 局部线性嵌入法(LLE)
  • 拉普拉斯特征映射法(Laplacian Eigenmaps)

各类降维方法比较:
语音的关键声学特征(语音情感特征提取)_第7张图片
语音的关键声学特征(语音情感特征提取)_第8张图片
语音的关键声学特征(语音情感特征提取)_第9张图片


  1. 刘振焘,徐建平,吴敏,曹卫华,陈略峰,丁学文,郝曼,谢桥.语音情感特征提取及其降维方法综述[J/OL].计算机学报,2017:1-22[2018-11-20].http://kns.cnki.net/kcms/detail/11.1826.TP.20170813.1200.006.html. ↩︎

你可能感兴趣的:(语音情感)