音频信号特征提取(1):短时特征之短时能量、短时功率、短时过零率

特征提取(Feature Exaction)的重要性,就不用多说了。

对于音频信号,按时间分辨率、按局部or全局的观念、持续时间长短,或者爱怎么讲怎么讲,特征可分为长期(long-term)、中期(mid-term)、短期(short-term),也可以叫短时特征。术语翻译不统一,我也不专业。知道英文术语就好。

短时能量、功率是有点瞬时功率的概念,但又没有那么“瞬时”。大概是按帧在做计算。

短时功率在计算的时候,把每一帧的能量还要处理该帧的长度,量纲上等于[Watt]。

有时候,要把线性尺度的短时能量和短时功率换算成对数尺度,分贝(dB),还要对最大值进行归一化,换算成相对强度,让最大值为0dB。

短时过零率(short-term zero corss rate,st-ZCR),大概是从时域上描述信号频率吧,也是按帧计算。声母的ZCR高一些,韵母的要低一些。噪声的话,不太确定了。大概好像要是比韵母高。和声母,我还不太清楚。


大致的代码如下了。


短时能量。


短时过零率。


以后,会把这两个特征用于语音端点检测中。

比如得到下面这张图。


你可能感兴趣的:(matlab,短时过零率,短时功率,短时能量)