【Machine Learning】音特征提取技巧

        研究音频信息处理方向已有一年之久,深刻认识到音频特征的选取对实验结果的影响之大,无论是从最底层的时域、频域的基础特征,还是经典的MFCC、PLP特征,甚至是无监督特征,其中的任何一种在不同的应用场合下都有其优势,不同特征的结合也会有比较大的影响,然而,说到底还是离不开以上这些基本的类型。如何在实验中对上述的某一样的特征进行更加精细的分析呢?下面会给大家提供一些思路。

       1、窗长和跳步

       对于一段音频,很多时候不能将整段进行FFT,这个时候就需要选取合适的窗长,为了减少分窗时带来的人为带来的窗边界影响,又需要选取合适的跳步。所以对于窗长和跳步的选取十分重要,甚至可以将多种不同窗长和跳步的特征结合起来。

        2、统计方法

       如1所说,通常我们不会将整段音频进行FFT,所以,在做完对单个帧的特征提取后,需要做一个统计(当然,也有不需要统计的时候,比如Deep Learning里输入特征通常是整个对象的信息),一般的常用的统计方法是求对应维特征的均值和方差,比如对于一个N帧的M维特征矩阵,最后将每列的值求均值和方差,可以得到一个2M的特征向量,这个向量就是最终提取出来的特征。事实上,我们均值和方差并非唯一的统计方法, 比如,我们还可以选取某一列的最大值或者最小值,还有相邻帧作差(一阶差)的均值和方差,甚至是二阶差、N阶差的均值和方差,然后还有(X-X均)^3这种玩意儿。

        3、多尺度、多分辨率

        类似于图像的多尺度、多分辨率,音频特征提取中也可以应用这一点。举个例子,我们可以从Mel谱中提取时频上多尺度的特征,比如Multiresolution spectrograms, Gaussian pyramids and Laplacian pyramids等。

        后面就待补充咯~

        

你可能感兴趣的:(机器学习)