基于节拍谱的语音音乐分类模型

节拍谱的取得方式为按照论文《THE BEAT SPECTRUM:A NEW APPROACH TO RHYTHM ANALYSIS》获得,但是在分类中,有点阴差阳错的计算出不同的结果。

按照得到的节拍谱后,使用阈值对节拍谱判定得到语音音乐两类分类。

根据音频的相关特征的语音音乐分类的算法的流程图如图1所示。
在这里插入图片描述
图 1 算法流程

其具体的算法步骤如下:
步骤1:提取MFCC参数。其提取原理框图如图2所示。预处理包含分帧加窗等。FFT为快速傅里叶变换。Mel-Filtering为梅尔三角滤波器组,DCT为离散余弦变换。本实验使用MATLAB的MFCC函数来提取得到MFCC参数。

基于节拍谱的语音音乐分类模型_第1张图片

图 2 MFCC参数提取过程

步骤2:用余弦相似度计算特征参数两两之间的相似性,可得到一个相似矩阵。其中语音信号的节拍没有周期性的规律,音乐信号会周期性地形成峰值。本实验使用MATLAB的COS函数来计算得到特征向量的相似性。余弦距离更多的是从方向上区分差异,而对绝对的数值不敏感,正因为余弦相似度在数值上的不敏感,只能分辨个体在维之间的差异,没法衡量每个维数值的差异,所以得到的相似矩阵更能体现出节拍的周期性规律。
步骤3:用相似矩阵的自相关性得到节拍谱。它能够反映节奏的周期性变化规律,节拍谱不依赖于能量或频率等特定属性,因此适用于任何类型的音乐或音频,其反应了节拍周期性变化规律。本实验使用MATLAB的xcorr函数来计算其自相关。节拍谱中的峰值对应于音乐信号中的主要节奏成分,不同峰的相对振幅反映了其对应韵律成分的强弱。一些拥有强烈节奏感的音乐的节拍谱的峰值变化会比较明显,而节奏感比较弱的峰值变化会稍微弱些。
基于节拍谱的语音音乐分类模型_第2张图片
图 3 语音节拍谱图
基于节拍谱的语音音乐分类模型_第3张图片
图 4 音乐节拍谱图
图3为语音的节拍谱图,图4为音乐的节拍谱图,可以看到音乐具有明显的起伏。

步骤4:归一化。归一化目的把得到的数据限制在一定区间内,使得各个音频的数据易于后续的处理。

步骤5: 统计并计算阈值判定音频类别。阈值基于总体判定的准确率来设定的,判定流程如图4。当语音或音乐的准确率下降过大时,则阈值调整完毕。
基于节拍谱的语音音乐分类模型_第4张图片

图 4 阈值判定流程图

你可能感兴趣的:(matlab,语音信号处理)