基于LSTM网络的语音特征信号分类技术研究-含Matlab代码

目录

  • 一、引言
  • 二、神经网络和深度学习
  • 三、实验结果分析
  • 四、参考文献
  • 五、Matlab代码获取

一、引言

随着机器学习与人工智能技术的飞速发展,语音识别在通信、智能家居、医疗、军事等方面逐渐得到了广泛运用。在语音信号识别中应用非常广泛的一种方法是梅尔倒谱系数。它基于一组非线性的特征参数,能有效结合语音机理,通过计算分析语音波形及行为特征的语音参数进行有效的判断。而识别方法应用比较广泛的有隐马尔可夫模型、高斯混合模型、支持向量机模型和神经网络等。人工神经网络通过模仿生物神经网络的行为特征原理,以类似大脑处理信息的方式建立数学模型,输出值能够相当逼近真实值或给出逻辑判断。

深度学习是神经网络研究的热点,包含多种有效的方法,如深度置信网络DBN、循环神经网络RNN、卷积神经网络CNN等。而长短期记忆模型循环神经网络LSTM可以算是RNN网络的代表,在处理像序列语音信号数据时能够取得非常好的效果。

二、神经网络和深度学习

在传统语音识别模型中,基于参数模型的隐马尔可夫模型能够根据观测的序列估计出想要得到的目标序列,数据量大时能够取得较好的效果。现代的神经网络模型类似人脑,可以通过训练学习来达到较高的识别准确率。

循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。

长短期记忆(Long short-term memory,LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说就是相比普通的RNN,LSTM能够在更长的序列中有更好地表现。
基于LSTM网络的语音特征信号分类技术研究-含Matlab代码_第1张图片

图1 LSTM结构

三、实验结果分析

实现过程中,将四类2000组特征信号合并之后,从中随机选取1500组作为训练数据, 500组作为测试数据,并进行了归一化处理。语音类别标识采用onehot方式。

为了对比实验效果,首先采用了BP神经网络进行了识别,神经网络结构为24-25-4,对神经网络权值和阈值采用随机初始化。

如图2为其中一次实验的识别错误分布图,横坐标为测试的数据顺序,范围从0~500;纵坐标为分类结果,1为本次数据分类正确,0为本次数据分类错误。多次识别平均值看,BP神经网络平均识别正确率在0.8~0.85,通过适当调整参数,仍可以使得正确率有所提高。

基于LSTM网络的语音特征信号分类技术研究-含Matlab代码_第2张图片

图2 BP神经网络识别结果

接下来采用LSTM算法进行识别,基本参数如表1所示,包括学习样本、测试样本个数、学习率设置,dropout设置等。

由于LSTM网络在使用时涵盖了序列步数的概念,因此在本轮实验中,选取了不同的序列步数值,以观察分类效果。其中单步数据个数乘以序列步数为24,即MFCC特征的维数。在12轮测试中,学习准确率基本维持在1或接近1,即表示网络已完成了对样本的学习。小批量长度也选取了3种数值,由于样本数据量不大,此时的小批量长度对最后的分类结果和学习速度影响不是特别明显。而epoch也根据小批量长度的不同,进行了相应的修正。从多次测试结果值看,测试准确率平均在0.927。通过改变相关的参数,在第6次识别中准确率达到了最高0.952。

基于LSTM网络的语音特征信号分类技术研究-含Matlab代码_第3张图片

图3 LSTM网络识别结果

通过多次实验的参数对比发现,适当选取参数对识别准确率有较大的影响,但LSTM网络的识别效果优于BP神经网络,且通过适当调整参数,仍可以使得LSTM准确率有所提高。

四、参考文献

[1] 徐祥合.基于BP神经网络的客户分类方法研究[D].南京;南京航空航天大学,2004.

五、Matlab代码获取

Matlab代码获取,可私信博主。


博主简介:研究方向涉及智能图像处理、深度学习等领域,先后发表过多篇SCI论文,在科研方面经验丰富。任何与算法程序科研方面的问题,均可私信交流讨论


你可能感兴趣的:(三,深度学习,BP神经网络,LSTM,循环神经网络,深度学习,语音特征信号分类)