新手做深度学习项目-话者识别系统

本科毕业设计选的是”基于深度学习的话者识别系统“题目,没接触过深度学习,也不懂话者识别是什么意思,尴尬,只能硬着头皮去一点一点啃了。

这里我总结一下,我做完这个项目之后,对话者识别这个领域,对深度学习这个方向学习的所感所得,分享给大家。

关于话者识别

通过看论文,发现,话者识别在2016年之前,还是停留在用ivector、GMM-UBM,这些简单的机器学习模型,然后用PLDA降维优化;2016年之后,可能深度学习在这个时候忽然间火起来了,有一些学者将DNN(深度神经网络)应用到了话者识别系统中去了,只是简单的用了下DNN ,并没有过多的去优化。

下面,我总结下,我的毕设的工作,如下图所示。
新手做深度学习项目-话者识别系统_第1张图片

数据处理

前期,大量的工作就是语音数据的处理,训练集,测试集的生成,将语音文件处理成自己需要的形式-语谱图;

模型

明确模型的输入输出,直接在机器上运行就可以了;
观察结果,然后调节参数。

在使用CNN时,调节了输入的语谱图,对其归一化处理,然后调节了CNN中的全连接层参数。 最终,识别效果得到了大幅度提升。

residual network是imagenet夺冠的一个神经网络模型,16年火起来的,因此,也拿来用到了话者识别系统中去。毕竟我们的语音是转成图像处理的,效果很显著。

关于深度学习

对于深度学习,我也是新手,接触不久,接下来我会在这个方向一直深入做下去,也会写更多关于深度学习的文章分享给大家。

写一些关于自己对深度学习的小感悟吧。
对于新手,要先学会去用。先不用理会内部的逻辑,明确输入输出是什么就可以。 网上对于常见的深度学习网络开源的太多了,github上,输入cnn,rnn,等等,就能找到好多, 下载下来简单修改下就可以运行。
新手可以尝试keras框架,它是在tensorflow基础上封装的更高层的深度学习框架。使用起来更简单方便。tensorflow可能搞起来难度更大一些。

玩过几个项目之后,熟悉了整个流程,可以去深入学习tensorflow框架,深入去学习每一种神经网络的结构。

这里给大家分享一本深度学习的书,市面上仅有的一本,目前应该还只有电子版。
链接:http://pan.baidu.com/s/1o8KAVWI 密码:bnc9

你可能感兴趣的:(深度学习)