自从建议kaldi学习 语音深度学习的qq群以来,群成员在不断的壮大,kaldi语音识别系统是povey大神开源的,我们算是站在巨人的肩膀上进行我们自己的语音识别系统搭建。自从发这么多博客以来,总是很多人加我qq,后来我直接把我qq去掉了。主要原因有如下:第一,我个人的时间有限,我自己需要学习和科研;第二,个人能力有限,我自己再kaldi上做的实验很少;第三,大家的实验平台都不一样,比如:虚拟机,物理机,cygwin等等。希望得到大家的理解……我会尽量回答大家在群里提出的问题。
现在的qq群的目的就是交流作用了,跟我原来的想翻译出kaldi的一些东西,大家共享一些实验什么的。可能每个人都有自己的事情,每个人需要忙自己的事情,很难去集合起来。后面等有时间希望可以组织起来。很多人反应kaldi的资料少,这主要原因还是kaldi出现的比较晚吧。学习kaldi的主要原因可能都是由于kaldi的深度学习模型,但是kaldi里仅仅提供了dbn模型,其他的模型都没有提供。希望其他的人可以做些cnn或者rnn等深度学习模型的实验,或者利用GPU等等的一些实验吧,欢迎分享……
最后,说下kaldi的学习过程。
一般过程分成以下的几步:(自己可以看kaldi主页介绍的学习过程)
1.kaldi的安装:这个安装出现的错误基本在我的博客里都有体现,大家尽量按照步骤去走。注意自己的linux的配置。
2.做些实验:比如我在之前分享的timit数据,可以坐下timit的实验,在timit的实验里你可以先用run.sh跑完自己的实验,然后自己单独自己每一步每一步的去跑,去了解其中每一步的意义。去理解每一步的生成结果,也就是去了解kaldi这个语音识别系统的一些框架和模型。
3.你深入理解深度学习的过程,去用rm或者wsj里的rundnn.sh来跑timit,因为这个脚本的深度学习才具有通用性,你可以修改得到cnn或者rnn。
4.做改进。深度学习的语音识别的改进,我的理解就是2点。第一就是改进特征,比如现在的bnf,也就是bottleneck特征。第二:就是把原来的gmm换成dnn的某一个模型。深度学习的最大好处就是可以更好的学习数据的特征或者特性。当然,前提是数据量足够大,不然容易过拟合。
可能在这过程中会遇到各种各样的问题,特别是深度学习模型的调参过程。大家多去群里交流……最后,祝大家的kaldi学习过程顺利……