使用kaldi+清华大学开源语料数据集thchs30训练语音识别模型

使用kaldi训练清华大学开源语料数据集thchs30

1.下载kaldi

命令: git clone https://github.com/kaldi-asr/kaldi.git
安装过程就不细表了。

2.下载thchs30数据集
下载地址:http://www.openslr.org/18/
thchs30是一个开源的30小时中文数据集。
使用kaldi+清华大学开源语料数据集thchs30训练语音识别模型_第1张图片
如上下载三个文件,时间较长。。。。
thchs30数据集共包括25小时的语音训练数据,2分14秒的开发数据和6分15秒的测试数据。
下载完成后解压数据即可。

准备完成数据之后进入kaldi目录的egs/thchs30/s5目录,修改目录下的cmd.sh:
将如下内容:
export train_cmd=queue.pl
export decode_cmd=“queue.pl --mem 4G”
export mkgraph_cmd=“queue.pl

你可能感兴趣的:(kaldi,thchs30,语料,语音识别,训练模型)