Kaldi学习笔记:跑Aurora语料库

1、Aurora语料库

跟tidigits有点类似,说话的内容也是1-9ZO,test有1000条数据,train有8000多条数据。在Kaldi中没有Aurora的样例,可以在tidigits的样例上加以修改。


2、修改tidigits样例

首先语料库的路径是要修改的。然后根据你自己的语料库的目录结构来修改这里的判断条件和赋值。

Kaldi学习笔记:跑Aurora语料库_第1张图片

两个语料库最主要的区别是,aurora中每条wav的文件名中包含了说话人名字,但是在tidigits中wav的上层目录名称是说话人名字。所以获取说话人信息的方式有些不同,主要修改下面几个地方:





另外,由于tidigits里面的WAV文件不是wav格式,所以需要转换,但是aurora已经是wav格式,不需要转换,所以应该注释掉awk那句指令,加上cat那句指令。



然后,aurora的采样率是8000,需要修改mfcc.conf中的sample frequency


最后,与tidigits一样,需要修改Z、O、A、B、WAV的大小写问题,主要是修改tidigits_data_prep.sh  tidigits_prepare_lang.sh
这两个文件。

你可能感兴趣的:(Kaldi学习笔记:跑Aurora语料库)