Mac os下运行Kaldi中文例子(thchs30,清华大学30小时语音)

资料:http://www.kaldi-asr.org/doc/ Kaldi官方文档
https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/ Kaldi中文手册,翻译自Kaldi官方文档
kaldi的全部资料-v0.4.pdf from wbglearn(吴本谷)组织
Kaldi语音识别Lecture1、2、3
参考博客:http://www.jianshu.com/p/22fc9906878f

目前能找到的公开中文语音语料库只有清华大学CSLT公开的语音数据,共30小时+。os上运行与在Linux上大致相同。

1.GitHub上下载Kaldi
2.下载语音数据

The database can be downloaded from openslr:
http://www.openslr.org/18/

or from the CSLT server:
http://data.cslt.org/thchs30/README.html

下载完之后,在kaldi/egs/thchs30/下建立目录thchs30-openslr(名称随意,设置路径要用),解压到此目录下。

Mac os下运行Kaldi中文例子(thchs30,清华大学30小时语音)_第1张图片

3.修改脚本

  • /thchs30/s5/run.sh中,修改:
    第8行,修改并行任务数(我设为我的CPU核数,电脑配置iMac27 英寸,2015 年中,3.3 GHz Intel Core i5,8 GB 1600 MHz DDR3)
n=4      #parallel jobs

第11行,修改路径

thchs=~/documents/riemann/kaldi/egs/thchs30/thchs30-openslr
  • 修改/thchs30/s5/cmd.sh为:
export train_cmd=run.pl
export decode_cmd=run.pl
export mkgraph_cmd=run.pl
export cuda_cmd=run.pl
  • thchs30/s5/local/thchs-30_data_prep.sh中,第24行修改为:
for nn in `find  $corpus_dir/$x -name "*.wav" | sort -u | xargs -I {} basename {} .wav`; do

这个修改是因为os和Linux上shell命令有些许不同所致。不修改的话,会出现xargs: illegal option -- i或argument list too long: find。
4.运行
cd到s5目录下,运行run.sh。推荐sh -x ./run.sh。


5.跑

Mac os下运行Kaldi中文例子(thchs30,清华大学30小时语音)_第2张图片
好牙口

6.问题
跑出的结果及问题见
http://www.jianshu.com/p/69a4e2ba8531
还是因为在Mac上些许水土不服。

你可能感兴趣的:(Mac os下运行Kaldi中文例子(thchs30,清华大学30小时语音))