[语音识别] kaldi -- aidatatang_200zh脚本解析:三音速详解

# train tri1 [first triphone pass]
steps/train_deltas.sh --cmd "$train_cmd" \
2500 20000 data/train data/lang exp/mono_ali exp/tri1 || exit 1;
# steps/train_deltas.sh      

  • num-leaves是叶子节点数目
  • tot-gauss是总高斯数目
  • data-dir是数据文件 夹
  • lang-dir是存放语言的文件夹
  • alignment-dir是存放之前单音素对⻬后结果的文件夹
  • exp-dir是存放三音素模型结果的文件夹。
# decode tri1

utils/mkgraph.sh data/lang_test exp/tri1 exp/tri1/graph || exit 1;

steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config -- nj 10 \
exp/tri1/graph data/dev exp/tri1/decode_dev
steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config -- nj 10 \
exp/tri1/graph data/test exp/tri1/decode_test

mkgraph.sh主要生成了HCLG.fst和words.txt这两个重要的文件,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt。HCLG是解码时的重要组成部分。HCLG.fst是由4个fst经过一系列算法

你可能感兴趣的:(语音识别,语音识别,kaldi,三音速详解)