deepspeech.pytorch中文语音识别笔记(2)

使用AISHELL-ASR0009-OS1 开源中文语音数据库

地址http://www.aishelltech.com/kysjcp

该语音库包含141000句短语,分为train、dev、test三类。翻译文本训练时发现不全,部分训练文件夹下的语音无翻译文本,生成deepspeech文本路径文件时需要注意。

deepspeech代码地址

https://github.com/SeanNaren/deepspeech.pytorch

(1)根据翻译文本aishell_transcript_v0.8.txt生成生字表,生成deepspeech的训练,验证,测试的csv路径文件

(2)读取翻译文本时可以采用字+空格的格式,如果采用原文本的词+空格格式,词错误率较高。

验证集50轮迭代  字+空格 wer 11.990 cer 5.998  词+空格 wer 25.444 cer 6.035 

不过中文与英文识别不同,中文以字为单位,英文以单词为单位,所以字符错误率cer更能准确反映识别效果,这样看来两者效果近似。

(3)使用kenlm利用翻译文本训练语言模型,并将语言模型加入test过程中

30轮训练的声学模型采用贪婪算法解码,测试集结果为wer14.958 cer 7.481 

采用加入语言模型的BeamCTC解码,测试集结果为15.029.cer7.509。

不同于英文语音识别加入语音模型wer大幅降低,中文识别语言模型加入后计算速度慢了几百倍,50s/it,结果近似,没有提升,没有找到原因。

你可能感兴趣的:(人工智能)