2021-03-03 Speech-Transformer项目训练与预测

按照如此配置进行了训练,LFR_m = 1,LFR_n = 6,batch_frames = 30000

当时GPU Memory占用约为  6831 MiB

当时运行到Epoch 69时退出了一次,改了部分代码使其接着Epoch 69模型参数开始训练:

当时自动保存了基于开发集模型参数

一共训练了150个epoch

visdom上当时记录的可视化图形,中间小波动就是Epoch 69中途退出重新接上训练的影响


为了方便调试预测过程,新建预测用的shell文件pred.sh

pred.sh


执行过程中,存在一下json文件中的中文编码错误,经过修改之后,成功执行。(参考我的其他文章)




输出result.txt文件:




Corr正确率 87.3%


Err词错误率 12.9%

接下来打印的是具体语音条数:

共有20个 speakers

最后打印的是每条语音识别结果与参考结果,包括每个speaker的语音条数utts、以及语音识别评分(C正确 S替换 D删除 I插入)



你可能感兴趣的:(2021-03-03 Speech-Transformer项目训练与预测)