李宏毅《Speech Recognition》学习笔记4 - CTC

最近在学习语音识别的知识,发现李宏毅老师今年也出了相应的视频,相应的课件可以从下面的位置获取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube视频:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
课件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

CTC

CTC的全称是Connectionist Temporal Classification
李宏毅《Speech Recognition》学习笔记4 - CTC_第1张图片

Model

为了做到Online speech recognition,encoder只能使用uni-directional RNN,不能使用bi-directional RNN.

然后,将 h n h^n hn直接输入到线性classifier中,生成对应token distribution。左侧为classifier的设计。
其中, ϕ \phi ϕ代表不可识别的符号。
李宏毅《Speech Recognition》学习笔记4 - CTC_第2张图片
CTC将输出的token做处理,参考下面的图。之前看过比较好的介绍,也可以参考:https://zhuanlan.zhihu.com/p/42719047
李宏毅《Speech Recognition》学习笔记4 - CTC_第3张图片

Train

CTC在训练过程中,存在的一个问题:因为文本的长度可能远小于语音的长度,所以,预测的token要比label多很多,而且,其中,还包含了无效字符 ϕ \phi ϕ,那么,如何让label和预测的token对齐?
李宏毅《Speech Recognition》学习笔记4 - CTC_第4张图片
像下面这个案例,就可能有很多做组合,最后的结果都是“好棒”。
李宏毅《Speech Recognition》学习笔记4 - CTC_第5张图片
在训练过程中,应该拿哪一个来做label,后面会详细介绍。

CTC的局限

CTC一般配合LM一起使用,要不然WER会比较高。所以,有人认为CTC不属于end-to-end model的范围。
李宏毅《Speech Recognition》学习笔记4 - CTC_第6张图片
CTC的局限
李宏毅《Speech Recognition》学习笔记4 - CTC_第7张图片

所以,经过学习以后,可以发现:LAS的encoder就是CTC。

你可能感兴趣的:(Speech,Recognition)