Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记

CTC

ctc可以做到online recognition,它只需要encoder,在进行语音辨识时,要选择一些可以支持online recognition的encoder,例如:单向RNN。
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第1张图片
但是输入的x1——声音讯号特征,其frame很小,往往代表了少量信息甚至null,因此较难判断是哪个token,所以在ctc的token中引入了一个null。
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第2张图片
输出中有一部分是null,但实际输出中不能有null,所以ctc会做一下后处理,即合并token,移除null。
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第3张图片

怎么训练呢?

question:不知道正确的输出是什么,4个位置应该放什么。
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第4张图片
自己制造合适的label,穷举所有的alignment。
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第5张图片
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第6张图片
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第7张图片

来自博客添加链接描述
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第8张图片

CTC存在的问题

假设前三个frame都是ccc,正常来说是最后输出的是c。但是第二个没识别成功认为它是null,那么前三个frame就是c null c,最后输出就是cc,就结巴了…
Connectionist Temporal Classification(CTC)——李宏毅人类语言处理学习笔记_第9张图片

你可能感兴趣的:(李宏毅人类语言处理,学习,深度学习,人工智能)