语音算法相关 CTC

CTC

解决输出和label(token)不对齐的问题
单向RNN 流式实时
双向RNN 整句

CTC的原理

语音算法相关 CTC_第1张图片
语音算法相关 CTC_第2张图片
比如
w的音频帧 x1 -------------->w
噪声(静音&识别不了的)的音频帧 x2--------------->∅
o的音频帧 x3--------------->o
噪声(静音&识别不了的)的音频帧 x4--------------->∅
r的音频帧 x5--------------->r
r的音频帧 x6--------------->r

所以分类器输出为: w∅o∅rr

重复取一个,空集就拿掉

w∅o∅rr ====> wor

训练时:
label token 与 网络分类的输出的feature不对应时,token要补空
多种补空

如:

output token
∅∅∅∅∅y1y1∅∅y2y2y2y3y3∅∅y4 你好世界
∅∅∅y1y1∅∅y2y2y2y3y3∅∅y4 ∅∅∅∅∅∅∅你∅∅∅∅好世∅∅∅∅界∅∅∅∅

你可能感兴趣的:(语音相关,算法,语音识别)