cs224n学习笔记6-语音处理

目录

端到端语音处理方法

经典语音识别方法:统计模型

神经网络方法:使用神经网络代替每个统计模型

端到端训练模型

Connectionist Temporal Classification(CTC) 连接时序分类法

Sequence to sequence 序列对序列模型:Listen Attend and Spell(LAS)

Online sequence to sequennce 在线序列对序列模型


端到端语音处理方法

经典语音识别方法:统计模型

建立一个文本序列Y= y1y2…yL到音频序列X = x1x2…xT的统计模型。基于N元模型,然后利用发言模型转化为每一个部分的发音,利用高斯混合模型构成组成连续音频。在给定X的情况下,选择使得概率最大的Y作为预测的结果。每个不同的部分使用不同的统计模型。

cs224n学习笔记6-语音处理_第1张图片

神经网络方法:使用神经网络代替每个统计模型

cs224n学习笔记6-语音处理_第2张图片

瓶颈:不同模型有各自的误差,导致组合起来后效果不佳

端到端训练模型

Y表示文本序列,X表示语音/处理过的声谱,通过学习概率模型 p(Y|X) 来进行语音识别。

Connectionist Temporal Classification(CTC) 连接时序分类法

基于双向RNN结构,最后一层softmax选出字母、语气词和空格中的分类。在时间步t的softmax可以给出此时输出分类为k的分数。

cs224n学习笔记6-语音处理_第3张图片

改进:虽然会得到发音基本正确的语句,但往往会有一些错误的拼写和语法,对此可以加入语言模型来重新排列语句

Sequence to sequence 序列对序列模型:Listen Attend and Spell(LAS)

基于编码器解码器模型,又因为语音数据量较大,所以需要关注长距离的信息消失问题,引入attention机制

局限性:必须在进行输出之前完成全部输入、每个输入时间点都需要计算attention机制、输入长度极大影响模型的准确程度

Online sequence to sequennce 在线序列对序列模型

切分时间片(块)后编码解码,由于每个块中可能会沉默,所以引入标记停顿。每个块输入之后进行输出的转化,一定程度上保证前置信息的保存。这样的处理也增加了一个对齐输入与输出间的对齐问题。

cs224n学习笔记6-语音处理_第4张图片

 进一步改进:加入卷积神经网络

cs224n学习笔记6-语音处理_第5张图片

你可能感兴趣的:(学习笔记,自然语言处理,nlp)