语音识别模型网络结构_传统语音识别模型框架:HMMGMM

一、语音识别问题建模

1. 信号预处理

  • 静音片段识别与裁剪

2. 声波特征提取

  • MFCC(Mel-Frequency Cepstral Coefficients):模拟人耳分辨频率和选择频率的特性,对信号进行频域分析

  • LPCC(Linear Predictive Cepstral Coefficients): 根据声管模型建立的特征参数,是对声道响应的特征表征

  • 基于深度学习网络直接学习音频特征表示

3. 问题建模

    音频均匀切分为n帧(相邻帧之间有部分重合),提取特征,记为X=(x1, x2,..., xn), 目标文本序列记为W=(w1, w2, ..., wm),目标是找到一个W,使得p(W|X)概率最大

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第1张图片

使用贝叶斯公式

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第2张图片

整个音频识别的流程框架如下

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第3张图片

进一步音频识别逐步演化end2end框架,这部分已经在前面两篇文章中介绍较多,这里引出只用来对比参考。

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第4张图片

二、传统语音识别模型:HMM-GMM模型

1. HMM简介

  • 参数:初始状态,状态转移概率P,发射概率E

  • 变量:隐变量H,观测变量O

  • 假设:隐状态马尔科夫性假设

  • 隐马模型三个问题:

    1. Likelihood:给定观测变量O,模型参数π,求P(O|π)      (前向-后向概率)

    1. Decoding:  给定观测变量O,模型参数π,求隐状态H,使得P(O|π,H)最大   (viterbi算法)

    1. Learning:  给定一组观测变量O,求模型参数π     (EM算法)

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第5张图片

GMM:高斯混合模型

2. HMM-GMM建模(声学模型部分)

  • 目标

        从数据中拟合一个p(X|W)

  • 音素HMM建模

        句子HMM:HMM数量非常多

        单词HMM:单词数量依然有上万个

        单音素HMM:英语一共40+音素,数量可接受

        多因素HMM:连续出现的音素构建HMM

        单音素HMM模型包含三个隐状态(英文一般3个隐状态,中文声韵母为5个隐状态),对应HMM如下图。

3. 音素HMM模型特点

  • Left-right HMM

  • 状态可自我转移:可拟合任意长度序列

  • GMM用于拟合发射概率p(x|s),这部分后续逐渐演化为神经网络

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第6张图片

4. 模型训练(embedded training)

  • 训练语料

        Raw data: 音频数据wav文件

        Transcript: 转写文本

  • 额外的数据

        发音词典(Lexicon)

  • 训练

一方面依据转写文本,构建相应的句子HMM模型结构;另一方面,根据音频文件,构建HMM模型观测值结果。二者结合利用BW算法可以学习HMM结构中所需参数,流程见下图

5. 算法流程

语音识别模型网络结构_传统语音识别模型框架:HMMGMM_第7张图片

6. 预测(decoding)

  • 给定观测状态O,模型参数已知,求最佳隐状态H:Viterbi算法

参考文献

  1. http://www.inf.ed.ac.uk/teaching/courses/asr/lectures-2019.html

  1. http://www.ee.columbia.edu/~stanchen/fall12/e6870/outline.html

你可能感兴趣的:(语音识别模型网络结构)