第六讲 DNN-HMM模型学习笔记

目录

  • 1. DNN-HMM语音识别系统
  • 2. 深度神经网络
    • 前馈神经网络FNN
    • 卷积神经网络CNN
      • CNN
      • TDNN
    • 循环神经网络RNN
      • LSTM
    • 混合神经网络
  • 3. 总结
  • 4. 作业代码

1. DNN-HMM语音识别系统

 DNN-HMM语音识别系统的训练流程是在我们上一节所学的GMM-HMM语音识别系统的基础上,加上了对齐和DNN训练的方式。其流程图如下图所示:
语音识别系统流程图

第六讲 DNN-HMM模型学习笔记_第1张图片

第六讲 DNN-HMM模型学习笔记_第2张图片

2. 深度神经网络

 首先来了解一些神经网络的相关知识。例如激活函数(Activation Function),NN分类问题损失函数,梯度下降(Gradient Descent)和反向传播(Back Propagation)等。
 所谓激活函数,就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端。
第六讲 DNN-HMM模型学习笔记_第3张图片
 损失函数可以衡量模型预测的好坏。
第六讲 DNN-HMM模型学习笔记_第4张图片
 梯度下降是机器学习中的常用算法,通过不断迭代计算函数的梯度,判断该点的某一方向和目标之间的距离,最终求得最小的损失函数和相关参数,为建立线性模型提供支持。在NN中为了更好的计算梯度,引出了反向传播算法。
第六讲 DNN-HMM模型学习笔记_第5张图片
 反向传播就是为了实现最优化,省去重复的求导步骤
第六讲 DNN-HMM模型学习笔记_第6张图片

第六讲 DNN-HMM模型学习笔记_第7张图片

前馈神经网络FNN

 FNN网络结构:(1)FNN可以理解为多层感知机,即:包含多个隐藏层的神经网络。(2)层与层之间是全连接的,即:相邻两层的任意两个节点都有连接,

第六讲 DNN-HMM模型学习笔记_第8张图片

卷积神经网络CNN

CNN

 CNN是一种人工神经网络,CNN的结构可以分为3层:(1)卷积层(Convolutional Layer) - 主要作用是提取特征。(2)池化层(Max Pooling Layer) - 主要作用是下采样(downsampling),却不会损坏识别结果。(3)全连接层(Fully Connected Layer) - 主要作用是分类。

第六讲 DNN-HMM模型学习笔记_第9张图片

第六讲 DNN-HMM模型学习笔记_第10张图片

TDNN

 TDNN相当于CNN的前身,相当于1dcnn,即一维CNN。它的共享权重被限制在单一的维度上,并且没有池化层,适用于语音和时间序列的信号处理。
第六讲 DNN-HMM模型学习笔记_第11张图片

循环神经网络RNN

 RNN是神经网络的一种。它对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,利用了RNN的这种能力,使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。
第六讲 DNN-HMM模型学习笔记_第12张图片

LSTM

LSTM是具有记忆长短期信息的能力的神经网络,它具有3个门,分别是遗忘门,输入门和输出门。LSTM提出的动机是为了解决深度学习领域中(尤其是RNN)的长期依赖问题。
第六讲 DNN-HMM模型学习笔记_第13张图片

混合神经网络

第六讲 DNN-HMM模型学习笔记_第14张图片

3. 总结

 本节内容讲述了神经网络的一些基本点和基本思想,同时也阐述了DNN-HMM语音识别系统及其流程,应同上一节的GMM-HMM语音识别系统放在一起进行对比学习,课下要复习好这两节的内容,非常重要。

4. 作业代码

 待完善

你可能感兴趣的:(语音识别学习,学习,语音识别)