AI-语音处理理论和应用-DNN-HMM、CD-DNN-HMM

学习目标
   • 了解语音处理的基础知识及应用
   • 掌握语音处理的基本步骤
   • 掌握语音处理的主要技术
   • 了解语音处理的难点与展望

DNN-HMM
   深度神经网络 - 隐马尔科夫模型
      • 深度神经网络-隐马尔科夫模型(DNN-HMM)利用DNN的强大的特征学习能力HMM的序列化建模能力进行语音识别任务的处理,在很多大规模任务中,其性能远优于传统的GMM-HMM混合模型。
         • DNN部分
            o 特征的学习能力
            o 估计观察特征的概率
            o 预测状态的后验概率
         • HMM部分
            o 描述语音信号的序列变化
            o 预测后面的序列
      • 声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率
AI-语音处理理论和应用-DNN-HMM、CD-DNN-HMM_第1张图片
CD-DNN-HMM
   什么是CD-DNN-HMM
      • 虽然GMM-HMM在以往取得了很多成功,但是随着深度学习的发展,DNN模型展现出了明显超越GMM模型的性能,替代了GMM进行HMM状态建模。
      • 不同于GMM模型,DNN模型为了获得更好的性能提升,引入了上下文信息(也即前后特征信息),所以被称为CD-DNN-HMM(Context-Dependent DNN-HMM)模型。
      • 组成
         • CD-DNN-HMM由三部分组成:
            • 一个DNN
            • 一个HMM
            • 一个状态先验概率
         • 由于CD-DNN-HMM和GMM-HMM共享因素绑定结构,所以训练CD-DNN-HMM第一步就是使用训练数据训练一个GMM-HMM,利用Viterbi进行解码产生的标准结果用于DNN。
            • 如果直接手动标注哪个状态产生哪个观测序列会非常繁琐,并且人无法很好区分该从哪里进行切分。
      • 性能提升
         • 使用更深的神经网络
         • 使用更长的帧作为输入
         • 使用三因素进行建模
         • 提升训练数据的标注质量
         • 预训练(浅层DNN)
      • DNN训练加速
         • 多GPU反向传播
         • 异步随机梯度下降
         • 减小模型规模
         • 集成
      • DNN解码加速
         • 并行计算
         • 稀疏网络
         • 低秩近似(大尺寸DNN训练小尺寸DNN)
         • 多帧DNN
   DNN优于GMM
      • DNN是一种判别模型,自身便带有区分性,可以更好区分标注类别。
      • DNN在大数据上有非常优异的表现,伴随着数据量的不断增加,GMM模型在2000小时左右便会出现性能的饱和,而DNN模型在数据量增加到1万小时以上时还能有性能的提升。
      • DNN模型对环境噪声有更强的鲁棒性,通过加噪训练等方式,DNN模型在复杂环境下的识别性能甚至可以超过使用语音增强算法处理的GMM模型。

你可能感兴趣的:(语音处理,人工智能)