语音唤醒

    唤醒可以看成是一种小资源的关键词检索任务,其中小资源是指计算资源比较小和空间存储资源比较小,因此它的系统框架跟关键词检索的系统会有一定的区别,目前常用的系统框架主要有Keyword/Filler Hidden Markov Model System和Deep KWS System两种。

语音唤醒_第1张图片

    第一种被称为基于HMM的Keyword and Filler系统,这类系统的关键是上图中左侧的解码模块,它与语音识别器中的解码器类似,也是通过维特比算法来获取到最优的路径。基于大词汇量连续语音识别(LVCSR)的KWS系统可以根据用户的需求灵活的更改关键字,但基于LVCSR的系统需要生成丰富的词格,关键字搜索需要大量的计算资源。这些系统通常是为了搜索大型音频数据库中的关键词而设计。

                   语音唤醒_第2张图片

    第二种系统仍然采用Keyword and Filler架构,但引入了深度神经网络,不再采用解码这样一个步骤,直接是由端到端的模式,即输入是语音,输出直接是关键词。这样的系统包括三个部分:如上图,第一步是特征的提取,第二步通常是一个神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网络是以帧为单位输出后验值的,就需要第三步对后验值以一定的窗长进行平滑,平滑后的后验值如果超过一定的阈值会被认为是唤醒了。

语音唤醒_第3张图片

基于声学和LVCSR的关键词识别系统的组合。用LVCSR的词格来计算KWS系统的置信度,以此来降低系统的误唤醒率。本文还针对如何降低系统的计算量做了一定的探讨。

         语音唤醒_第4张图片

    这篇文献来自佐治亚理工学院,是比较典型的HMM模型算法。主要分为两步。第一阶段用上下文感知关键词模型和 9-state的废料模型设计声学模型,第二阶段基于MLP对第一阶段计算的结果进行确信,即计算置信度。

                   语音唤醒_第5张图片

    这篇文献是亚马逊训练Alexa的方法,是基于HMM的模型,做了TDNN的优化。语音唤醒_第6张图片

   陈果果的这篇论文采用DNN网络,处理的主要流程包括三部分:特征提取层+深度神经网络(DNN)+后处理判别模型 


  

     2014年有人使用CNN进行语音识别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大,而KWS方案对计算量要求有一定的限制,所以本论文中他们提出了优化了版本的CNN方案。

 

 语音唤醒_第7张图片

   这篇文献采用LSTM网络,还是采用 后处理平滑的方法进行置信度计算。相比DNN网络而言,效果提升非常明显。

                         语音唤醒_第8张图片

      这篇文章来自于百度,采用了CRNN的网络结构,同时为了减小模型的计算量,文章中探索了不同模型结构和参数来获得一个相对更优的效果。CRNN是将CNN和RNN融合在一个网络当中,CNN的优势在于挖掘局部的信息,而RNN的优势在于学习长时的上下文信息,两者的结合可以起到互补的作用。之前百度有在LVCSR任务上采用了这样的模型,在采用CRNN的同时使用CTC目标函数进行训练,在语音识别的任务上获得了很好的效果,他们希望把这样的模型引入到唤醒任务当中,但是CTC目前都是在模型规模比较大、数据量比较大的情况下得到较好的效果,这一点并不适用于唤醒的任务,而且文章中在唤醒的实验上也表明了目标值采用CTC没有获得预期的效果,因此在本文中实际依然采用交叉熵作为目标函数。

语音唤醒_第9张图片

    这篇文献探讨了深度可分离卷积神经DS-CNN在资源受限的设备上的应用与性能,同时也与其他神经网络结构进行比较。包括DNN,CNN,RNN,CRNN等。

 

语音唤醒_第10张图片

    这是一篇来自小米的文献,基于注意力机制在DNN,LSTM,GRU等网络上做了相关实验,证明注意力机制用在关键字唤醒上同样比较有效。

 

 

你可能感兴趣的:(机器学习,语音唤醒)