基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

语音唤醒,即关键词检索(keyword spotting, KWS)。用语音唤醒设备,让设备由休眠状态切换至工作状态。
下面主要对基于端到端的深度学习方法的语音唤醒模型总结。
模型输入为语音,输出为各唤醒词的概率,一个模型解决,不需要再进行解码。
通常包括三个部分:第一步是特征的提取,第二步是一个神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网络是以帧为单位输出后验值的,就需要第三步对后验值以一定的窗长进行平滑,平滑后的后验值如果超过一定阈值会被认为是唤醒了。

1、基于CNN的语音唤醒
《Convolutional Neural Networks for Small-footprint Keyword Spotting _Google2015》
基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文_第1张图片
基于CNN的KWS模型。构建可以识别 10 个不同字词的基本语音识别网络。该模型会尝试将时长为 1 秒的音频片段归类为无声、未知字词、“yes”、“no”、“up”、“down”、“left”、“right”、“on”、“off”、“stop”或“go”。
基于端到端的深度学习方法,可以作为入门资料,模型比较简单。设计了几个不同的CNN结构。缺点是模型参数比较多,运算量较大。

开源代码,在TensorFlow官网可以下载。
https://github.com/tensorflow/tensorflow/tree/master/tensorflow/examples/speech_commands

2、基于CRNN模型的语音唤醒
(1)An End-to-End Architecture for Keyword Spotting and Voice Activity Detection
(NIPs2016、 Mindori)
关键词:Olivia
网络结构:CRNN网络,一层CNN层,三层RNN层(256个节点)
损失函数:CTC Loss
不带噪声数据集:正样本1544条,负样本526k.
带噪声数据集:正样本1544*10条,负样本526k +57k.
预处理:VAD ,用网络训练
注:模型参数~1.5M ,稍大
开源代码:
https://github.com/mindorii/kws

(2)Attention-based End-to-End Models for Small-Footprint Keyword Spotting (Interspeech2018 )
关键词:xiao-ai-tong-xue
网络结构:CRNN网络,一层CNN层,两层RNN层(64个节点)
数据集:
训练集:正样本188.9k, 负样本 1007.4k
验证集:正样本9.9k, 负样本 53k
测试集:正样本 28.8k , 负样本32.8k
输入特征:PCEN特征。每条音频持续时间1.9 seconds.
后处理:注意力机制

(3)Convolutional Recurrent Neural Networks for Small-Footprint KeywordSpotting (Interspeech2017)
关键词:TalkType
网络结构:CRNN网络,一层CNN层,两层RNN层(64个节点)
数据集:总共16k
输入特征:PCEN特征。每条音频持续时间1.5 seconds.

(4)Sequence-to-Sequence models for small-footprint keyword spotting(arXiv2018)

3、基于DNN模型的语音唤醒
(1)Small-Footprint Keyword Spotting Using Deep Neural Networks (2014, Google)
3层DNN网络

(2)Efficient Voice Trigger Detection for Low Resource Hardware (Interspeech2018 )
基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文_第2张图片

关键词:Hey Siri
用两个检测器:
第一个较小的检测器,DNN网络,共5层,每层32个隐藏节点。
第二个较大的检测器,DNN网络,共5层,每层192个隐藏节点。
输出的Softmax层包含20个节点:关键词“Hey Siri”包含6个音素,每个音素分为3个状态(开始、中间、结束),剩下两个节点对于silence 和 background 状态。
输入特征:MFCC 特征,13维。25ms为一帧。
数据集:4000句包含关键词,2000个小时不包含关键词。
注:网络输出用HMM解码,需要进行帧级别的标注。

你可能感兴趣的:(音频处理,深度学习,tensorflow,人工智能,神经网络,机器学习)