【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法

【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第1张图片

  • Github开源仓库:https://github.com/hyperconnect/TC-ResNet
  • 论文下载链接:https://arxiv.org/abs/1904.03814

本文提出了一种适用于移动设备上实时语音唤醒的时域卷积。与大多数基于2D卷积的KWS方法不同,KWS方法需要深度架构来完全捕获低频域和高频域,本文使用紧凑的ResNet架构来利用时域卷积。在Google Speech Command数据集上,本文方法在Google Pixel 1上实现了超过385倍的加速比,并且与最先进的模型相比,准确率超过了最新的模型。此外,本文发布了所提出的模型和基线模型的实现,包括用于在移动设备上训练模型和评估它们的端到端管道。

关键词:语音唤醒、实时、卷积神经网络、时间卷积、移动设备


1、引言

本文提出了一种适用于移动设备上实时知识发现的时间卷积神经网络,称为TCResNet。我们采用时间卷积,即沿时间维度的一维卷积,并将MFCC作为输入通道。该模型利用时间卷积的优势,提高了KWS移动模型的精度,降低了移动模型的延迟。我们的贡献如下:

  • 我们提出了TC-ResNet,这是一种快速、准确的卷积神经网络,用于移动设备上的KWS。根据我们在Google Pixel 1上的实验,与最先进的基于CNN的KWS模型相比,该模型在Google语音命令数据集上的加速比为385倍,准确率提高了0.3%
  • 我们发布了我们的KWS模型1和基于CNN的最先进的KWS模型[6,7,8]的实现,以及在移动设备上评估模型的完整基准工具。
  • 我们的经验表明,与移动设备上的KWS中的2D卷积相比,时间卷积确实有助于减少计算并提高性能。

2、网络结构

2.1 KWS的时间卷积

为了实现实时KWS的快速而准确的模型,我们将输入从图1b中的X2d重塑为图1c中的X1d。我们的主要想法是将每帧MFCC视为时间序列数据,而不是强度或灰度图像,这是解释音频的更自然的方式。我们认为I是一维连续数据,其在每个时间帧的特征被表示为f。
【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第2张图片

2.2 TC-ResNet结构

我们采用了最广泛使用的CNN架构之一ResNet,但使用了m×1的内核(第一层m=3,其他层m=9),而不是3×3的内核(图2)。
卷积层和完全连接的层都没有偏置,并且每个批次归一化层具有用于缩放和移位的可训练参数。
【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第3张图片
我们选择TC-ResNet8(图2C)作为我们的基本模型,它具有三个剩余块和包括第一卷积层的每一层的{16,24,32,48}个通道。TC-ResNet14(图2d)通过合并比TC-ResNet8多一倍的剩余数据块来扩展网络。

我们引入宽度乘数(图2c和图2d中的k)来增加(或减少)每一层的信道数量,从而实现针对给定约束选择正确容量模型的灵活性。例如,在TCResNet8中,宽度乘数1.5将模型扩展为分别具有{24,36,48,72}个通道。我们通过附加乘数后缀来表示这样的模型,例如TCResNet8-1.5。TC-ResNet14-1.5的创建方式与此相同。

3、实验

3.1 数据集

我们使用Google语音命令数据集对提出的模型和基线进行了评估。数据集包含64,727个一秒长的发声文件,这些文件被记录并标记为30个目标类别中的一个。根据Google的实现,我们区分了12个类别:“是”、“否”、“上”、“下”、“左”、“右”、“开”、“关”、“停”、“行”、“沉默”和“未知”。使用SHA-1散列的音频文件名称,我们将数据集分为训练集、验证集和测试集,分别使用80%的训练集、10%的验证集和10%的测试集。

3.2 实验结果

表1显示了实验结果。利用时间卷积的优势,我们大大提高了在移动设备上测量的推理时间,同时获得了比基线KWS模型更好的精度。
【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第4张图片

如图3所示,假设错误检测到的关键字数量相同,与其他基线相比,TC-ResNet141.5不太可能错过目标关键字。较小的曲线下面积(AUC)意味着对于不同的误警率,模型平均漏掉的目标关键字更少。TC-ResNet14-1.5显示了最小的AUC,这对于KWS系统的良好用户体验至关重要。
【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第5张图片
我们设计了2D-ResNet8,其结构与TC-ResNet8相同,只是使用了3×3的2D卷积。2DResNet8(在表2中)显示了类似的精度,但比TC-ResNet8(在表1中)慢了9.2倍。TC-ResNet8-1.5能够在使用更少的计算资源的情况下超过2D-ResNet8。

【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时域卷积算法_第6张图片

4、结论

在这项研究中,我们的目标是在移动设备上实现快速而准确的实时知识获取模型。我们在移动设备Google Pixel 1上测量了推理速度,并对传统的基于卷积的KWS模型和我们的利用时间卷积的模型进行了定量分析。与最先进的模型相比,我们提出的模型获得了385倍的加速比,同时提高了0.3%的p精度。

通过消融研究,我们证明了时间卷积确实是显著加速的原因,同时提高了模型的精度。对于一组不同的网络体系结构,进一步分析时间卷积的有效性将是值得的。

你可能感兴趣的:(语音处理,算法,深度学习,人工智能,语音唤醒)