各大公司的语音技术调研

背景：针对声学模型的调研，时间2019年8月

Speech Recognition on LibriSpeech test-other

LibriSpeech上的WER排名

1.google的语音识别技术（LAS：LSTM+Attentionn）

论文1（2018年）：STATE-OF-THE-ART SPEECH RECOGNITION
WITH SEQUENCE-TO-SEQUENCE MODELS

摘要：基于注意力机制的编码器-解码器架构，如 Listen、Attend 和 Spell（LAS）可以将传统自动语音识别（ASR）系统上的声学、发音和语言模型组件集成到单个神经网络中。

在结构上，我们证明了词块模型可以用来代替字素。我们引入了新型的多头注意力架构，它比常用的单头注意力架构有所提升。在优化方面，我们探索了同步训练、定期采样、平滑标签（label smoothing），也应用了最小误码率优化，这些方法都提升了准确度。我们使用一个单向 LSTM 编码器进行串流识别并展示了结果。

las.png

LAS模型：5层lstm + 4个attention + 2层lstm
等效----> encoder（am） + ctc + decoder（lm）

ps：参考链接

1.知乎：谷歌发布全新端到端语音识别系统：词错率降低至5.6%
2.知乎 Listen, Attend and Spell 笔记

2.Facebook：wav2letter（CNN+ASG）

最近，Facebook的AI研究中心（FAIR）发表的一个研究论文，提出了一种新的单纯基于卷积神经网络（Convolutional Neural Network）的语音识别技术，而且提供了开源的实现wav2letter++，一个完全基于卷积模型的高性能的语音识别工具箱。

全卷积语音识别架构

经过很多次实验，FAIR团队决定依赖于一个整合多个不同CNN层的架构来实现端对端的语音识别流水线，从音频波形处理到语言转录。该架构基于下图所示的散射模型：

wav2letter

模型的第一层CNN用来处理原始音频并提取一些关键特征；接下来的卷积声学模型是一个具有门限单元的CNN，可通过训练从音频流中预测字母；卷积语言模型层则根据来自声学模型的输入生成候选转录文本；最后环节的集束搜索（Beam-Search）编码器则完成最终的转录单词序列。

参考：wav2letter++简介

论文和代码（2019年）：Fully Convolutional Speech Recognition

摘要：在本文中，我们提出了一个完全基于卷积神经网络的方法，利用原始波形，声学模型和语言模型建模。采用端到端的全卷积，用原始波形训练预测字符，完全去除特征提取步骤。采用外部卷积语言模型进行解码单词。

Fully Convolutional Speech Recognition

3.科大讯飞（CNN+CTC+Attention）

声学模型DFCNN（CNN+CTC：2016年）：https://blog.csdn.net/chinatelecom08/article/details/85013535

dfcnn.png

语言模型（基于attention）：https://blog.csdn.net/chinatelecom08/article/details/85051817

4.NVIDIA ： wav2letter变种->jasper

论文和代码（2019年）：Jasper: An End-to-End Convolutional Neural Acoustic Model

摘要：在文中，我们的模型Jasper使用1D卷积，batch normalization，ReLU，dropout，residual
connections。为了改进培训，我们进一步介绍了一个新的逐层优化器叫做NovoGrad。通过实验，
我们证明了所提出的深层体系结构的性能比更复杂的选择好或好。我们最深的Jasper变体使用54个卷积层。有了这个架构，我们使用带语言模型的框架实现3.86％WER。

Figure 2: Jasper Dense Residual

5.百度（DS2：CNN+GRU+CTC）

Deep Speach 2

论文和代码（2015年）：Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

网络结构共11层，3层CNN，7层RNN，1层FC

ds2.png

摘要：试验表明，端到端的深度学习方法可以用来识别英语或汉语普通话 - 两种截然不同的语言。因为它用神经网络取代了手工设计组件的整个管道，端到端学习使我们能够处理各种各样的语音，包括嘈杂的环境，重音和不同的语言。我们的方法的关键是我们应用HPC技术，可以比我们以前的系统加速7倍。由于这种效率，以前需要几周的实验现在可以在几天内完成。这使我们能够更快地进行迭代，以确定优秀的架构和算法。因此，在一些情况下，我们的系统在标准数据集基准测试时与人类工作者的转录竞争。最后，在数据中心使用一种称为Batch Dispatch with GPU的技术，我们表明我们的系统可以在线设置中低成本部署，在大规模服务用户时提供低延迟。