gdtop818

(9) [CS15] Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition

计划完成深度学习入门的126篇论文第九篇，Google的Has¸im Sak使用RNN用在Acoustic Models for Speech Recognition方向上的论文。

ABSTRACT&INTRODUCTION

摘要

最近我们发现，作为语音识别的声学模型，深度长短期记忆(LSTM)递归神经网络(RNNs)优于前馈深度神经网络(DNNs)。近年来，我们发现使用这种LSTM神经网络的序列训练上下文相关(CD)隐马尔可夫模型(HMM)声学模型的性能可以通过使用连接主义时间分类(CTC)初始化的序列训练电话模型来等效。在本文中，我们提出了进一步提高LSTM RNN声学模型在大词汇量语音识别中的性能的技术。我们证明了帧叠加和降低帧速率可以得到更精确的模型和更快的解码速度。CD电话建模导致进一步的改进。我们也给出了直接输出单词的LSTM RNN模型的初始结果。

Index Terms: speech recognition, acoustic modeling, connectionist temporal classification, CTC, long short-term memory
recurrent neural networks, LSTM RNN

介绍

虽然使用递归和前馈神经网络的语音识别系统已经存在了20多年[1,2]，但直到最近才取代高斯混合模型(GMMs)成为最先进的声学模型。最近，有研究表明，在大规模语音识别任务中，递归神经网络的表现优于前馈网络[3,4]。

传统的语音系统采用交叉熵训练，先对HMM CD状态目标进行交叉熵训练，然后进行序列训练。CTC模型使用语音标签之间的空白符号，提出了一种替代传统交叉熵训练的损失。最近我们发现，使用CTC进行训练的LVCSR的RNNs可以在sMBR序列训练准则下得到改善，接近最先进的[5]。在本文中，我们进一步研究了smbr训练的CTC模型在声学语音识别中的应用，结果表明，通过适当的特征和引入上下文相关的手机模型，该模型的识别准确率比传统的LSTM RNN模型高8%。下一节将介绍LSTM RNNs，并总结CTC方法和序列训练。然后我们描述了声帧叠加以及上下文相关的电话和全词建模。下一节描述我们的实验，并给出结论中总结的结果。

RNN Acoustic Modeling Techniques

在本研究中，我们将重点放在LSTM RNN架构上，该架构在我们之前的研究中表现良好，表现优于深度神经网络。

RNNs对输入序列进行单向或双向[6]建模。单向RNNs(图1顶部)估计标签后验仅使用当前输入xt的左上下文，处理从左到右的输入，并在前进方向上具有一个隐藏状态。这对于需要输入和相应输出之间的低延迟的应用程序是可取的。通常，输出目标会因为特性而延迟，允许访问少量的正确/未来上下文，在不引起很大延迟的情况下提高分类的准确性。

如果能够承受看到整个序列的延迟，bidirectional RNNs(图1底部)估计标签后验使用单独的层来处理正向和反向的输入。我们使用通过叠加多个LSTM层构建的深层LSTM RNN架构。这些模型已经被证明在语音识别方面比浅层模型表现得更好[7,8,9,3]。对于双向模型，我们在每个深度使用两个LSTM层，一个在正向操作，另一个在输入序列的反向操作。这两个层都与前一个向前层和后一个向后层连接。输出层还连接到最后的正向和反向层。我们对输出层使用不同的声学单元进行实验，包括上下文相关的HMM状态和电话，包括上下文无关和上下文相关(第2.4节)。我们采用异步随机梯度下降(ASGD)优化技术对模型进行分布式训练，允许在集群中的大量机器上并行训练，并支持神经网络的大规模训练[10,11,12,13,3]。所有网络中的权值随机初始化为均匀分布(-0.04,0.04)。我们将记忆细胞的激活剪切至[- 50,50]，并将其梯度剪切至[- 1,1]，使CTC训练稳定。

1. CTC Training

CTC方法[14]是一种使用RNNs进行序列标记的技术，其中输入端与未知标签对齐。CTC可以通过softmax输出层实现，该输出层为空白标签，使用额外的单元来估计在给定时间不输出标签的概率。Blank类似于之前提出的[15]的非感知状态。来自网络的输出标签概率定义了包括空白标签在内的所有可能的输入序列标签的概率分布。通过网络训练，利用网络输出和前后向算法[16]对训练数据进行估计，优化训练数据正确标签的对数概率。输入序列的正确标签定义为输入的所有可能标签的集合，这些标签具有正确序列中的目标标签，可能具有重复，并且在不同的标签之间允许有空白标签。使用[5]中描述的有限状态传感器(FSTs)可以有效且容易地计算CTC训练的目标，并且在序列标签的状态之间插入额外的可选空白状态。

传统的语音和手写混合识别系统通常是从固定的对齐开始训练的，而在给定当前模型的情况下，使用前向后算法对网络目标进行重新估计同样适用于传统的递归[17]或前馈网络[18](如果没有这种对齐的话)。这些传统的重新排列系统遵循的实践是选择对齐，以最大化与转录本匹配的状态序列下的数据的可能性，并使用由标签先验缩放的后验。

因此，CTC在两个方面不同于传统的建模。首先，额外的空白标签使网络在不确定的帧上不再进行标签预测。其次，训练准则优化的是状态序列的对数概率，而不是输入的对数似然。

无论采用带后验和空白符号的CTC模型，还是带缩放后验的传统模型，只要用前向后算法计算出目标后验，softmax输出与目标之间的交叉熵损失的梯度就会通过网络进行反向传播。

正如[5]中所描述的，可以使用标准的beam搜索算法对CTC模型进行语音解码，同样允许在搜索图的输出标签之间有一个可选的空白状态标签。在解码过程中，我们只对空标签后验进行了一个常数级的缩放，这个常数级是由外置集合上的交叉验证决定的。然而，带有CD电话标签的CTC模型(第2.4节)在加权常数(2.1)下表现更好。

2. Sequence Discriminative Training

交叉熵和CTC准则对于ASR中单词错误率(WER)最小化的目标是次优的。在语音解码中使用的词汇和语言模型约束的序列级识别训练准则已经被证明可以提高使用CE[19, 20, 12, 21, 4]或CTC训练准则[5]引导的DNN和RNN声学模型的性能。本文采用国家级最小贝叶斯风险(sMBR)序列判别训练准则[19]来提高用CE或CTC准则初始化的RNN声学模型的精度。如前所述，在[5]之前，使用CTC模型进行解码需要缩放空白标签后验。我们发现在sMBR训练过程中，如果我们在解码话语时不对空标签后验进行缩放以得到分子和分母格，sMBR训练可以解决这个缩放问题。另外,空白标签缩放可以烤成的偏见RNN模型中的空白标签输出装置通过增加负对数的规模开始前sMBR训练,就像国家先验可以烤成将softmax偏见的传统模型在序列训练。

综上所述，经过序列判别训练后，CTC模型与传统模型的唯一区别就是使用了空白符号。此后，我们使用CTC来参考这些模型(以及使用未缩放后验来生成对齐的初始训练)，并将其与没有空白符号的传统模型进行对比，在本文中，我们使用固定的硬对齐进行训练。

3. Acoustic Features

我们使用了在25ms windows上每10ms计算一次的80维能量特征。通过将过滤器库的数量从40个增加到80个，我们获得了显著的改进，但只给出了后者的结果。

在过去，我们观察到CTC训练是不稳定的，一些训练跑不能收敛。我们发现[5]通过使用CTC和传统的CE损耗开始使用两个输出层进行训练，或者使用CE损耗预先训练LSTM层的网络进行初始化，稳定性得到了改善。我们认为这是由于与CTC对齐的固有随意性，CTC认为任何以正确顺序发出目标符号并点缀任意数量空格的对齐都是有效的。减少对齐空间的一种方法是减少输入帧的数量。这可以通过简单的输入框,虽然呈现完整的输入信号的声学信息,我们首先堆栈帧,这样网络将多个(如8)一次帧然后毁掉帧,这样我们跳过向前多个帧(如3)处理每一个这样的super-frame之后。这个过程如图2所示。采用这种方法抽取帧，声学模型能够处理完整的信号，而声学模型的计算只需要每30ms进行一次。对于一个固定大小的网络，这将大大减少声学模型的计算和解码时间。

4. Context-Dependent Phones

之前的CTC模型[8,5]使用的是上下文无关的输出，但是众所周知，对于传统的语音识别系统，无论是基于gmm的还是神经网络的混合系统，上下文依赖状态的表现都优于上下文无关的模型。我们认为上下文依赖是解码的一个重要约束，并为状态输出提供了一个有用的标签，因此我们认为它应该对CTC模型有用。
在此之前，[22]被证明可以构建依赖于上下文的全手机模型，这对于LSTM-HMM是可行的混合语音识别，这些模型可以提供类似的结果，上下文依赖的状态模型，只要坚持一个最小的持续时间。我们重复这个过程，使用Young等人的分层二元分裂聚类算法进行上下文绑定。我们使用三个40维logmel过滤器组的框架来表示每个全手机实例。构造每个电话一棵树，使用最大可能增益语音问题在每个节点上分割数据。根据我们的培训数据，我们最终得到了9287部CD手机。如前所述，我们发现为每部手机设置一个最小持续时间可以提高错误率，我们再次使用训练集持续时间直方图的10%截止时间作为对传统模型进行解码的每个CD-phone的最小持续时间。对于CTC，没有强加这样的持续时间模型。

5. Word Acoustic Models

结合LSTM RNNs存储器和CTC s的能力来学习标签和声学帧序列之间的对齐，同时通过引入空白标签来减轻网络对每一帧的标签，使建模单元能够使用更长的持续时间。例如，我们可以训练声学模型预测整个单词而不是音素。之前有研究使用LSTM RNN CTC模型来识别词汇量较小的关键字任务(例如12个单词的[24])。在本文中，我们研究了在一个包含7000到90000个单词的大词汇量训练集上训练的单词声学模型的有效性。

Experiments

表1显示了使用CD HMM状态、CI电话或CD电话标签进行CE或CTC损耗训练的各种单向和双向LSTM RNN声学模型在语音搜索任务中的错误率(word error rate, WERs)。从尝试学习3个状态HMM标签可以看出，CTC CD状态模型的性能并不好。单向的CE CD电话模型略优于相应的CE CD状态模型。CTC CI电话模型的性能与CE CD状态模型非常相似。CTC CD手机模型的单向度比CTC CI手机的单向度提高了8%左右，双向提高了3.5%左右。对于CD状态和CI手机模型，双向模型比单向模型提高了约10%，而CTC CD手机模型仅提高了5%。

Conclusions

在这项工作中，我们展示了一些改进的重复网络声学模型。使用较长期的特征表示形式，以较低的帧速率处理，为带有空白符号输出的模型的CTC训练收敛带来了稳定性，同时也大大减少了计算量。经过序列训练，该模型的性能优于以往的声学模型。引入上下文相关语音单元，进一步提高了空符号声学模型的性能，结果表明，该模型的性能优于传统的序列训练lstm混合模型。我们也证明了我们可以训练词级声学模型在不使用语言模型的情况下实现中等词汇量语音识别的合理精度。

你可能感兴趣的:(深度学习论文系列博客)

设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR