铿锵的玫瑰

Connectionist Temporal Classiﬁcation: Labelling Unsegmented Sequence Data with Recurrent Neural Netw

Abstract

许多现实世界的序列学习任务都需要从有噪声的、未分段的输入数据中预测标签序列。例如，在语音识别中，声音信号被转录成单词或子单词单元。递归神经网络（rnns）是一种功能强大的序列学习器，似乎非常适合这类任务。然而，由于它们需要预先分割的训练数据，以及将其输出转换为标签序列的后处理，因此它们的适用性受到了限制。本文提出了一种新的训练神经网络直接标记未分段序列的方法，从而解决了这两个问题。在TIMIT语音语料库上的实验表明，该算法比基线HMM和混合HMM-RNN算法都具有优越性。

Introduction

在实际序列学习中，标记未分段序列数据是一个普遍存在的问题。这在感知任务（例如手写识别、语音识别、手势识别）中尤其常见，在这些任务中，噪声、实值输入流用一串离散标签（例如字母或单词）进行注释。目前，诸如隐马尔可夫模型（hmms；rabiner，1989）、条件随机域（crfs；la fferty等人，2001）及其变体等图形模型是序列标记的主要框架。虽然这些方法在许多问题上已经被证明是成功的，但它们有几个缺点：（1）它们通常需要大量的任务专用知识，例如为hmm设计状态模型，或为crf选择输入特征；（2）它们需要明确的（通常是有疑问的）依赖性假设，以使推理变得可处理，例如，假设观察结果独立于hmm；（3）对于标准hmm，训练是生成的，即使序列标签是有区别的。
另一方面，递归神经网络（rnns）不需要对数据的先验知识，除了输入和输出表示的选择。它们可以被区别地训练，它们的内部状态为时间序列建模提供了一个强大的通用机制。此外，它们往往对时间和空间噪声具有鲁棒性。
然而，到目前为止，还不可能将rnns直接应用于序列标记。问题是，标准神经网络目标函数是为训练序列中的每个点分别定义的；换言之，RNN只能训练成一系列独立的标签分类。这意味着必须对训练数据进行预分割，并且必须对网络输出进行后处理，以给出最终的标签序列。
目前，RNN最有效的应用是在所谓的混合方法中将它们与HMM结合起来（Bourlard&Morgan，1994；Bengio，1999）。混合系统使用hmms对数据的长期序列结构进行建模，并使用神经网络提供局部分类。HMM组件能够在训练期间自动分割序列，并将网络分类转换为标签序列。然而，除了继承了hmms的上述缺点外，混合系统并没有充分发挥rnns在序列建模方面的潜力。
本文提出了一种用rnns标记序列数据的新方法，该方法消除了对训练数据和后处理输出的需求，并在单一网络结构中对序列的各个方面进行建模。基本思想是将网络输出解释为所有可能的标签序列上的概率分布，条件是给定的输入序列。给定这个分布，就可以导出一个目标函数，直接使正确标记的概率最大化。由于目标函数是不同的，网络可以通过时间的标准反向传播进行训练（Werbos，1990）。
在下文中，我们将未分段数据序列标记为时间分类的任务（kadous，2002）以及为此目的使用RNNs作为连接主义时间分类（CTC）。相比之下，我们将输入序列的每个时间步或帧的独立标记称为帧级分类。
下一节提供时间分类的数学形式，并定义本文中使用的误差测量。第3节描述了允许RNN用作时间分类的输出表示。第4节解释了反恐委员会网络的运作方式。第五节在timit语音语料库上比较了ctohybrid和hmm系统。第6节讨论了CTC与其他时间分类之间的一些关键区别，为未来的工作指明了方向，论文最后以第7节结束。

Temporal Classification

Connectionist Temporal Classification

本节描述了一种输出表示法，它允许一个递归神经网络用于CTC。关键的一步是将网络输出转化为标签序列上的条件概率分布。然后，通过为给定的输入序列选择最可能的标签，可以使用该网络进行分类。
CTC网络有一个SoftMax输出层（Bridle，1990），比L中的标签多一个单元。第一个“L”单位的激活被解释为在特定时间观察相应标签的概率。额外单元的激活是观察到“空白”或“无标签”的概率。总之，这些输出定义了所有可能的方式将所有可能的标签序列与输入序列对齐的概率。任何一个标签序列的总概率可以通过求其不同排列的概率之和得到。
隐含在（2）中的假设是，给定网络的内部状态，网络在不同时间的输出是有条件独立的。这是通过要求不存在从输出层到自身或网络的反馈连接来确保的。
鉴于上述公式，分类器的输出应为输入序列的最可能标记：
使用HMMs的术语，我们将查找这个标签的任务称为解码。不幸的是，我们不知道一个通用的，可处理的解码算法为我们的系统。但以下两种近似方法在实际应用中取得了较好的效果。第一种方法（最佳路径解码）基于最可能路径将对应于最可能标签的假设：
最佳路径解码计算起来很简单，因为π*只是每个时间步上最活跃输出的串联。然而，它不能保证找到最可能的标签。第二种方法（pre-fix search decoding）依赖于这样一个事实：通过修改第4.1节中的前向-后向算法，我们可以高效地计算标记前缀连续扩展的概率（图2）。
给定足够的时间，前缀搜索解码总是找到最可能的标签。但是，它必须扩展的最大前缀数随输入序列长度呈指数增长。如果产出分布在该模式附近达到很高的峰值，它将在合理的时间内完成。但对于本文的实验，还需要进一步的启发才能使其应用成为可能。
观察到经过训练的CTC网络的输出往往会形成一系列由强预测空白隔开的尖峰（图1），我们将输出序列分成很可能以空白开头和结尾的部分。我们通过选择观察空白标签的概率高于某个阈值的边界点来实现这一点。然后，我们分别计算每个部分的最可能标签，并将它们连接起来，得到最终分类。
在实践中，前缀搜索与这种启发式算法很好地结合在一起，并且通常优于最佳路径解码。然而，在某些情况下，例如，如果在截面边界的两侧弱地预测同一个标签，则它确实失败。

Training the Network

到目前为止，我们已经描述了一个输出表示，它允许RNN用于CTC。我们现在导出了训练具有梯度下降的CTC网络的目标函数。目标函数由极大似然原理导出。也就是说，最小化它可以最大化目标标签的对数相似性。注意，这与标准神经网络目标函数的原理相同（Bishop，1995）。给定目标函数及其对网络输出的导数，可以通过标准的时间反向传播计算权值梯度。然后，可以使用目前用于神经网络的任何基于梯度的优化算法对网络进行训练（Lecun等人，1998；Schraudolph，2002）。我们从最大似然函数所需的算法开始。
我们需要一种计算单个标签的条件概率p（l x）的有效方法。乍一看（3）这将是有问题的：总和是对给定标签的总体路径响应，通常有很多这样的情况。幸运的是，这个问题可以用动态规划算法来解决，类似于hmms的前向后退算法（rabiner，1989）。关键思想是，对应于标签的路径上的和可以分解为对应于该标签的前缀的路径上的迭代和。然后可以用递归的前向和后向变量高效地计算迭代。

Discussion and Future Work

CTC与其他时间分类之间的一个关键区别是，CTC没有显式地分割其输入序列。这有几个好处，例如不需要定位固有的模糊标签边界（例如，在语音或手写中），并且允许在证明有用时将标签预测组合在一起（例如，如果几个标签通常一起出现）。在这种情况下，如果只需要标签序列，确定分割是对建模效果的浪费。
对于需要分段的任务（例如蛋白质二级结构预测），使用CTC似乎有问题。但是，从图1可以看出，CTC自然倾向于将每个标签预测与序列的相应部分进行比对。这应该使其适合诸如关键字发现之类的任务，在这些任务中近似细分是足够的。
CTC的另一个显着特征是它没有显式地建模标签间依赖关系。这与图形模型相反，在图形模型中，通常假定标签形成第k级马尔可夫链。尽管如此，CTC隐式地模拟了标签间的依赖关系，例如通过预测通常以双尖峰形式同时出现的标记（请参见图1）。
处理结构化数据的一种非常通用的方法是时间分类器的层次结构，其中一个级别的标签（例如字母）成为下一个标签（例如单词）的输入。分层CTC的初步实验令人鼓舞，我们打算进一步朝这个方向发展。
良好的概括性总是很难通过最大可能训练来实现，但是对于CTC而言尤其如此。将来，我们将继续探索减少过度拟合的方法，例如重量衰减，提升和保证金最大化。

文本识别论文大全 CV小蜗牛文本识别文本识别 ocr 代码计算机视觉深度学习
文本识别论文*CODE表示官方代码CODE表示非官方代码具体详见github，欢迎star,fork,pr,issue等Conf.DateTitleHighlightcodeAAAI2022TextGestalt:Stroke-AwareSceneTextImageSuper-ResolutionAttention*CODEAAAI2022VisualSemanticsAllowforTextua
【重磅整理】180篇NIPS-2020顶会《强化学习领域》Accept论文大全深度强化学习实验室人工智能强化学习 xhtml 微软敏捷开发
深度强化学习实验室作者：《DeepRL-Lab》&《AMiner.cn》联合发布来源：https://neurips.cc/Conferences/2020/编辑：DeepRL（图片来自新智元）NeurIPS终于放榜，提交数再次创新高，与去年相比增加了38%，共计达到9454篇，总接收1900篇，其中谷歌以169篇傲视群雄，清华大学63篇，南京大学周志华教授团队3篇。论文接收率20.09%较去年有
什么？语音合成开源代码不会跑，follow me！
摘要：本文描述的深度神经网络模型结构：:NaturalTTSsynthesisbyconditioningWavenetonMELspectogrampredictions。本文分享自华为云社区《什么？语音合成开源代码不会跑，我来教你跑Tacotron2》，作者：白马过平川。Tacotron-2:TTS论文大全：https://github.com/lifefeel/S... DeepMind的
【重磅整理】180篇NeurIPS2020顶会《强化学习领域》Accept论文大全 AMiner科技 AMiner会议论文推荐自然语言处理神经网络机器学习深度学习数据挖掘
NeurIPS终于放榜，提交数再次创新高，与去年相比增加了38%，共计达到9454篇，总接收1900篇，其中谷歌以169篇傲视群雄，清华大学63篇，南京大学周志华教授团队3篇。论文接收率20.09%较去年有所下降，其中论文主题占比和结构图如下：算法（29%）深度学习（19%）强化学习（9%）作者：《DeepRL-Lab》&《AMiner.cn》联合发布来源：https://neurips.cc/C
《元学习meta learning)》2020综述论文大全！ Mr.Jk.Zhang 深度学习
【导读】元学习旨在学会学习，是当下研究热点之一。最近来自爱丁堡大学的学者发布了关于元学习最新综述论文《Meta-LearninginNeuralNetworks:ASurvey》，值得关注，详述了元学习体系，包括定义、方法、应用、挑战。成为不可缺少的文献。近年来，元学习领域，或者说“学会学习的学习”，引起了人们极大的兴趣。与传统的人工智能方法(使用固定的学习算法从头开始解决给定的任务)不同，元学习
行人检测论文大全 Ddreaming 行人检测
行人检测论文汇总马上就研二了，压力山大，回想研一整个一年，忙忙碌碌，却没出什么成绩，真是。。回首研一，可能就做了一点点工资，学习一些基本知识，比如常用机器学习算法、opencv、图像处理等等，然后开始接触行人检测，读dollar大神的论文，读他的工具包等等，现在感觉有点入门了，下面是dollar大神整理的资源，里面有行人检测领域最新最经典的论文，准备利用一两个月把这些经典的论文都读一读，原文地址：
【HC3i电子病历论文大全】截止2010年8月19日共计95篇紫凝生活职场休闲 HC3i
帖子中包含了目前HC3i资源版块中关于电子病历的所有论文精选（截止到2010年8月19日），目的主要是方便需要电子病历的用户查找相关论文。由于我本身对电子病历论文分类不是很擅长，所以，仅仅是汇总而已，也许有一些论文是废话，也许有一些论文甚至观点是错的，这些我都不能保证。以下精选电子病历论文基本都是网友上传，至于附件质量，我也不能全部保证，大家还是有选择的下载，下载自己真正需要的资料。也许这几个专题
毕业论文大全（本科） sunlzx .net 教育读书 asp.net asp
毕业论文大全（本科）分享陈文江昨天 21:50分享毕业论文大全，暂时用不到你也留着，不然四、五月你着急吧不要希望在网上可以免费找到你的毕业论文（除非你论文答辩不想过了），更不要觉得下面东西没用，当你做论文时最快的帮你找到资料、文献. [ http://www.51lw.com (免费论文下载) http://www.teachercn
项目管理与项目经理 lcj8 工作项目管理活动工具任务 Motorola
项目管理与项目经理 [论文大全-经济学论文]【打印】【字体：大中小】项目管理与项目经理2001-07-31一、项目管理的产生与发展项目是一种一次性的工作，它应当在规定的时间内，在明确的目标和可利用资源的约束下，由专门组织起来的人员运用多种学科知识来完成。美国项目管理学会PMI（Project Management Instiute）对项目的定义是：将人力资源和非人力资源结合成一个短期组织以
项目管理与项目经理逆风的香1314 工作项目管理活动招聘电信
项目管理与项目经理 [ 论文大全 - 经济学论文] 【打印】【字体：大中小】项目管理与项目经理 2001-07-31 一、项目管理的产生与发展项目是一种一次性的工作，它应当在规定的时间内，在明确的目标和可利用资源的约束下，由专门组织起来的人员运用多种学科知识来完成。美国项
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

Connectionist Temporal Classiﬁcation: Labelling Unsegmented Sequence Data with Recurrent Neural Netw

Abstract

Introduction

Temporal Classification

Connectionist Temporal Classification

Training the Network

Discussion and Future Work

你可能感兴趣的:(论文大全)