Gradient-Based Learning Applied to Document
今天搜索了一下这篇98年的经典文章,主要内容为LeNet-5这个成熟的使用cnn的商业支票的编码的识别系统。不过最主要的是看看GD。看了一下,居然有46页,也是给跪了,好长好长好长。也许是我太年轻,没看过更长的,不过我一般见到的都是十页左右的,这也算是磨砺一下自己。不过相关的博客评论比较少,得自己认真读一读。毕竟是个划时代的大一统的文章。
Abstract
使用反向传播去训练神经网络是梯度下降很好的一个应用,可以很简单的在高维空间中形成一个平面来进行手写字符识别。
要知道文本系统的识别原来涉及到诸多步骤,但是GTN这个方法能够融合这些步骤,从而一步到位!真的是太牛逼了!
我们首先描述两个手写字符识别系统,然后通过实验来展示GTN全局训练的优势所在。
在实际的应用中,使用GTN来进行支票上编码的识别。
Introduction
最近吧,神经网络结合一系列的技巧的方法用在了语音识别和手写数字识别这个任务上。
传统的手工整合特征的方法被GTN这个可以自动学习的机器学习方法打败了。为什么呢?
主要是因为数据模式的多样性注定难以使用手工去提取特征,所以大多数系统使用手工设计算法,自动学习模式。主要分成两部分,一部分是feature extractor,另一部分是classifier.
Feature extractor(降维,从而运算简便,具有一定的抗不变性的能力)但是feature extractor包含大量的先验知识,而且针对任务具有不一样的特性,通常手工提取特征那是相当浪费时间的啊。
Classifier是来去训练一个划分平面。
那么这就带来一个问题,accuracy很大程度上依赖于feature的划分,所以之前的研究的关注点就很大程度上放在了不同任务应该提取什么样的特征(评:奈何任务千变万化啊!作为一个懒人,肯定的说,如果不同任务要不同特征,那肯定有个方法能够实现大一统,不然是个任务就能研究之后发文章,这也太杂了吧)
所以,通常来说,进行一项识别的任务是a fixed feature extractor + trainable classifier。
之所以需要手工提取特征是因为classifier只能处理低维度的可分数据[1]。但是,历史的车轮终将碾过,三个条件改变了现状:第一、硬件上性能的提升使得暴力计算成为了可能,减少了对于倍儿精巧的算法的需求(评:虽然说很多算法看上去很漂亮,但是不是很实用,还是哪些简单使用的算法比较好,来自一个头脑简单的人的评论)。第二、大数据集合让模型能够更多的使用原始数据进行处理,而不是提取的特征的结果。第三、机器学习算法的发展使得其能够处理高维度的原始数据,不用降维了。
因此最近在语音和手写数字上的进展很大程度上是依赖于训练技巧和训练数据集。一个实际的应用是,使用反向传播去训练神经网络,商业上易经有成熟的OCR的手写识别系统。
Section 1:手写数字识别的任务
Section 2:手写数字识别的任务,介绍卷积神经网络,使用局部感知来学会相对的不变性。
Section 3:不同benchmark上不同方法的结果。尽管自动学习比重大,最后学习的效果相对好,但是没有一种方法不使用先验知识。
Section 4:组合多个模型能够减小error。推广进行词和句的识别。识别变长的物体,比如手写的词语使用多么使用图的多么行系统也不错。GTN
Section 5:传统的通过segmentation之后recognizing的方法
Section 6:仅使用或者不使用recognizer不需要segmentation的方法
Section 7:Space-Displacement Neural Network(SDNN)通过recognizer扫描所有可能的切分点确定segmentation。
Section 8:GTN和其他模型的组合。
Section 9:GTN应用与一个pen computer中,,要即使给出反馈,核心是卷积神经网络,结果显示:一个recognizer在word层面训练比pre-segmented , hand-labeled , isolated character要好
Section 10:GTN应用在实际的银行支票系统中,称为LeNet-5
(评:总的来说可以这么看一下,就是对于我们的发展来说,有这么一点值得注意,就是如果对于一个问题,不同的解决方案太多,那么很可能会出现一个大一统的方案,比如说对于训练深度网络来说,trick很多很多,在alexnet中就有很大体现,然而,然而,然而,resnet直接拉低了深度网络的error)
参考资料:
这些上古时期的文章资料好少。。。
1. Gradient-based learning applied to document recognition