本文是论文的相关摘要,因为作者的原话最容易理解,所以将精彩语句摘录,帮助快速回忆起文章主要信息。后续会将把论文英文原版语句补充进来,持续更新。
Multilayer neural networks trained with the back-propagation algorithm constitute the best example of a successful gradient-based learning technique. Given an appropriate network architecture, gradient-based learning algorithms can be used to synthesize a complex decision surface that can classify high-dimensional patterns, such as handwritten characters, with minimal preprocessing. This paper reviews various methods applied to handwritten character recognition and compares them on a standard handwritten digit recognition task. Convolutional neural networks, which are specifically designed to deal with the variability of two dimensional (2-D) shapes, are shown to outperform all other techniques. Real-life document recognition systems are composed of multiple modules including field extraction, segmentation, recognition, and language modeling. A new learning paradigm, called graph transformer networks (GTN’s), allows such multimodule systems to be trained globally using gradient-based methods so as to minimize an overall performance measure. Two systems for online handwriting recognition are described. Experiments demonstrate the advantage of global training, and the flexibility of graph transformer networks. A graph transformer network for reading a bank check is also described. It uses convolutional neural network character recognizers combined with global training techniques to provide record accuracy on business and personal checks. It is deployed commercially and reads several million checks per day.
用反向传播算法训练的多层神经网络构成了一种成功的基于梯度的学习技术的最佳范例。给定适当的网络体系结构, 基于梯度的学习算法可以合成一个复杂的决策面, 可以对高维模式 (如手写字符) 进行分类, 并进行最小的预处理。本文综述了手写体字符识别的各种方法, 并将其与标准手写体数字识别任务进行了比较。用于处理二维 (2 维) 形状的可变性的卷积神经网络被证明优于所有其他技术。现实生活中的文档识别系统由多个模块组成, 包括字段抽取、分割、识别和语言建模。一种新的学习范式, 称为图变压器网络 (GTN), 允许这样的多模块系统在全局范围内使用基于梯度的方法进行训练, 以尽量减少总体性能指标。介绍了两种在线手写识别系统。实验证明了全局训练的优越性, 以及图形变压器网络的灵活性。文中还介绍了一种用于读取银行支票的图形转换器网络。它使用卷积神经网络字符识别器结合全局训练技术, 为企业和个人支票提供记录准确性。它是商业部署, 每天读数以百万计的支票。
Over the last several years , machine learning techniques , particularly when applied to neural networks have played an increasingly important role in the design of pattern recognition systems . In fact , it could be argued that the availability of learning techniques has been a crucial factor in the recent success of pattern recognition applications such as continuous speech recognition and handwriting recognition .
在过去的几年中, 机器学习技术, 特别是在神经网络中的应用, 在模式识别系统的设计中发挥着越来越重要的作用。事实上, 可以说, 学习技术的可用性是近年来模式识别应用 (如连续语音识别和手写识别) 成功的关键因素。
The main message of this paper is that better pattern recognition systems can be built by relying more on automatic learning , and less on hand-designed heuristics. This is made possible by recent progress in machine learning and computer technology . Using character recognition as a case study , we show that hand-crafted feature extraction can be advantageously replaced by carefully designed learning machines that operate directly on pixel images . Using document understanding as a case study , we show that the traditional way of building recognition systems by manually integrating individually designed modules can be replaced by a unified and well-principled design paradigm , called Graph Transformer Networks , that allows training all the modules to optimize a global performance criterion .
本文的主要内容是通过更多地依赖于自动学习来建立更好的模式识别系统, 减少手工设计的启发式学习。 这是由于最近在机器学习和计算机技术方面的进步而成为可能的。使用字符识别作为案例研究, 我们展示了手工制作的特征提取可以用精心设计的直接在像素图像上操作的学习机器来代替。以文档理解为个案研究, 我们展示了通过手工集成单独设计的模块来构建识别系统的传统方法, 可以用统一的、原则性好的设计范式代替, 称为图形转换器网络, 允许训练所有模块以优化全局性能标准。
Since the early days of pattern recognition it has been known that the variability and richness of natural data ,be it speech , glyphs or other types of patterns,make it almost impossible to build an accurate recognition system entirely by hand. Consequently , most pattern recognition systems are built using a combination of automatic learning techniques and hand-crafted algorithms . The usual method of recognizing individual patterns consists in dividing the system into two main modules shown in figure1. The first module , called the feature extractor , transforms the input patterns so that they can be represented by low-dimensional vectors or short strings of symbols that (a) can be easily matched or compared , and ( b ) are relatively invariant with respect to transformations and distortions of the input patterns that do not change their nature . The feature extractor contains most of the prior knowledge and is rather specific to the task .
从模式识别的早期开始, 人们就知道, 自然数据的变异性和丰富性, 无论是语音、字形还是其他类型的模式, 都几乎不可能完全通过手工构建准确的识别系统。因此, 大多数模式识别系统都是使用自动学习技术和手工制作的算法相结合构建的。识别单个模式的通常方法包括将系统划分为图像1中显示的两个主要模块。第一个模块, 称为特征抽取器, 转换输入模式, 使它们可以由低维向量或符号的短字符串表示 (a) 可以很容易地匹配或比较, (b) 对于不改变其性质的输入模式的转换和扭曲是相对不变的。特征抽取器包含了大部分先验知识, 而且是特定于任务的。
It is also the focus of most of the design effort ,because it is often entirely hand-crafted. The classifier,on the other hand ,is often general-purpose and trainable.One of the main problems with this paper is that the recognition accuracy is larger determined by the ability of the designer to come up with an appropriate set of features .This turns out to be a daunting task which,unfortunately,must be redone for each new problem. A large amount of the pattern recognition literature is devoted to describing and comparing the relative merits of different feature sets for particular tasks.
它也是大多数设计工作的重点, 因为它通常是完全手工制作的。另一方面, 分类器通常是多用途的和可训练的。本文的主要问题之一是, 识别准确率大大取决于设计者能够提出一套合适的特征的能力。这是一项艰巨的任务, 不幸的是, 必须为每个新问题重新做一项工作。大量的模式识别文献用于描述和比较不同特征集对特定任务的相对优点。
Historically , the need for appropriate feature extractors was due to the fact that the learning techniques used by the classifiers were limited to low-dimensional spaces with easily separable classes. A combination of three factors have changed this vision over the last decade . First , the availability of low-cost machines with fast arithmetic units allows to rely more on brute-force ” numerical ” methods than on algorithmic refinements . Second , the availability of large databases for problems with a large market and wide interest , such as handwriting recognition , has enabled designers to rely more on real data and less on hand-crafted feature extraction to build recognition systems . The third and very important factor is the availability of powerful machine learning techniques that can handle high-dimensional inputs and can generate intricate decision functions when fed with these large datasets . It can be argued that the recent progress in the accuracy of speech and handwriting recognition systems can be attributed in large part to an increased reliance on learning techniques and large training datasets . As evidence to this fact a large proportion of modern commercial OCR systems use some form of multi-layer Neural Network trained with back-propagation .
从历史上看, 需要适当的特征提取器是由于这一事实, 分类器使用的学习技术仅限于低维空间, 易于分离的类。在过去十年中, 三因素的结合改变了这一愿景。首先, 具有快速算术单元的低成本机器的可用性使得更多的依赖于蛮力 “数值 ” 方法而不是算法细化。第二, 对于大市场和广泛关注的问题 (如手写识别), 大型数据库的可用性使设计者能够更多地依赖实际数据, 而较少使用手工制作的特征抽取来建立识别系统。第三个非常重要的因素是可用的强大的机器学习技术, 可以处理高维输入, 并能产生复杂的决策功能时, 与这些大数据集。可以说, 最近在语音和手写识别系统的准确性方面的进展可以归结为更多地依赖学习技术和大型训练数据集。作为这一事实的证据, 很大比例的现代商业 OCR 系统使用某种形式的多层次神经网络训练与反向传播。
In this study , we consider the tasks of handwritten character recognition (Sections I and I I )and compare the performance of several learning techniques on a benchmark data set for handwritten digit recognition (Section I I I ) .While more automatic learning is beneficial , no learning technique can succeed without a minimal amount of prior knowledge about the task . In the case of multi-layer neural networks , a good way to incorporate knowledge is to tailor its architecture to the task . Convolutional Neural Networks introduced in Section I I are an example of specialized neural network architectures which incorporate knowledge about the invariances of 2D shapes by using local connection patterns , and by imposing constraints on the weights . A comparison of several methods for isolated handwritten digit recognition is presented in section I I I . To go from the recognition of individual characters to the recognition of words and sentences in documents , the idea of combining multiple modules trained to reduce the overall error is introduced in Section IV . Recognising variable-length objects such as handwritten words using multi-module systems is best done if the modules manipulate directed graphs.This leads to the concept of trainable Graph Transformer Network (GTN) also introduced in Section IV . Section V describes the now classical method of heuristic over segmentation for recognizing words or other character strings . Discriminative and non-discriminative gradient based techniques for training a recognizer at the word level without requiring manual segmentation and labeling are presented in Section VI . Section VI I presents the promising Space-Displacement Neural Network approach that eliminates the need for segmentation heuristics by scanning a recognizer at all possible locations on the input . In section VI I I , it is shown that trainable Graph Transformer Networks can be formulated as multiple generalized transductions based on a general graph composition algorithm .The connections between GTNs and Hidden Markov Models , commonly used in speech recognition is also treated Section IX describes a globally trained GTN system for recognising handwriting entered in a pen computer . This problem is known as ” on-line ” handwriting recognition , since the machine must pro duce immediate feedback as the user writes . The core of the system is a Convolutional Neural Network .The results clearly demonstrate the advantages of training a recognizer at the word level rather than training it on pre-segmented , hand-labeled , isolated characters . Section X describes a complete GTN-based system for reading handwritten machine-printed bank checks . The core of the system is the Convolutional Neural Network called LeNet-5 described in Section I I . This system is in commercial use in the NCR Corp oration line of check recognition systems for the banking industry . It is reading millions of checks per month in several banks across the United States .
在本研究中, 我们考虑了手写体字符识别的任务(第一和第二部分), 并将几种学习技术在基准数据集上的性能与手写数字识别(第三部分)进行了比较。虽然更多的自动学习是有益的, 没有学习技术可以成功, 而没有少量的先验知识的任务。在多层神经网络的情况下, 融合知识的一个好方法是将其结构调整为任务。第二部分中介绍的卷积神经网络是专门的神经网络体系结构的一个例子, 它通过使用局部连接模式和对权重施加约束, 将2D 形状的不变性知识结合起来。第三部分对几种独立手写体数字识别方法进行了比较。从对个别字符的识别到对文档中单词和句子的识别, 在第四部分介绍了将多个模块组合在一起以减少整体误差的设想。如果模块操作有向图, 则最好在使用多模块系统的情况下识别可变长度对象 (如手写单词)。这就引出了可训练图变压器网 (GTN) 的概念。第五部分描述了现在经典的启发式过分割方法, 用于识别字词或其他字符串。在不需要人工分割和标注的情况下, 在 word 级别上训练识别器的判别性和非歧视梯度技术是在第 vi 节中提出的。第六部分提出了有希望的空间位移神经网络方法, 通过在输入的所有可能位置扫描识别器, 消除了分割启发式的需要。在第 i 节中, 可训练图变压器网络可以根据一般的图合成算法, 作为多个广义转换。在语音识别中常用的 GTNs 和隐马尔可夫模型之间的连接也被处理, IX 部分描述一个全局训练有素的 GTN 系统, 用于识别在钢笔计算机中输入的手写。此问题称为 “联机 ” 手写识别, 因为计算机必须在用户写入时立即反馈。系统的核心是卷积神经网络。结果清楚地显示了在 word 级别训练识别器的优点, 而不是在预先分割的、手工标记的、孤立的字符上进行训练。X 部分描述了一个完整的 GTN 系统, 用于阅读手写机打印银行支票。系统的核心是卷积神经网络, 称为 LeNet-5 第一节描述的。该系统在 NCR 公司对银行业的支票识别系统进行了商业应用。它正在美国的几家银行每月阅读数以百万计的支票。
使用梯度下降法的多层网络可以从大量的数据中学习复杂的,高纬,非线性的映射,这使得他们成为图像识别任务的首选。在传统的模式识别的模型中,手工设计的特征提取器从图像中提取相关特征清除不相关的信息。分类器可以将这些特征进行分类。全连接的多层网络可以作为分类器。一个更有意思的模式就是尽量依赖特征提取器本身进行学习。对于字符识别,可以将图像作为行向量作为输入输入到网络中。虽然这些任务(比如字符识别)可以使用传统的前向全连接网络完成。但是还存在一些问题。
首先,图像是非常大的,由很多像素组成。具有100个隐藏单元的全连接网络包含成千上万的权重,这么多参数提高了系统的消耗和内存占用,因此需要更大的训练集。但是没有结构的网络的主要缺点是,多于图像或者音频这些应用来说,不具备平移,形变扭曲的不变性。在输入到固定大小输入的网络钱,字符图像的大小必须归一化,并且放在输入的中间,不幸的是,没有哪种预处理能够达到如此完美:由于手写体以字符为归一化单位,会导致每个字符的大小,倾斜,位置存在变化,再加上书写风格的差异,将会导致特征位置的变化,原则上,足够大小的全连接网络可以对这些变化鲁棒,但是,要达到这种目的需要更多的在输入图像不同位置的神经元,这样可以检测到不同的特征,不论他们出现在图像的什么位置。学习这些权值参数需要大量的训练样本去覆盖可能的样本空间,在下面描述的卷积神经网络中,位移不变性(shift invariance)可以通过权值共享实现。
第2点,全连接的网络的另一个缺点就是完全忽略了输入的拓扑结构。在不影响训练的结果的情况下,输入图像可以是任意的顺序。然而,图像具有很强的二维局部结构:空间相邻的像素具有高度相关性。局部相关性对于提取局部特征来说具有巨大优势,因为相邻像素的权值可以分成几类。CNN通过将隐藏结点的感受野限制在局部来提取特征。
CNN通过局部感受野(local receptive fields),权值共享(shared weights),下采样(sub-sampling)实现位移,缩放,和形变的不变性(shift,scale,distortion invariance)。一个典型的用于字符识别的网络结构如图2所示,该网络结构称为LeNet-5。输入层输入大小归一化并且字符位于中间的字符图像。每一层的每个神经元(each unit)接受上一层中一组局部领域的神经元的输入(就是局部感受野)。将多个神经元连接为局部感受野的思想可以追溯到60年代的感知机,与Hubel and Wiesel’s在猫的视觉系统中发现的局部感受和方向选择的神经元几乎是同步的(神经网络和神经科学关系密切)。局部感受野在视觉学习神经模型中使用很多次了,使用局部感受野,神经元能够提取边缘,角点等视觉特征,这些特征在下一层中进行结合形成更高层的特征,之前提到,形变和位移会导致显著特征位置的变化,此外图像局部的特征检测器也可以用于整个图像,基于这个特性,我们可以将局部感受野位于图像不同位置的一组神经元设置为相同的权值(这就是权值共享)。每一层中所有的神经元形成一个平面,这个平面中所有神经元共享权值。神经元(unit)的所有输出构成特征图,特征图中所有单元在图像的不同位置执行相同的操作,这样他们可以在输入图像的不同位置检测到同样的特征,一个完整的卷积层由多个特征图组成(使用不同的权值向量),这样每个位置可以提取多种特征。一个具体的示例就是图2 LeNet-5中的第一层,第一层隐藏层中的所有单元形成6个平面,每个是一个特征图。一个特征图中的一个单元对应有25个输入,这25个输入连接到输入层的5x5区域,这个区域就是局部感受野。每个单元有25个输入,因此有25个可训练的参数加上一个偏置。由于特征图中相邻单元以前一层中连续的单元为中心,所以相邻单元的局部感受野是重叠的。比如,LeNet-5中,水平方向连续的单元的感受野存在5行4列的重叠,之前提到过,一个特征图中所有单元共享25个权值和一个偏置,所以他们在输入图像的不同位置检测相同的特征,每一层的其他特征图使用不同的一组权值和偏置,提取不同类型的局部特征。LeNet中,每个输入位置会提取6个不同的特征。特征图的一种实现方式就是使用一个带有感受野的单元,扫面整个图像,并且将每个对应的位置的状态保持在特征图中,这种操作等价于卷积,后面加入一个偏置和一个函数,因此,取名为卷积网络,卷积核就是连接的权重。卷积层的核就是特征图中所有单元使用的一组连接权重。卷积层的一个重要特性是如果输入图像发生了位移,特征图会发生相应的位移,否则特征图保持不变。这个特性是CNN对位移和形变保持鲁棒的基础。
一旦计算出feature map,那么精确的位置就变得不重要了,相对于其他特征的大概位置是才是相关的。比如,我们知道左上方区域有一个水平线段的一个端点,右上方有一个角,下方垂直线段有一个端点,我们就知道这个数字是7。这些特征的精确位置不仅对识别没有帮助,反而不利于识别,因为对于不同的手写体字符,位置会经常变动。在特征图中降低特征位置的精度的方式是降低特征图的空间分辨率,这个可以通过下采样层达到,下采样层通过求局部平均降低特征图的分辨率,并且降低了输出对平移和形变的敏感度。LeNet-5中的第二个隐藏层就是下采样层。这个层包含了6个特征图,与前一层的6个特征图对应。每个神经元的感受野是2x2,每个神经元计算四个输入的平均,然后乘以一个系数,最后加上一个偏执,最后将值传递给一个sigmoid函数。相邻的神经元的感受野没有重叠。因此,下采样层的特征图的行和列是前一层特征图的一半。系数和偏置影响了sigmoid函数的效果。如果系数比较小,下采样层相当于对输入做了模糊操作。如果系数较大,根据偏置的值下采样层可以看成是“或”或者“与”操作。卷积层和下采样层是交替出现的,这种形式形成一个金字塔:每一层,特征图的分辨率逐渐减低,而特征图的数量逐渐增加。LeNet-5中第三个隐藏层(C3层)的每个神经元的输入可以来自前一层(S2)的多个特征图。卷积和下采样的结合的灵感来源于Hubel and Wiesel’s”简单”和”复杂”细胞的概念,虽然那个时候没有像反向传播的全局监督学习过程。下采样以及多个特征结合可以大大提高网络对几何变换的不变性。
由于所有的权值都是通过反向传播学习的,卷积网络可以看成是一个特征提取器。权值共享技术对降低参数的数量有重要的影响,同时权值共享技术减小了测试误差和训练误差之间的差距。LeNet-5包含了340908个连接,但是由于权值共享只包含了60000个可训练的参数。
卷积神经网络以及被应用在多个领域,包括手写体识别,打印字符识别,在线手写体提识别,以及人脸识别。在单个时间维度上权值共享的卷积神经网络被称为延时神经网络(TDNNs),TDNNs已经被用在场景识别(没有下采样)[40],语音识别(没有下采样),独立的手写体字符识别[44]以及手势验证[45]。
使用梯度下降法的多层网络可以从大量的数据中学习复杂的,高纬,非线性的映射,这使得他们成为图像识别任务的首选。
学习这些权值参数需要大量的训练样本去覆盖可能的样本空间,在下面描述的卷积神经网络中,位移不变性(shift invariance)可以通过权值共享实现。
全连接的网络的另一个缺点就是完全忽略了输入的拓扑结构。在不影响训练的结果的情况下,输入图像可以是任意的顺序。
图像具有很强的二维局部结构:空间相邻的像素具有高度相关性。局部相关性对于提取局部特征来说具有巨大优势,因为相邻像素的权值可以分成几类。CNN通过将隐藏结点的感受野限制在局部来提取特征。
CNN通过局部感受野(local receptive fields),权值共享(shared weights),下采样(sub-sampling)实现位移,缩放,和形变的不变性(shift,scale,distortion invariance)。
每一层的每个神经元(each unit)接受上一层中一组局部领域的神经元的输入(就是局部感受野)。
Hubel and Wiesel’s在猫的视觉系统中发现的局部感受和方向选择的神经元。
使用局部感受野,神经元能够提取边缘,角点等视觉特征,这些特征在下一层中进行结合形成更高层的特征,之前提到,形变和位移会导致显著特征位置的变化,此外图像局部的特征检测器也可以用于整个图像,基于这个特性,我们可以将局部感受野位于图像不同位置的一组神经元设置为相同的权值(这就是权值共享)。
每一层中所有的神经元形成一个平面,这个平面中所有神经元共享权值。神经元(unit)的所有输出构成特征图,特征图中所有单元在图像的不同位置执行相同的操作,这样他们可以在输入图像的不同位置检测到同样的特征,一个完整的卷积层由多个特征图组成(使用不同的权值向量),这样每个位置可以提取多种特征。
特征图的一种实现方式就是使用一个带有感受野的单元,扫面整个图像,并且将每个对应的位置的状态保持在特征图中,这种操作等价于卷积,后面加入一个偏置和一个函数,因此,取名为卷积网络,卷积核就是连接的权重。卷积层的核就是特征图中所有单元使用的一组连接权重。
卷积层的一个重要特性是如果输入图像发生了位移,特征图会发生相应的位移,否则特征图保持不变。这个特性是CNN对位移和形变保持鲁棒的基础。
在特征图中降低特征位置的精度的方式是降低特征图的空间分辨率,这个可以通过下采样层达到,下采样层通过求局部平均降低特征图的分辨率,并且降低了输出对平移和形变的敏感度。
系数和偏置影响了sigmoid函数的效果。
每一层,特征图的分辨率逐渐减低,而特征图的数量逐渐增加。
卷积和下采样的结合的灵感来源于Hubel and Wiesel’s”简单”和”复杂”细胞的概念。
由于所有的权值都是通过反向传播学习的,卷积网络可以看成是一个特征提取器。权值共享技术对降低参数的数量有重要的影响,同时权值共享技术减小了测试误差和训练误差之间的差距。
不完全的连接机制将连接的数量保持在合理的范围内。
不完全连接能够保证C3中不同特征图提取不同的特征。
每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远,RBF输出的越大。一个RBF输出可以被理解为衡量输入模式和与RBF相关联类的一个模型的匹配程度的惩罚项。用概率术语来说,RBF输出可以被理解为F6层配置空间的高斯分布的负的log似然(log-likelihood)。
给定一个输入模式,损失函数应能使得F6的配置与RBF参数向量(即模式的期望分类)足够接近。
相关参考