2022.11.05 第六次周报

文章目录

  • 前言
  • 一、文献阅读
    • 背景:
    • 1.1 第二节 CONVOLUTIONAL NEURAL NETWORKS FOR ISOLA TED CHARACTER RECOGNITION 单对象识别
    • 1.2 第五节 MULTIPLE OBJECT RECOGNITION: HOS 多对象识别
    • 1.3 第七节 MULTIPLE OBJECT RECOGNITION: SPACE DISPLACEMENT NEURAL NETWORK 多目标识别:空间位移神经网络
    • 论文总结
  • 二、AlexNet模型
    • 模型结构
    • 与LetNet-5模型差异
  • 总结


前言

本周学习了《Gradient-Based Learning Applied to Document Recognition》这篇论文,虽然是1998年发布的,但是却是卷积神经网络的前身之作,最经典的卷积神经网络,所以认真研读了一番。
并且学习了AlexNet模型。

一、文献阅读

《Gradient-Based Learning Applied to Document Recognition》于1998年发布,前面介绍了几种手写字符识别的学习技术的性能并且进行了比较;在不需要人工分割和标记的情况下,训练单词级别识别器的基于梯度的辨别和非辨别技术;空间位移神经网络方法。但本论文的核心在于介绍了一个用来读取空白支票的图变换网络系统。通过使用基于全局训练技术的卷积神经网络字符识别算法,可提供商业和个人支票的精确记录。还从中介绍了两个针对在线手写体识别的系统。实验证实了全局训练的优势,以及图变换网络的灵活性。然后系统的分析了卷积神经网络LeNet-5的体系结构。

背景:

普通神经网络存储大量权重的内存需求可能会排除某些硬件实现。但是,用于图像或语音应用的非结构化网络的主要缺陷是,它们对输入的翻译或局部失真没有内置的不变性。

笔记的预处理不可能是完美的:笔迹通常是在单词级别规范化的,这可能导致单个字符的大小、倾斜和位置变化。再加上写作风格的变化,这将导致输入对象中不同特征的位置发生变化。原则上,一个足够大的完全连接的网络可以学会产生对这种变化不变的输出。然而,学习这样的任务可能会导致多个具有相似权重模式的单元位于输入的不同位置,以便检测不同的特征,无论它们出现在输入的任何地方。学习这些权重配置需要大量的训练实例来覆盖可能的变化空间。在卷积网络中,如下所述,通过强制跨空间复制权值配置自动获得移不变性。

其次,完全连接体系结构的一个缺陷是完全忽略了输入的拓扑结构。输入变量可以以任何(固定的)顺序呈现,而不会影响训练的结果。相反,图像(或语音的时频表示)具有很强的二维局部结构:在空间或时间上接近的变量(或像素)是高度相关的。局部相关性是在识别空间或时间对象之前提取和组合局部特征具有众所周知的优势的原因,因为相邻变量的配置可以被划分为少数类别(例如,边、角等)。卷积网络通过限制隐藏单元的接受域为局部的来强制提取局部特征。

下面分享的是个人认为重要部分

1.1 第二节 CONVOLUTIONAL NEURAL NETWORKS FOR ISOLA TED CHARACTER RECOGNITION 单对象识别

卷积网络,它被设计用来学习直接从像素图像中提取相关特征。
LetNet-5是一个较简单的卷积神经网络。上图显示了其结构:输入的二维图像(单通道),先经过两次卷积层到池化层,再经过全连接层,最后为输出层。
2022.11.05 第六次周报_第1张图片

这与之前学习的卷积神经网络没有太多不同,所以这里没学到太多东西。

1.2 第五节 MULTIPLE OBJECT RECOGNITION: HOS 多对象识别

在第五节中描述,包括在整个字符串级别而不是字符级别训练系统。基于梯度的学习的概念可以用于此目的。介绍了使用弧携带数值信息的有向无环图来表示备选假设的方法,以及GTN的结构设计思想。
首先介绍了一个Segmentation Graph分割图的概念,因为下面的多对象识别用到了这里的知识。
其次是Recognition Transformer and Viterbi Transformer识别变压器和维特比变压器。一个简单的识别字符串的GTN。它由两个称为识别变压器和维特比变压器的GT组成,识别变压器的目标是生成一个图,称为解释图或识别图,它包含输入的所有可能的分段的所有可能的解释。识别图包含许多的路径,每条路径表示输入的一个特定分段的一种可能解释。维特比变压器的作用是从解译图中提取最佳解译。
提取最佳解译的方法是:识别转换器将分割图作为输入,并将单个字符识别器应用于分割图中与每个弧相关联的图像。解译图的结构与分割图几乎相同,只是每个圆弧都被一组从同一节点到同一节点的圆弧所取代。在这组弧线中,对于与对应弧线相关联的图像,每个可能的类都有一个弧线。每个弧线上都附加了一个类标签,并且由识别器产生图像属于这个类的惩罚。如果分割器已经为候选段计算了惩罚,这些惩罚将与字符识别器计算的惩罚相结合,以获得判读图弧线上的惩罚。然后维特比变压器在众多路径中产生一个单路径图。该路径就是是判读图中累积惩罚最小的路径,也就是最佳翻译。

1.3 第七节 MULTIPLE OBJECT RECOGNITION: SPACE DISPLACEMENT NEURAL NETWORK 多目标识别:空间位移神经网络

完全消除分割。其思想是将识别器扫描到输入图像上的每一个可能的位置,并依赖识别器的“字符识别”属性,即,它能够正确识别输入字段中中心位置良好的字符,即使在它之外存在其他字符,同时拒绝不包含中心字符的图像。通过将识别器扫过输入获得识别器输出序列,然后将其输入到考虑语言约束的GTN中,最后提取出最可能的解释。
Interpreting the Output of an SDNN with a GTN(用GTN解释SDNN的输出):SDNN的输出是一个向量序列,它编码了在输入中的相应位置找到特定类标签的字符的可能性、惩罚值或分数。需要一个后处理器从这个向量序列中提取出最好的标签序列。其中由SDNN产生的向量序列首先被编码成一个线性图,在连续的节点对之间有多个弧。在一个特定的节点对之间的每条弧都包含一个可能的类别的标签,以及SDNN在该位置对该类别标签产生的惩罚。然后变压器对类标签的输入字符串和相应的可识别字符的输出字符串之间的关系进行编码。当换能器观察到的输入符号与附加到弧线上的符号对中的第一个符号匹配时,换能器处于一种状态,并沿着弧线进入一个新的状态。此时,换能器发出对中的第二个符号以及将输入符号的惩罚和弧的惩罚结合起来的惩罚。该操作取与识别图中的每个可能路径对应的每个可能序列,并将它们与语法转换器中的路径进行匹配。该组合生成解释图,其中包含每个对应输出标签序列的路径。
识别过程:
2022.11.05 第六次周报_第2张图片2022.11.05 第六次周报_第3张图片

论文总结

论文的第二节和之前学习的卷积神经网络差比不大,只是对层数进行了调整;第五节对图像的多信息(字符串级别)进行了分析和处理,采用的是切割的方法,以及提出了GTN的结构设计思想。并且在第六节进行了实验,但由于目前还用不上,所以只学习了模型的设计,并没有进行试验;第七节殡去了切割的方法,采取了整体统一处理的方法,对图片进行整体扫描,然后分析相应位置找到特定类标签的字符的可能性,最后获得结果。同样只是学习了模型的本身,并没有进行实验,在论文的第八节有实验部分,以后用到的时候会深入学习。

来源:Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, “Gradient-based learning applied to document recognition,” in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324, Nov. 1998, doi: 10.1109/5.726791.

二、AlexNet模型

这个模型的名字来源于论⽂第一作者的姓名 Alex Krizhevsky。AlexNet 使⽤了 8 层卷积神经⽹络,并以很⼤的优势赢得了 ImageNet 2012 图像识别挑战赛冠军。

模型结构

2022.11.05 第六次周报_第4张图片

Alexnet模型由5个卷积层和3个池化Pooling 层 ,其中还有3个全连接层构成。AlexNet 跟 LeNet 结构类似,但使⽤了更多的卷积层和更⼤的参数空间来拟合⼤规模数据集 ImageNet。它是浅层神经⽹络和深度神经⽹络的分界线。

AlexNet网络结构具有如下特点:

1.AlexNet在激活函数上选取了非线性非饱和的relu函数,在训练阶段梯度衰减快慢方面,relu函数比传统神经网络所选取的非线性饱和函数(如sigmoid函数,tanh函数)要快许多。

2.AlexNet在双gpu上运行,每个gpu负责一半网络的运算

3.采用局部响应归一化(LRN)。对于非饱和函数relu来说,不需要对其输入进行标准化,但Alex等人发现,在relu层加入LRN,可形成某种形式的横向抑制,从而提高网络的泛华能力。

4.池化方式采用overlapping pooling。即池化窗口的大小大于步长,使得每次池化都有重叠的部分。(这种重叠的池化方式比传统无重叠的池化方式有着更好的效果,且可以避免过拟合现象的发生)

与LetNet-5模型差异

1.AlexNet在卷积核的层数有变化。
2.AlexNet在激活函数上选取了非线性非饱和的relu函数。
3.AlexNet在池化方式采用overlapping pooling。即池化窗口的大小大于步长。

总结

本周,神经网络的两大经典模型LetNet-5和AlexNet被学习了,其中包括单独字符数字的识别和字符串的识别,下周会对TersorFlow进行学习,和把剩下的3大模型继续学习。

你可能感兴趣的:(深度学习,人工智能,神经网络)