《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读

论文链接:https://arxiv.org/abs/1709.02054

摘要
场景文本识别优于其广发的应用一直是 计算机识别中的研究热点之一。目前最先进的计算是基于注意力机制的编码-解码框架的,该技术以纯数据驱动的方式学习输入图像和输出序列的映射关系。但是,我们发现现有的attention机制的方法在复杂和低质量的图像表现较差。一个主要的原因是现有方法对于这样的图像不能得到特征区域和目标间的准确对齐。我们称这种现象为“注意力漂移”、为了解决这个问题,本文中我们提出FAN方法,该方法用聚焦注意力机制来自动拉回漂移的注意力。FAN包括两个主要部分:AN用于识别字符,和现有方法一样;FN用来评估AN的注意力是否与图像中目标区域对齐。另外,不同于现有方法之处,我们采用ResNet网络来丰富场景文本图像的深度表达。在不同的基准上大量实验,说明了FAN方法性能明显优于现有方法。

1、简介
场景文本识别在计算机视觉领域吸引了很多研究。识别场景文本对于理解场景是至关重要的。尽管OCR相关的研究已经有数十年,但识别自然场景中的文本仍是一项具有挑战性的任务。目前最先进技术采用注意力机制来识别字符,并且实际性能获得提高[18][25]。
一般情况下,基于attention的文本识别是基于编码-解码框架设计的。在编码阶段,一张图通过CNN/LSTM[25]转换为特征向量序列,每个特征向量代表输入图像的一个区域。在本文中,我们称正阳的区域为attention regions。在解码阶段,注意力网络(AN)首先通过参考目标字符的历史和用于生成合成向量(也可以成为glimpse 向量)的编码特征向量计算对齐因子[3],因此获得attention区域和对应的ground-truth-labels之间的校正,也就是使用这种方式使二者对齐。然后,用RNN根据glimpse向量和目标字符的历史来生成目标字符。
动机。我们都知道实际场景文本识别任务,许多图像是复杂的(如扭曲或重叠字符,不同字符、不同尺寸、不同颜色的字符,以及复杂的背景)或低质量的(由于光照变化、模糊、污损和噪音等)。图1显示了一些复杂/低质量图像的例子。仔细分析大量真实数据基于attention模型的中间和最终结果后,我们发现,性能不好的一个主要原因是由于attention模型估计的对齐很容易因为复杂或低质量图而受到损坏。换言之,attention模型不能准确地将每一个特征向量和输入图像相应的目标区域关联起来。我们称这种现象为 注意力漂移。也就是An的注意区域在某种程度上偏离了图像中目标字符的合适区域。这促使我们开发开发一种机制,调整 AN 的注意力,使之集中在输入图像中目标字符的正确位置。
图2说明了在AAN模型中注意力漂移现象。输入左边的图像后,我们期望An模型输出字符串“83KM”,但是实际上它返回“831K”。注意,这不是一个虚构案例,而是从我们实验中选择的真实例子。实际中,有很多这样的案例。明显的,最后两个字符“K”和“M”识别不正确。这是如何发生的?通过计算在图像中这4个字符的attention区域,我们可以获得他们的注意力中心,即右下角原始图像中的黄色‘+’。我们可以看到‘8’和‘3’的注意力中心正好在他们上边,而第三个注意力中心在‘K’的左边半部分,第四个注意力中心是靠近‘K’的右边半部分。因为‘K’的左半边看起来像‘1’,AN模型输出一个‘1’。第四个注意力区域覆盖了‘K’的大部分,AN模型返回‘K’。
我们的工作。为了解决上边的问题,在本文中,我们提出一个新的方法称为FAN来准确识别自然图像中的文本。图2(b)显示了FAN方法的结构。FAN由两个主要的子网络构成:一个AN来识别目标字符和现有方法一样;一个聚焦网络FN,首先评估AN的注意利于去是否和图像中目标字符正确的区域对齐,然后自动调整AN的注意力中心。在图2(b)中,使用FN模型,最后两个字符的注意力区域得到调整,因此FAN输出正确的文本字符串“83KM”。
论文的贡献如下:
1)我们提出了注意力漂移的概念,这解释了现有attention在复杂和低质量的自然图像上表现的较差性能。
2)我们发明了一种新的方法称为FAN来解决注意力漂移问题,这在现有的大多数方法中都有AN结果之外,还引入了完全新的结构FN,该网络使AN偏离的注意力重新聚焦在目标区域上。
3)我们采用了强大的基于ResNet [5]的CNN来丰富场景文本图像的深度表达。
4)我们在多个基准上进行了大量实验,说明了我们的方法的性能优于现有方法。

2、相关工作
在近些年,有大量关于场景文本识别的工作。对于文本识别的基本信息,读者可以参考Ye和 Doermann最近的研究。传统方法的两种类型:bottom-up和top-down。早期的研究主要是针对bottom-up方法:首先通过滑动窗口、连通分量或霍夫投票来一个一个检测字符,然后整合这些字符到输出文本中。另外一个方法是top-down形式:不检测字符而是从原始图像直接预测完整的文本。Jaderberg et al.针对不受约束的识别设计了一个有输出层的卷积神经网络【12】。他们也用CNN来分析9w类的分类任务【13】,每一类代表一个英文单词。最近的工作解决了序列识别问题,图像和文本分别作为patch序列和字符序列来单独编码。Sutskever et al.【28】提取HOG特征序列来表示图像,用RNN网络生成字符序列。Shi et al.【24】提出一种端到端的神经网络包括CNN和RNN。他们也发明了基于attention的STN来校正文本扭曲,该方法有助于识别弯曲场景字符【25】。
不同于现有方法,在本文中,我们首先用基于ResNet的CNN提取图像的深度特征表达。据我们所知,这可能是场景文本识别中首次用ResNet CNN的。然后我们将特征序列提供给AN来产生对齐因子和glimpse向量。同时,我们利用FN来评估glimpse向量是否合理,提供一个反馈给AN来产生更合理的glimpse向量,因此AN可以聚焦到在处理图像中的目标字符的正确区域。
尽管注意力漂移在语音识别中已经被发现【17】,该文作者提供了MTL框架包括CTC和AN来处理这样的问题。我们的文章是首个正式提出注意力漂移概念的。另外,我们设计了一个聚焦机制来解决该问题。值得注意的是,我们也尝试用CTC和AN来解决场景文本识别中的注意力漂移问题,不幸的是我们的实验结果表明这种想法不能很好的结果,所以我们丢弃了它。

3、FAN方法
如图2(b)所示,FAN有两个主要的模块:AN和FN。在AN部分,产生目标标签和特征间的对齐因子。每一个对齐因子对应一个输入图像的注意力区域。不好的对齐(偏移或不聚焦注意力区域)导致不好的识别结果。FN部分,首先对每个目标标签定位注意力区域,然后用相应的glimpse向量详细预测这个注意力区域。这种方式,FN根据AN提供的glimpse向量在输入图像的注意力区域产生了密集的输出,AN反过来根据FN的反馈更新glimpse向量。
3.1 AN
基于attention的解码器是一个RNN,直接生成从输入图像生成目标序列。实际中,图像通常是通过CNN/LSTM编码的特征向量序列。Bahdanau et al.【3】首次提出基于attention的解码结构。在第t步,解码器产生输出yt

St是RNN在t时刻隐藏层的状态,计算如下

Gt是序列特征向量(h1,…hT)的加权和

是attention权值的向量,也叫做对齐因子。 通常是分别投票 中每个元素来估计出来,然后标准化分数如下

上边, 为训练参数。

这里,公式1中的 函数和公式2中的RNN函数分别表示一个前馈网络和LSTM循环网络。此外,解码需要产生可变长度的序列。下边【28】,一个特殊的记号EOS(end-of-sentence)增加到目标集中,以便解码器在EOS出现时字符的生成。Attention模型的损失函数如下

在场景文本识别中,AN模型有两个主要的缺点:1)这个模型很同意被复杂低质量的场景数据影响,产生不准确的对齐因子,由于模型在glimpse向量的整合上没有对齐约束,这可能导致注意力区域和标签区域的错误匹配。这就是上边所谓的注意力偏移问题。2)它是很难训练一个这样的模型在巨大的场景文本数据,例如8亿综合数据Gupta et al.公布的【9】。本文中,我们主要目的是解决注意力漂移问题。我们尝试通过引入聚焦网络将AN的注意力仅约束在每个目标字符上,这在下文中详细介绍。

3.2 FN
在attention模型中,每个特征向量是输入图像一个区域的映射,可以基于卷积策略用来定位目标字符。但是,计算目标的注意力区域通常是不精准的,由于对于复杂或低质量的图像。为了处理注意力漂移问题,我们引入了聚焦网络,用一个聚焦机制来调整漂移的注意力。聚焦机制如图3所示,工作主要有两步:1)计算每个预测标签的注意力中心;2)通过产生在注意力区域可能的分布来聚焦注意力到目标区域
计算注意力中心:在卷积/pooling操作中,我们定义了输入为 ,输出为 ,这里N,D,H和W分别表示特征图的batch size,通道数,高和宽。利用卷积策略:kernel,stride和pad,我们有
因此,对于在L曾的位置(x,y),我们计算它的在L-1曾中可接受的区域

在第t步,我们通过递归执行公式(7)的计算来得到hj在输入图像中的感受域,选择感受域的中心点作为attention的中心点

这里j表示hj的索引,location表示评估一个感受域中心的函数。因此,yt在输入图像的的注意力中心是如下评估:

聚焦注意力在目标区域:计算目标yt的注意力中心时,我们将特征图裁剪为一个patch

用裁剪的特征图,我们计算注意力区域的能量分布如下:

3.3 FAN训练
我们将基于ResNet的特征提取器,AN和FN组合为一个网络,如图4.细节在4.2给出。AN用提取的特征来产生对齐因子和glimpse向量,同时FN聚焦AN的注意力到输入图像中合适的目标字符区域。
目标函数考虑目标和attention聚焦构造如下

3.4 解码
基于attention的加码器利用从隐式学习的层面概率统计来产生字符序列的输出。在无约束的文本识别过程中,我们直接选择最大概率的字符。同时在有约束文本识别中,根据不同尺寸的词典,我们计算对所有词典的单词计算条件概率,然后将最高概率的一个作为输出。

4、性能评估
我们在多个在文献中常用的通用识别基准上进行了大量实验来验证提出的FAN方法。为了全面的性能对比,比较了FAN和18个现有方法,用ResNet编码器实现的AN模型作为基准方法。

你可能感兴趣的:(《Focusing Attention:Towards Accurate Text Recognition in Natural Images》阅读)