关于场景文本识别方向的论文阅读

前言

保研之后也开始了新的学习,关于场景文本识别这块还是入门新手级别,所以想借此来书写这一段时间以来所阅读的相关论文并记录一下自己在阅读过程的理解,如果有不足和错误的地方还请大家多多指正。下面就是自己将要介绍的几篇论文,之后我都将使用其简称来代替论文:

  • An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition(CRNN,引用量:1993)
  • Robust Scene Text Recognition with Automatic Rectification(RARE,引用量:549)
  • Focusing Attention: Towards Accurate Text Recognition in Natural Images(FAN,引用量:387)
  • ASTER: An Attentional Scene Text Recognizer with Flexible Rectification(ASTER,引用量:487)
  • Aggregation Cross-Entropy for Sequence Recognition(ACE,引用量:73)

详解阅读和论文的创新点

CRNN

根据作者的工作内容我们可以提取其创新点为一下几个方面:

  1. 这个基于CNN和RNN的模型将特征提取,序列建模以及转录都融入到了一个端到端的模型中,并且基于CNN强大的特征提取能力让其可以帮助我们自动提取有用的信息,而不用手动的设计特征(减少了科研工作者对于先验的基础知识的掌握)。
  2. 特殊的CNN架构可以将图片提取到的特征转化为输出为 ,这样的话我们可以认为提取得到的特征就是一个特征序列并且把 讲过这样的转化我们便可以将图片特征转化为在RNN里面熟悉的序列输入。在这里面提一点就是CNN的这种提取到的每一列特征其实也就是对图片里面的一个原始区域的特征提取,(这种方法对于水平文本紧凑的文本效果过更好,后面的RARE就是为了解决文本不常规的分布提出的)如下图所示:
    关于场景文本识别方向的论文阅读_第1张图片

RARE

对于RARE来说,这篇文章的作者和上面的CRNN其实是一个作者,也从中看出大佬在不断的完善其工作。上面我们也提及了CNN提取的特征是一个区域一个区域的提取,那么对于那些弯曲或者由于仿射变换导致文本是不常规的分布以及存在大量的背景像素使用CNN提取到的每一个特征其实有些序列存在大量冗余的信息或者有些特征会受到影响,比如下面的输入图片和经过本文矫正之后的图片(里面有用的信息大大提升同时背景信息也大大减少):
关于场景文本识别方向的论文阅读_第2张图片

里面红色的内容就是大量冗余的背景信息,经过校正之后字符序列是比较水平的分布并且背景信息大大减少。

  1. 作者基于这个自然场景中存在大量的非常规分布的文本,提出了一个 Spatial Transformer Network用了将原始图片转化到水平分布的图片。在该论文中我们可以首先固定目标域中的关键点就分布在图片的上下两边如上图右边的红色点将其作为关键点。并且使用一个转换矩阵(这个大家可以自行阅读该论文里面引用的论文)。而对于原始图片中的关键点需要使用CNN来进行一个回归。这样之后我们便可以得到一个转换矩阵可以变换目标和源图像之间的坐标。之后我们重建目标图片通过将目标图片里面的像素点转换到原始图像中在经过插值得到目标图像的各个像点的值。进而达到校正的目的。
  2. 网络的详细配置这边算是一个重要点来帮助网络提升性能或者到达收敛:合适的初始化网络参数,以及STN网络输出层的激活函数。
  3. 剩下的就是使用类似于上面CRNN的那一套先提取特征,再序列建模,最后利用注意力机制序列的输出。

FAN

随着注意力机制的使用虽然提升了网络的性能,但是作者将注意力的机制进行可视化之后发现在输出时注意力在原始图片上的中心点有的时候会与字符的位置产生偏移,作者基于此提出一个新的名词:注意力漂移
关于场景文本识别方向的论文阅读_第3张图片

  1. 将注意力机制进行建模并建立一个损失函数来衡量注意力是否真正的关注到相对应的字符位置,下面我将使用一个图示帮助大家理解:写的并不是很清楚要清晰的了解大家可以自行阅读原文。
    关于场景文本识别方向的论文阅读_第4张图片

ASTER

  1. ASTER论文其实就是RARE论文的一个改进版本,作者在原来的基础上修改STN网络的激活函数,并在预测中使用了一个双向解码模型来进行预测,通过一个门来确定那个方向的序列得以输出。
  2. 作者还将这个SRN网络应用在一个文本检测网络中构造一个场景文本检测和识别系统,最后经过实验验证该网络可以提升检测器的性能。

ACE

相比前面的文章都是对某一个问题出发提出一个新的模块或者具有代表性的模型,而本文中作者基于原来的对于每个位置上的字符预测概率损失转化为对于某个字符的个数预测正确的概率损失:

关于场景文本识别方向的论文阅读_第5张图片

  1. ACEloss作者认为 个字符的与我们的预测 之间的关系是未知的,就比如说: 时间步t时的真实字符和预测字符是否具有一个对齐关系。所以作者认为如果我们的模型可以将序列里面的每个字符出现的个数都能预测正确的话这个模型就比较好。
  2. 对于ACELoss函数的设计----最小二乘或者使用cross-entropy作者也列出了一些梯度推导的表达式,来反应这两个方法那个更好,有利于模型的收敛。(这里的推导并不是很难大家可以详细阅读一下个人认为这个创新点挺好的)

阅读之后的疑问(希望有会的大佬帮助解答)

  1. 关于这段话希望大家帮忙回答一下:IIIT5k contains 3,000 cropped word test images collected from the Internet.Each image has been associated to a 50-words lexicon and a 1k-words lexicon.
  2. 关于ACEloss虽然可以正确的预测每个字符出现的个数,但是对于我们的序列识别问题,如何保证模型可以识别每个区域是哪个字符?

参考资料

  1. Shi B, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 39(11): 2298-2304.
  2. Shi B, Wang X, Lyu P, et al. Robust scene text recognition with automatic rectification[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4168-4176.
  3. Cheng Z, Bai F, Xu Y, et al. Focusing attention: Towards accurate text recognition in natural images[C]//Proceedings of the IEEE international conference on computer vision. 2017: 5076-5084.
  4. Shi B, Yang M, Wang X, et al. Aster: An attentional scene text recognizer with flexible rectification[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(9): 2035-2048.
  5. Xie Z, Huang Y, Zhu Y, et al. Aggregation cross-entropy for sequence recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 6538-6547.

你可能感兴趣的:(论文阅读)