文字是人类最重要的创作之一,它使人们在时空上可以有效地、可靠的传播或获取信息。
场景中的文字的检测和识别对我们理解世界很有帮助,它应用在图像搜索、即时翻译、机器人导航、工业自动化等领域。
目前,场景文字检测和识别主要存在3个难点:
近些年来也获得了较大的发展,主要内容有:
场景文字检测和识别任务主要细分为文本检测、文本识别、检测和识别同时进行以及辅助方法四个子任务。
文本检测一般都是基于常规目标检测方法进行改进得来的。发展主要经过了3个阶段:首先是多步骤方式、接着是一般的目标检测方法,最后是基于文本组件的特殊表示的方法。
主要介绍后两种。
在此阶段,通过修改通用目标检测器的区域提议和边界框回归模块来直接定位文本实例来设计场景文本检测算法。
如图所示。它们主要由堆叠的卷积层组成,这些卷积层将输入图像编码为特征图。 特征图上的每个空间位置都对应于输入图像的一个区域。 然后将特征图输入到分类器中,以预测每个空间位置处文本实例的存在和定位。
具体来说:
此阶段的主要贡献是简化了检测pipeline并提高了效率。 但是,当面对弯曲,定向或长文本时,由于一阶段方法的感受野的限制,性能仍然受到限制。而对于两阶段方法,则效率受到限制。
文本检测与常规目标检测之间的主要区别在于:文本在整体上是同质的,并具有其局部性。同质性指的是文本实例的任何部分仍然是文本的属性。局部性指的是人们不必看到整个文本实例就知道它属于某些文本。这样的属性催生出仅预测子文本组件然后组合它们为一个文本实例的检测方法。这种方法可以应用于弯曲、长和定向文本中。
具体来说,根据级别不同主要分为三种:像素级、组件级以及字符级。
组件级方法通常以中等粒度进行预测。 组件是指文本实例的局部区域,有时与一个或多个字符重叠。
总体而言,基于子文本成分的检测在文本实例的形状和纵横比方面具有更好的灵活性和泛化能力。 主要缺点是,用于将片段分组为文本实例的模块或后处理步骤可能容易受到噪声的影响,并且此步骤的效率高度依赖于实际实现,因此在不同平台之间可能会有所不同。
场景文本识别的输入是仅包含一个单词的裁剪的文本实例图像。在深度学习时代,场景文本识别模型使用CNN将图像编码到特征空间中。 各方法的主要区别在于文本内容解码模块。
两种主要技术是连接主义者的时间分类(CTC)和编码器-解码器框架。 主流框架如图所示:
CTC和编码器-解码器框架最初都是为一维顺序输入数据设计的,因此适用于识别直线文本和水平文本,CNN可以将它们编码为一系列特征帧而不会丢失重要信息。 但是,定向和弯曲文本中的字符分布在二维空间上。 有效地在特征空间中表示定向文本和弯曲文本以适应CTC和编码器-解码器框架(其解码需要一维输入)仍然是一个挑战。 对于定向和弯曲的文本,将特征直接压缩为一维形式可能会丢失相关信息,并会引起背景噪声,从而导致识别精度下降。
如果将CTC应用到场景文本识别中,则将输入图像视为一系列垂直像素帧。 网络输出每帧预测,指示每帧标签的概率分布。然后应用CTC规则将每帧预测编辑为文本字符串。 在训练期间,将损失计算为可以通过CTC规则生成目标序列的所有可能的每帧预测的负对数概率的总和。因此,CTC方法使其仅使用单词级注释即可进行端到端训练,而无需使用字符级注释。
[27] 最初提出了一种用于序列到序列学习的编码器-解码器框架,用于机器翻译。 编码器RNN读取输入序列,并将其最终的潜在状态传递给解码器RNN,解码器RNN以自回归的方式生成输出。 编码器-解码器框架的主要优点是它提供可变长度的输出,可以满足场景文本识别的任务设置。 编码器-解码器框架通常与注意力机制结合,后者共同学习对齐输入序列和输出序列。
CTC和编码器-解码器框架都简化了识别流程,并使得仅使用单词级注释而不是字符级注释来训练场景文本识别器成为可能。 与CTC相比,Encoder-Decoder框架的解码器模块是隐式语言模型,因此它可以包含更多的语言先验。出于同样的原因,编码器-解码器框架需要具有较大词汇量的较大训练数据集。 否则,当识别训练中看不见的单词时,模型可能会退化。 相反,CTC较少依赖语言模型,并且具有更好的字符到像素对齐方式。 因此,对于字符集较大的中文和日语等语言,CTC可能会更好。 这两种方法的主要缺点是它们假定文本是笔直的,因此不能适应不规则的文本。
尽管已经提出了许多优雅而整洁的解决方案,但仅基于相对较小的数据集CUTE80(仅包含288个单词样本)对它们进行评估和比较。 此外,这些作品中使用的训练数据集仅包含极少比例的不规则文本样本。 对更大的数据集和更合适的训练数据集进行评估可能有助于我们更好地理解这些方法。
尽管到目前为止我们已经看到了识别方法的进步,但是识别方法的评估却比较落后。 由于大多数检测方法都可以检测到定向的和不规则的文本,甚至可以纠正它们,因此识别此类文本似乎显得多余。 另一方面,很少验证当使用略微不同的边界框裁剪时识别的鲁棒性。 在现实情况下,这种鲁棒性可能更为重要。
在过去,文本检测和识别通常被视为两个独立的子问题来完成从图像中读取文本。最近,许多端到端的文本检测和识别系统(也称为文本定位系统)已经被提出,是现在的趋势。
虽然早期的工作(Wang等人,2011年,2012年)首先检测输入图像中的单个字符,但最近的系统通常在单词级别或行级别检测和识别文本。其中一些系统首先使用文本检测模型生成文本建议,然后使用另一个文本识别模型对其进行识别。
在这些方法中,检测到的单词是从图像中裁剪出来的,因此,检测和识别是两个独立的步骤。这两种方法的一个主要缺点是检测和识别模型之间的误差传播会导致性能较差。
最近提出了端到端可训练网络来解决上一问题,其中裁剪并输入到识别模块的是特征图不是图片。
除了两阶段的方法,[58] 并行预测字符和文本边界框以及字符类型分割图。然后使用文本边界框对字符框进行分组,以形成最终的单词转录结果。这是第一个单阶段的方法。
大多数深度学习模型都需要数据。只有当有足够的数据可用时,才能保证它们的性能。在文本检测和识别领域,这个问题更为迫切,因为大多数人工标注的数据集都很小,通常只包含1K-2K个数据实例。幸运的是,已经有一些工作生成了相对高质量的数据,并被广泛用于训练模型,以获得更好的性能。
文本编辑: 最近提出的文本编辑任务也值得一提([64]、[65])。两部作品都试图替换文本内容,同时保留自然图像中的文本样式,例如字符、文本字体和颜色的空间排列。文本编辑本身在诸如使用手机摄像头的即时翻译等应用程序中非常有用。虽然我们还没有看到任何相关的实验结果,但是它在增强现有场景文本图像方面也有很大的潜力。
…(待补充)
上图是从一些数据集中选取一些有代表性的图像样本
然后选择了一些有代表性的数据集并讨论了它们的特点:
作为不同算法性能比较的指标,通常参考它们的精确度、召回率和F1分数。要计算这些性能指标,首先应该将预测的文本实例列表与GT标签相匹配。
文本检测主要有两种不同的协议,基于IOU的PASCAL Eval和基于重叠的DetEval。它们在预测文本实例和GT实例的匹配标准上存在差异。
在下面的部分中,使用这些符号: S G T S_{GT} SGT是GT边界框的面积, S P S_{P} SP是预测边界框的面积, S I S_{I} SI是预测和GT边界框的相交面积, S U S_{U} SU是他们联合的面积。
大多数方法遵循两种评估协议中的任何一种,但有一些小的修改:
现有评价方案的主要缺点是只考虑在任意选择的置信阈值下对测试集的最优F1分数。应该用一般目标检测中广泛采用的平均精度(AP)度量来评估他们的方法。F1分数只是精度-召回率曲线上的单点,而AP值考虑了整个精度-召回率曲线。因此,AP是一个更全面的指标,建议这一领域的研究人员使用AP而不是单独使用F1分数。
在场景文本识别中,预测的文本串直接与GT进行比较。性能评估是在字符级的识别率(即识别多少个字符)或单词级(预测的单词是否与GT完全相同)。ICDAR还引入了基于编辑距离的性能评估。在端到端评估中,首先以与文本检测相似的方式执行匹配,然后比较文本内容。
端到端系统使用最广泛的数据集是ICDAR 2013(Karatzas et al.,2013)和ICDAR 2015(Karatzas et al.,2015)。对这两个数据集的评估是在两种不同的设置下进行的,即Word Spotting setting 和 End-toEnd setting [http://rrc.cvc.uab.es/files/Robust_Reading_2015_v02.pdf]。在Word Spotting下,性能评估只关注场景图像中出现在预先设计的词汇表中的文本实例,而忽略其他文本实例。相反,出现在场景图像中的所有文本实例都包含在“端到端”下。三种不同的词汇表提供给候选文本。它们包括强语境化、弱语境化和泛化(Strongly Contextualised, Weakly Contextualised, and Generic)。
对几种广泛采用的基准数据集的最新方法的评价结果汇总如下表(用*表示多尺度性能的方法。由于一些工作中使用了不同的主干特征抽取器,所以除非没有提供,否则只报告基于ResNet-50的性能):
(1)Detection on ICDAR 2013
(2)Detection on ICDAR MLT 2017
(3) Detection on ICDAR 2015
(4)Detection and end-to-end on Total-Text
(5)Detection on CTW1500
(6)Detection on MSRA-TD 500
(7)识别
(8)Performance of End-to-End and Word Spotting on ICDAR 2015 and ICDAR 2013
请注意,当前场景文本识别的评估可能存在问题。大多数研究人员在引用同一个数据集时实际上使用了不同的子集,从而导致了性能的差异。此外,在广泛采用的基准数据集中,有一半的注释是不完善的,例如忽略区分大小写和标点符号,并为这些数据集提供新的注释。尽管大多数论文声称训练他们的模型以区分大小写的方式识别,并且还包括标点符号,但他们可能会在评估时将其输出限制为数字和不区分大小写的字符。
[1] Liao, B. Shi, X. Bai, X. Wang, and W. Liu.Textboxes: A fast text detector with a single deep neural network. In AAAI, pages 4161–4167, 2017
[2] Zhou, C. Yao, H. Wen, Y. Wang, S. Zhou, W. He,and J. Liang. EAST: An efficient and accurate scene text detector. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[3] Ma, W. Shao, H. Ye, L. Wang, H. Wang, Y. Zheng,and X. Xue. Arbitrary-oriented scene text detection via rotation proposals. In IEEE Transactions on Multimedia, 2018, 2017.
[4] Zhang, Y. Liu, L. Jin, and C. Luo. Feature enhancement network: A refined scene text detector. In Proceedings of AAAI, 2018, 2018.
[5] Zhan and S. Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, 2019.
[6] Wang, L. Zhao, X. Li, X. Wang, and D. Tao.Geometry-aware scene text detection with instance transformation network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1381–1389, 2018.
[7] Liu, L. Jin, S. Zhang, and S. Zhang. Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170, 2017.
[8] Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[9] Wang, Y. Jiang, Z. Luo, C.-L. Liu, H. Choi, and S. Kim. Arbitrary shape scene text detection with adaptive text region representation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6449–6458, 2019b.
[10]
[11] Deng, H. Liu, X. Li, and D. Cai. Pixellink: Detecting
scene text via instance segmentation. In Proceedings of AAAI, 2018, 2018.
[12] Wu and P. Natarajan. Self-organized text detection
with minimal post-processing via border learning. In Proceedings of the IEEE Conference on CVPR, pages
5000–5009, 2017
[13] Wang, F. Yin, and C.-L. Liu. Scene text detection with novel superpixel based character candidate extraction. In 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), volume 1, pages 929–934. IEEE, 2017.
[14] Tian, M. Shu, P. Lyu, R. Li, C. Zhou, X. Shen, and
J. Jia. Learning shape-aware embedding for scene text detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4234–4243, 2019
[15] . Wang, E. Xie, X. Li, W. Hou, T. Lu, G. Yu, and S. Shao. Shape robust text detection with progressive scale expansion network. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019a
[16] Tian, W. Huang, T. He, P. He, and Y. Qiao. Detecting text in natural image with connectionist text proposal network. In In Proceedings of European Conference on Computer Vision (ECCV), pages 56–72. Springer, 2016.
[17] Shi, X. Bai, and S. Belongie. Detecting oriented text in natural images by linking segments. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017a.
[18] Zhang, X. Zhu, J.-B. Hou, C. Liu, C. Yang,H. Wang, and X.-C. Yin. Deep relational reasoning graph network for arbitrary shape text detection. arXiv preprint arXiv:2003.07493, 2020.
[19] Lyu, C. Yao, W. Wu, S. Yan, and X. Bai. Multioriented scene text detection via corner localization and region segmentation. In 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018b.
[20] Long, J. Ruan, W. Zhang, X. He, W. Wu, and C. Yao. Textsnake: A flexible representation for detecting text of arbitrary shapes. In In Proceedings of European Conference on Computer Vision (ECCV),2018.
[21]
[22] Baek, B. Lee, D. Han, S. Yun, and H. Lee. Character region awareness for text detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9365–9374, 2019b.
[23] He, W. Huang, Y. Qiao, C. C. Loy, and X. Tang. Reading scene text in deep convolutional sequences. In Thirtieth AAAI conference on artificial intelligence, 2016.
[24] Shi, X. Bai, and C. Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE
transactions on pattern analysis and machine intelligence, 39(11):2298–2304, 2017b.
[25] Gao, Y. Chen, J. Wang, and H. Lu. Reading scene text with attention convolutional sequence modeling. arXiv preprint arXiv:1709.04303, 2017.
[26] Yin, Y.-C. Wu, X.-Y. Zhang, and C.-L. Liu. Scene text recognition with sliding convolutional character models. arXiv preprint arXiv:1709.01727, 2017.
[27] Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104– 3112, 2014.
[28] Liu, C. Chen, K.-Y. K. Wong, Z. Su, and J. Han. Star-net: A spatial attention residue network for scene text recognition. In BMVC, volume 2, page 7,2016b.
[29] Cheng, F. Bai, Y. Xu, G. Zheng, S. Pu, and S. Zhou. Focusing attention: Towards accurate text recognition in natural images. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 5086–5094. IEEE, 2017a.
[30] Bai, Z. Cheng, Y. Niu, S. Pu, and S. Zhou. Edit probability for scene text recognition. In CVPR 2018, 2018.
[31] Liu, Y. Li, F. Ren, H. Yu, and W. Goh. Squeezedtext:A real-time scene text recognition by binary convolutional encoder-decoder network. AAAI, 2018d.
[32] Shi, X. Wang, P. Lyu, C. Yao, and X. Bai. Robust scene text recognition with automatic rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4168–4176, 2016.
[33] Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Advances in neural information processing systems, pages 2017–2025, 2015.
[34] Long, Y. Guan, B. Wang, K. Bian, and C. Yao. Alchemy: Techniques for rectification based irregular scene text recognition. arXiv preprint arXiv:1908.11834, 2019.
[35] Zhan and S. Lu. Esir: End-to-end scene text recognition via iterative image rectification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019.
[36] Yang, Y. Guan, M. Liao, X. He, K. Bian, S. Bai,C. Yao, and X. Bai. Symmetry-constrained rectification network for scene text recognition. In Proceedings of the IEEE International Conference on Computer Vision, pages 9147–9156, 2019.
[37] Yang, D. He, Z. Zhou, D. Kifer, and C. L. Giles. Learning to read irregular text with attention mechanisms. In Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17, pages 3280–3286, 2017.
[38] Cheng, X. Liu, F. Bai, Y. Niu, S. Pu, and S. Zhou. Arbitrarily-oriented text recognition. CVPR2018, 2017b.
[39] .Liu, C. Chen, and K. Wong. Char-net: A characteraware neural network for distorted scene text recognition. In AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA, 2018b.
[40] Liao, J. Zhang, Z. Wan, F. Xie, J. Liang, P. Lyu, C. Yao, and X. Bai. Scene text recognition from twodimensional perspective. AAAI, 2019b.
[41] Xu, J. Ba, R. Kiros, K. Cho, A. Courville,R. Salakhudinov, R. Zemel, and Y. Bengio. Show, attend and tell: Neural image caption generation with visual attention. In International Conference on Machine Learning, pages 2048–2057, 2015.
[42] Li, P. Wang, C. Shen, and G. Zhang. Show, attend and read: A simple and strong baseline for irregular text recognition. AAAI, 2019.
[43] Long, Y. Guan, K. Bian, and C. Yao. A new perspective for flexible feature gathering in scene text recognition via character anchor pooling. In ICASSP
2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2458–2462. IEEE, 2020.
[44] Qin, A. Bissacco, M. Raptis, Y. Fujii, and Y. Xiao. Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE International Conference on Computer Vision, pages 4704–4714, 2019.
[45] Long, Y. Guan, B. Wang, K. Bian, and C. Yao. Alchemy: Techniques for rectification based irregular scene text recognition. arXiv preprint arXiv:1908.11834, 2019.
[46] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Deep structured output learning for unconstrained text recognition. ICLR2015, 2014a.
[47] Yu, X. Li, C. Zhang, J. Han, J. Liu, and E. Ding. Towards accurate scene text recognition with semantic reasoning networks. arXiv preprint arXiv:2003.12294, 2020.
[48] Xia, F. Tian, L. Wu, J. Lin, T. Qin, N. Yu, and T.-Y. Liu. Deliberation networks: Sequence generation beyond one-pass decoding. In Advances in Neural Information Processing Systems, pages 1784–1794, 2017.
[49] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Reading text in the wild with convolutional neural networks. International Journal of Computer
Vision, 116(1):1–20, 2016.
[50] Liao, B. Shi, X. Bai, X. Wang, and W. Liu. Textboxes: A fast text detector with a single deep neural network. In AAAI, pages 4161–4167, 2017.
[51] Bartz, H. Yang, and C. Meinel. See: Towards semisupervised end-to-end scene text recognition. arXiv preprint arXiv:1712.05404, 2017.
[52] Li, P. Wang, and C. Shen. Towards end-to-end text spotting with convolutional recurrent neural networks. In The IEEE International Conference on Computer Vision (ICCV), 2017a.
[53] Liu, D. Liang, S. Yan, D. Chen, Y. Qiao, and J. Yan. Fots: Fast oriented text spotting with a unified network. CVPR2018, 2018c.
[54] Busta, L. Neumann, and J. Matas. Deep textspotter: An end-to-end trainable scene text localization and recognition framework. In Proc. ICCV, 2017.
[55] He, Z. Tian, W. Huang, C. Shen, Y. Qiao, and C. Sun. An end-to-end textspotter with explicit alignment and attention. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pages 5020–5029, 2018.
[56] Lyu, M. Liao, C. Yao, W. Wu, and X. Bai. Mask textspotter: An end-to-end trainable neural network for spotting text with arbitrary shapes. In In Proceedings of European Conference on Computer Vision (ECCV), 2018a.
[57] Qin, A. Bissacco, M. Raptis, Y. Fujii, and Y. Xiao. Towards unconstrained end-to-end text spotting. In Proceedings of the IEEE International Conference on Computer Vision, pages 4704–4714, 2019.
[58] Xing, Z. Tian, W. Huang, and M. R. Scott. Convolutional character networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 9126–9136, 2019.
[59] Jaderberg, K. Simonyan, A. Vedaldi, and A. Zisserman. Synthetic data and artificial neural networks for natural scene text recognition. arXiv preprint
arXiv:1406.2227, 2014b.
[60] Gupta, A. Vedaldi, and A. Zisserman. Synthetic data for text localisation in natural images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2315–2324,2016.
[61] . Zhan, S. Lu, and C. Xue. Verisimilar image synthesis for accurate detection and recognition of texts in scenes. 2018.
[62] Liao, B. Song, M. He, S. Long, C. Yao, and X. Bai. Synthtext3d: Synthesizing scene text images from 3d virtual worlds. arXiv preprint arXiv:1907.06007,2019a.
[63] Long and C. Yao. Unrealtext: Synthesizing realistic scene text images from the unreal world. arXiv preprint arXiv:2003.10608, 2020.
[64] Wu, C. Zhang, J. Liu, J. Han, J. Liu, E. Ding, and X. Bai. Editing text in the wild. In Proceedings of the 27th ACM International Conference on Multimedia,
pages 1500–1508, 2019.
[65] Yang, H. Jin, J. Huang, and W. Lin. Swaptext: Image based texts transfer in scenes. arXiv preprint arXiv:2003.08152, 2020.
[66] Karatzas, L. Gomez-Bigorda, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V. R. Chandrasekhar, S. Lu, et al. Icdar 2015 competition on robust reading. In 2015 13th International Conference on Document Analysis and Recognition (ICDAR), pages 1156–1160. IEEE, 2015.
[67] N. Nayef et al., “ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition — RRC-MLT-2019,” 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, Australia, 2019.
[68] https://github.com/cs-chan/Total-Text-Dataset
[69] Yuan, Z. Zhu, K. Xu, C.-J. Li, and S.-M. Hu. Chinese text in the wild. arXiv preprint arXiv:1803.00085, 2018.
[70] Sun, J. Liu, W. Liu, J. Han, E. Ding, and J. Liu. Chinese street view text: Large-scale chinese text reading with partially supervised learning. In Proceedings of the IEEE International Conference on Computer Vision, pages 9086–9095, 2019.
[71] Mishra, K. Alahari, and C. Jawahar. Scene text recognition using higher order language priors. In BMVC-British Machine Vision Conference. BMVA,
2012.