ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

ASTER:具有灵活校正功能的注意场景文本识别器

摘要:

场景文本识别的一个具有挑战性的方面是处理带有扭曲或不规则布局的文本。特别地,透视文本和弯曲文本在自然场景中是常见的并且难以识别。在这项工作中,我们介绍了ASTER,一种端到端的神经网络模型,包括校正网络识别网络。校正网络自适应地将输入图像转换为新图像,对其中的文本进行纠正。它由灵活的薄板样条转换(Thin-Plate Spline transformation)提供动力,可处理各种文本不规则,并且无需人工注释即可进行训练。识别网络是注意力序列到序列模型( attentional sequence-to-sequence model ),其直接从校正图像预测字符序列。整个模型是端到端训练的,只需要图像和它们的真实文本。通过大量实验,我们验证了校正的有效性,并展示了ASTER最先进的识别性能。此外,我们证明ASTER是端到端识别系统中的一个强大组件,因为它能够增强探测器。

1. Introduction

由于其在广泛应用中的重要性,近年来场景文本识别引起了学术界和业界的极大兴趣。 尽管专用于文档文本的光学字符识别(OCR)系统已经成熟,但场景文本识别仍然是一个具有挑战性的问题。 背景,外观和布局的巨大变化带来了重大挑战,传统的OCR方法无法有效处理。

场景文本识别的最新进展是由基于深度学习的成功的识别模型驱动的。其中有使用卷积神经网络(CNN)通过字符识别文本的方法,这些方法用CNN分类单词[24],[26],和使用CNN及递归神经网络(RNN)的组合识别字符序列的方法[54]。尽管它们取得了成功,但这些方法并没有明确地解决不规则文本的问题,即不是水平和正面的文本,具有弯曲的布局等。不规则文本的实例经常出现在自然场景中。如图1所示,典型案例包括定向文本,透视文本[49]和弯曲文本。设计没有这种不规则的不变性,以前的方法通常很难识别这样的文本实例。
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification_第1张图片
这项工作介绍了ASTER,它代表具有灵活校正功能的注意场景文本识别器,用于场景文本识别。 ASTER通过明确的整改机制解决了不规则的文本问题。 如图2所示,该模型包括两部分:校正网络和识别网络。 给定输入图像,整流网络转换图像以纠正其中的文本。 转换是参数化的薄板样条[8](TPS),这是一种非常灵活的转换,可以处理各种文本不规则。
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification_第2张图片
在推理期间,整流网络首先从图像预测TPS参数,然后将它们应用于变换。通过[28]提出的基于空间变换器网络(STN)框架,整流网络可以纯粹由识别网络反向传播的梯度进行训练,因此不需要人类注释。

识别网络以注意力序列到序列的方式从整流图像预测字符序列。基于[3],[13]中提出的注意机制,识别网络有效地将字符检测,字符识别和语言建模封装到单个模型中,实现准确识别。此外,我们将传统的单向解码器扩展为双向解码器。双向解码器由具有相反解码方向的两个解码器组成。它合并了两个解码器的输出,从而在两个方向上产生依赖关系。

通过对许多标准数据集的大量实验,我们证明了ASTER在常规和不规则文本上的卓越性能。此外,当与文本检测器一起使用时,ASTER显示了通过过滤和细化其检测到盒来增强文本检测器的能力。特别是,ASTER使水平文本检测器能够检测定向文本。这些优势使ASTER成为端到端文本识别系统的强大组件。

总之,本文的贡献是三折。首先,我们用明确的整改机制解决了不规则文本识别的问题,这种机制在没有额外注释的情况下显着提高了识别性能。其次,我们将注意序列到序列模型引入到场景文本识别问题中,并用双向解码器进行扩展。第三,我们提出了一种利用ASTER在文本校正和识别方面的能力来增强文本检测器的方法

本文超越了其会议版本[55],有三个主要扩展。 1)通过修改整流网络架构,实现整改性能的突破。首先,不同分辨率的图像用于控制点预测和采样,避免了原始STN框架中降级分辨率的问题。其次,我们放弃了定位网络中的非线性激活,保留了反向传播的梯度,从而加速了训练过程中的收敛。因此,我们观察到精度,整流图像质量和初始化灵敏度方面的显着改进; 2)我们将原始识别解码器扩展为双向识别解码器,以便在两个方向上利用相关性; 3)我们探索ASTER在端到端文本识别中的应用并展示其优势。通过这些扩展,ASTER大幅提升[55]并显示出更广泛的适用性和优势。

2. RELATED WORK

2.1 文本识别

你可能感兴趣的:(图像)