[CVPR2020]论文翻译:On Vocabulary Reliance in Scene Text Recognition

幻灯片1.PNG
幻灯片2.PNG
幻灯片3.PNG
幻灯片4.PNG
幻灯片5.PNG
幻灯片6.PNG
幻灯片7.PNG
幻灯片8.PNG
幻灯片9.PNG

Abstract

在公共基准上追求高性能一直是场景文本识别研究的驱动力,并且已经取得了显著进展。但是,深入的调查揭示了一个令人吃惊的事实,即最先进的方法在带有词汇表内文字的图像上效果很好,但对于词汇表以外单词的图像的泛化性很差。我们称这种现象为“词汇依赖”。本文建立了一个分析框架,对场景文本识别中的词汇依赖问题进行了深入的研究。主要发现包括:
(1)词汇依赖无处不在,即所有现有算法或多或少都表现出这种特性;
(2)基于注意力的解码器被证明在泛化词汇表外的单词很弱和基于分割的解码器在利用视觉特征方面表现良好;
(3)上下文建模与预测层高度耦合。
这些发现提供了新的见解,并可以使场景文本识别未来的研究受益。此外,我们提出了一种简单而有效的相互学习策略,两种家族(基于注意力和基于分割)的模型进行协作学习。这种补救措施减轻了词汇依赖问题,提高整体水平场景文字识别性能。

1. Introduction

作为许多视觉识别和理解系统[42、25、17、35、22、21]中的关键任务,场景文本
识别已成为几十年来计算机领域的活跃研究领域[24、45、43、44、32、39、36]。最近,追求高性能的基准已经引起了社会的广泛关注。通过驱动深度学习[50,31,2,33,12]和大量的合成数据[13,29,46], 标准基准的识别精度迅速提高。例如,不带词典的IIIT-5k的准确性[27]从在很短的时间内,从78.2%[31]到96.0%[12]。



图1:基于RNNattention的方法中的循环存储机制[33]实际上是一把双刃剑。 积极的方面是,对于词汇表中带有单词的文本图像(左),即使图像质量下降(模糊或部分遮挡),仍可以正确识别内容。 以前被忽略的负面方面在于,对于单词在词汇表之外的文本图像(右),很容易发生错误(用红色标记)。

但是,一个重要的问题被忽略了很长时间:即使在各种基准都可以达到很高的精度,最先进的算法实际上在带有在词汇表中的文字的图像上显示出明显更高的性能相比那些不在词汇表中的单词图像。其中的差距并不是由图像质量引起的。如图1所示效果最佳的文本识别器[33]可以正确读取质量较差的图像的内容但是也可能错误读取质量更好的图像内容。秘诀在于词汇:最先进的方法似乎倾向于记住在训练阶段看到的单词。我们称这种现象为“词汇依赖”。


为了进一步验证词汇依赖在场景文本识别中是否普遍,我们复现了许多场景文本识别的代表性方法,包括CRNN [31],FAN[2],CA-FCN [23]和ASTER [33], 使用相同的骨干网(ResNet-50 [8])和训练数据(SynthText [7])用于这些方法,以便排除干扰因素。从Tab1 可以看出。对于所有评估方法而言,词汇表内外的单词在测试图像之间的性能差距都很大。它表明词汇依赖无处不在。

在本文中,我们系统地研究了场景文本识别中的词汇依赖问题。建立评估框架,在其中训练数据集具有受控词汇表和目标指标的设计旨在评估和比较不同的模块组合。

通过使用具有受控词汇表的训练数据,我们能够检查词汇表对算法性能的影响以及事前学习语言中不同算法的能力。同时,有针对性的指标可以定量,精确地评估不同模块组合的优缺点。通过实验,我们获得了一系列有价值的观察结果和发现,并因此为未来场景文本识别算法的发展提供了一些模块组合选择的指导原则和建议。

此外,为了减轻现有的词汇依赖方法,我们提出了一种新颖的相互学习策略,该策略允许模型具有不同PRED层(即基于注意力的解码器和基于分割的解码器)在训练过程中相互补充。 实验结果证明了其在提高注意力解码器和基于分割的方法的准确性和泛化能力方面的有效性。

这项工作的贡献如下:

  • 我们提出了词汇依赖问题,并提出了一个研究它的分析框架。
  • 我们通过实验发现了当前PRED层的优点和局限性。 基于注意力的解码器从学习到的词汇表中泛化性能很差,但是在训练带有随机语料的数据时表现良好。 基于分割的方法可以准确地提取视觉特征,而CTC相关方法通常具有较弱的视觉观察能力。
  • 我们发现,执行上下文建模的CNTX模块的效果与PRED层高度相关。 因此,我们提供了根据PRED层选择CNTX模块的指南。
  • 此外,我们提出了一种简单而有效的相互学习方法,以允许不同系列的模型进行协同优化,从而减轻了词汇依赖的问题。

2. Proposed Analytical Framework

在本节中,我们详细描述我们的分析框架,包括数据,模块和指标。

2.1. Test Data

为了进行实验,我们采用了各种评估基准,其中一些是以前常用的工作。我们首先简要介绍带有实词图像的公开测试数据集,其详细信息请参见[1]。

ICDAR2013(IC13)[15]是由相机捕捉场景文本的ICDAR 2013鲁棒阅读竞赛的数据集。ICDAR2015(IC15)[14]是来自Google眼镜收集的场景文字图像,其中裁剪后的文字图像模糊,定向且分辨率低。StreetViewText(SVT)[37]是Google Street View收集的户外街道图像,包括噪声的图像,模糊或低分辨率图像。SVT Perspective(SVTP)[28]聚焦在弯曲文本图像上。该数据集包含645个评估图像,这些图像被非前视严重扭曲。CUTE80(CT)[30]由80个自然场景图像组成,从中生成288个裁剪的单词图像用于场景文本识别。

如图1所示,识别视觉特征困难的文本图像,例如模糊,污点和不规则字体,更多地依赖根据词汇的推测。因此,我们将上述5个数据集分为一个集合Ω。 Ω的ground-truth被收集作为我们用于综合训练数据的语料库。因此,Ω及其补集Ωc分别代表词汇表中和词汇表外的一组文字图像。

语料收集中不包括另一个评估数据集,即IIIT-5k(IIIT)[27],该评估数据集通常包含规则文本并且外观清晰。我们选择IIIT作为辅助集合来执行Ωc,因为它具有相对大量的图像和视觉间隙。通过收集的词汇表,词汇表中的1354个图像被分为Ω,剩下的1646个图像成为Ωc。它们分别被命名为IIIT-I和IIIT-O。



数据集的大小和词汇量如表2所示。此外,Ω的词汇表中共有3172个不同的词。

2.2. Training Data

场景文本识别的最新工作是使用合成数据[7,13]进行训练。SynthText(ST)是由[7]中提出的合成引擎生成的数据集,其背景图像是从Google图像搜索中提取的。它包含8万张图像,研究人员从中裁剪了约700万个文本实例进行训练。

如表2所示,ST是从Newgroup20 [16]数据集中的一个大型语料库生成的,该数据集中的词汇数以万计。 ST的大量词汇混淆了此类训练数据对词汇依赖的影响和原因。因此,我们通过限制词汇量来生成新的训练数据供研究。

特别是,如第2.1节所述,我们的语料库是从测试数据集中收集的。使用ST的合成引擎,可以导出三个具有相似外观和不同语料库的数据集,以进行全面而受控的比较。示例如图2所示。

LexiconSynth(LS)从收集的ground-truth单词中,我们通过从实例中均匀采样来构建LS语料库。由于LS涵盖了Ω的词汇表,因此在Ω上进行评估时,使用LS数据训练的模型可以促进词汇学习的获得。然而,这种提纯的语料库还加剧了词汇中单词的过拟合。从性能差距的角度来看,可以了解模型的词汇学习特性.

RandomSynth(RS)与LS的语料库相反RS数据是由随机排列的字符生成的。伪字的长度与LS的分布相同,但字符类的分布是均匀的。也就是说,无需词汇先验即可获得在RS上训练的模型的准确性。

MixedSynth(MS)防止算法依赖词汇的直观解决方案是将RS数据混合到LS数据中。在我们的实验中,MS数据是LS和RS的并集。样本从RS和LS中的采样比率是(1-r): r∈[0,1]。训练步骤在所有实验中都是固定的。与具有大词汇量的数据集相比,RS和LS的混合在实际情况下更可行,因为在这种情况下,很少事先完全给出词汇量。

Synthesis Details 由于评估数据集的注释以不同的方式处理单词的大小写和标点符号,因此我们将语料库收集为不区分大小写的不带标点的单词。 在LS数据的呈现过程中,每个收集到的单词都会生成三个实例,它们具有不同的变体:大写,小写和首字母大写的大小写。 此外,以随机选择的标点插入单词的可能性为10%。

对于RS数据的语料库,字母,数字和标点符号的比例约为6:3:1。每个单词在与LS数据相同的三种情况下呈现。按照ST的规模,分别为RS和LS数据生成了约700万张裁剪的图像。在没有特殊说明的情况下,经验数据的比率MS设置为0.5。

2.3. Module Combinations

根据[1],典型的场景文本识别方法可以分为四个阶段,即变换(TRAN),特征提取(FEAT),上下文建模(CNTX)和预测(PRED)。CNTX阶段类似于[1]中的序列建模(Seq)。我们扩展到建模上下文,因为我们也考虑了基于分割的方法,以便从更广泛的角度讨论词汇依赖问题。场景文本识别的流程如图3所示。


在我们的实验和分析中,我们将重点放在CNTX和PRED阶段,因为这两个阶段与词汇依赖密切相关。 TRAN和FEAT阶段固定为控制变量:不采用转换层,并且在所有组合中都使用ResNet50主干。下面,我们将介绍三个PRED层以及用于CNTX阶段的三种选择。
预测层
CTC [6]和基于注意力的解码器[3,40]是预测层选择中的两种主要方法。如图3(b)所示,CTC将逐帧预测与目标字符串对齐。在最终输出中删除了具有相同字符但不带“BLANK”的帧,该帧表示不包含任何字符。由于CTC具有优越的推理速度[1],它被广泛用于许多实际应用[20]和学术研究[4,9]。

基于注意力的解码器[2,33]是场景文本识别领域中最先进的方法。从特征序列中概括出一个瞥见向量,然后采用RNN在特征序列上产生注意向量,并依次产生特征分类(见图3c)。

最近,MaskTextSpotter [26]引入实例分割以分别对每个字符进行定位和分类,并且激励了后续的工作[5,23,41]。尽管基于分割的方法(简称为Seg。)通过在分割图中找到相连的成分来直接提取字符,但是深层卷积网络的大感受野可能带来词汇依赖。

Context Modules
双向LSTM(BLSTM)[11]用于在最近的工作中由CNN提取的特征图上进行上下文建模[33,19]。

如图3e所示,BLSTM模块将特征序列作为输入,并通过带有移动步长的池化或卷积从特征图进行转换,这是许多场景文本识别方法[34,40]中上下文建模的通用做法,因为BLSTM以双向顺序扫描和映射特征。

图3(f)所示的金字塔池化模块(PPM)[49]是上下文建模的另一种选择 ,这在基于分割的方法中被证明是有效的[18]。它利用自适应平均池化将特征图池化为不同的正方形分辨率(在我们的实验中为1,3、4、6),然后通过双线性插值将池化的特征调整为输入分辨率的大小并与原始特征相连接以获得不同尺度全局上下文信息。由于基于分割的方法与BLSTM不兼容,因此PPM是用于上下文建模的实用模块。我们的实验也验证了其在增强模型词汇学习中的有效性。

此外,显式上下文建模对于鲁棒的文本识别不是必需的,深度卷积网络通常具有较大的感受野[38,47]。但是,在我们的实验中,上下文建模模块确实带来了词汇学习和依赖性方面的多样性。


原始结果如表3所示,其中模块组合用带圆圈的数字命名。

2.4. Metrics

使用我们重新设计的训练数据,我们可以在多个训练数据上评估算法的性能。 提出了几种度量标准来对模型的性能进行基准测试。

首先,我们介绍了一种用于性能评估的常规度量,即通用精度(GA)。 评估场景文本识别算法的当前做法是在具有真实世界图像的公共基准上评估模型。 我们将提到的评估数据集的所有测试图像的识别准确度定义为GA,与先前工作中的常见评估相对应。


Observation Ability(OA)准确的视觉特征提取和识别是场景文本识别方法的基本能力。我们将OA定义为算法在训练数据没有词汇的情况下准确地识别单词的方式。在我们的框架中,OA是通过评估在RS数据上训练的模型以及来自所有基准的测试图像(总共7406个图像)来测量的。由于认知准确度完全来自观察视觉特征而无需学习任何词汇,因此表明了模型利用视觉观察的能力。

Vocabulary Learning Ability(VA)
如第1节所述,算法可能会利用学习的词汇进行细化或限制文本图像的识别结果。类似于OA,VA建议用于评估有限词汇量的识别准确性。在我们的实验中,用LS数据集来训练模型并评估Ω所有图像的识别准确性来测量VA。VA对于在事先提供词典的文本识别任务中选择模型具有重要意义。

Vocabulary Generalization(VG)
人可以轻松地从学习的事物中概括事物,这启发我们通过测量用不在词汇表中的LS数据训练的词汇量模型的性能来评估算法的词汇泛化(VG)。实际上,我们在实验中目睹了当前识别方法的词汇概括。为了公平地评估VG,应该消除图像视觉特征对数据集的影响,该影响在两个图像集之间带来了固有的差距。因此,VG由

3. Comparisons and Analyses

使用第2节中提出的框架,我们可以对各种模块组合进行比较和分析。模型的度量如图5所示。 根据具体评估,我们评估和分析模块组合的不同方面。

3.1. Effect of Training Data

从根本上说,我们应该首先验证所提出数据集的有效性,并探讨训练数据词汇依赖的相关性。通过将MS数据比例r从0逐渐调整为1进行实验。表3中的➀,➃和➆三个模型进行比较。除了IIIT的识别准确性外,我们还观察到预测词落入词汇表的可能性,如图4所示。

将RS数据混合到LS数据中,通过混合数据训练模型可以提高IIIT的识别准确性并且不太容易被词汇依赖所误导。特别是对于模型➀,得益于混合RSdata的25%的比率,IIIT的识别精度从77.8%提高到84.4%。

当比例r达到0.5左右时,精度的提高就停止了。一方面,减少词汇中产生单词预测的可能性证明了有效抵消RS数据对词汇的依赖。另一方面,它需要足够比例的LS数据才能从训练数据中学习词汇。

3.2. Comparison of Prediction Layers


从图5a中,我们可以看出使用RS,MS和LS数据训练的模型,尽管有PRED层也没有CNTX模块之间的性能差距是一致的。结果表明,所有组合都存在词汇依赖问题,但严重程度有所不同。

此外,我们还展示了模型➀,➃和➆使用不同训练数据训练后在IIIT上的性能差距。这些模型是在没有CNTX模块构建的情况下,分别使用Atten.,CTC和分割的PRED层。如图5b所示,基于注意力的解码器从r = 0(LS数据)的点的最高间隙开始。通过将更多的RS数据混合到训练集中,基于注意力的解码器的差距会减小。这种趋势证实了基于注意力的解码器在词汇学习上的优势以及在词汇依赖方面的劣势。

除了词汇依赖之外,我们在图6a中还对我们提出的PRED层指标进行了全面的比较。 CTC的性能通常由其他两个预测层(包括准确性和泛化性)衡量。基于注意力和基于分割的解码器分别在VA和VG方面获得优势。它们在OA中的表现也相似,表明仅根据视觉特征即可准确识别。

3.3. Comparison of Context Modules


基本上,上下文模块的采用可以提高模型的词汇学习能力,这已通过模块组合的VA(词汇学习能力)的验证。例如,在以前的场景文本识别方法中未广泛使用的PPM带来了与PRED层结合的增强效果:Seg为3.9%。 CTC为10.5%。另一方面,如图7所示,通常VA增强VG会降低。

与PRED层相似,CNTX模块的评估结果如图8a和图8b所示。我们发现,CNTX模块的效果与预测层高度相关。

如第3.2节所述,基于注意力的解码器从训练数据中学习词汇的能力更强。因此,它带来了较少的VA和VG变化,从而为基于注意力的PRED层添加了更多的上下文模块。此外,充当上下文信息提取器的上下文模块实际上有助于基于注意力和基于分割的解码器的视觉观察。

对于CTC系列模型,情况有所不同。PPM和BLSTM显著提高了它们的VA和与VG配对,因为CTC解码器本身缺少适当的上下文建模。图8a显示了上下文模块在CTC系列模型上带来的三种方法的性能变化。

总而言之,使用适当的上下文模块来增强模型的词汇学习是有效的:BLSTM用于基于注意力的模块,PPM用于CTC和基于分割的解码器。毕竟,这是VA和VG之间的折衷方案。

3.4. Combination Recommendation


根据表5和之前的分析,我们根据情况是否给出目标图像的词汇表,推荐了两种组合用于不同的情况。

基于注意力的带有BLSTM的Model➂受益于功能强大的CNTX模块和PRED层获得了最佳的VA。模型在词汇学习中的优点也导致了最好的GA,与传统基准测试的性能相对应。 VA和GA的高分值证明了在测试图像的词汇大部分是训练数据的受限子集的应用中,它们表现良好。因此,与网络设计中的[40]相似,模型➂是我们为了强词汇学习能力首次推荐组合。

对于行业中的许多应用,使用有限词汇量的数据训练的算法应该能很好地概括为更通用的单词。由于模型➆获得最佳的VG,因此它具有良好的词汇泛化能力。因此,对于涉及词汇泛化的场景,我们建议使用类似于CA-FCN [23]结构的组合➆。

4. Remedy by Mutual Learning

前面的部分演示了VA和VG之间的权衡以及模型的各种优势。在本节中,我们提出了一种简单而有效的训练策略,以结合模型在不同预测层(即基于注意力和基于分割的解码器)中的优势。

该思想基本上是受知识蒸馏[10]和深入的相互学习[48]的启发。与知识蒸馏相似,两个模型的相互学习是一种训练策略,其中模型可以协同学习。知识蒸馏策略将知识从经过预训练的强大教师网络转移到学生网络,而我们的方法则从头开始同时优化两个模型。

由于其优势,我们选择基于分割的解码器和基于注意力的解码器的集合作为基础模型在图6a中揭示。我们假设基于分割的解码器的泛化监督基于注意力的解码器,以学习减轻词汇依赖,而基于注意力的解码器的准确性注意力反过来又改善了基于分割的解码器。

4.1. Optimization


图9:基于注意力的解码器(顶部)和基于分割的解码器(底部)的相互学习。 logit的KL散度被计算为辅助监督,这使得模型可以共同学习。


4.2. Experimental Validation


我们使用提议的评估框架评估了相互学习策略,并分别在表3和表6中显示了我们的指标的原始准确性和性能。实验结果证明了相互学习策略所带来的基础模型的显著改进。

这两种相互学习策略相结合的模型保持了不同的特性和明显的优势。联合训练程序通过协调其估计,将其倾向性与视觉特征和词汇结合起来与吉隆坡的分歧。有证据表明,两种模型的OA和VA均得到改进,验证了相互学习策略的有效性。

此外,基于分割的解码器消除了基于注意力的解码器的词汇依赖性。在基于注意力的解码器的训练中,基于分割的模型的预测更多地依赖于视觉特征,这是一种额外的视觉正则化。除了最小化LΘ1,还驱动Θ1以适合Θ2的观察概率。定量地,Θ1的GA从77.1%提高到93.6%。在原始精度上,LS数据上带有单词在单词之间进出的图像之间的性能差距几乎减少了一半(32.7%至16.9%)。

图6b显示了所提出的相互学习策略的定性比较。基准方面的显著改进证明了所提出的相互学习策略的有效性,从而验证了其合理性以整合不同PRED层的优势。

5. Conclusion

在本文中,我们研究了一个重要但长期被忽视的问题:场景文本识别方法中的词汇依赖。 建立了一个用于比较和分析单个文本识别模块及其组合的综合框架。 基于此框架,已经获得了一系列关键的观察和发现以及有价值的建议,这些建议可能有助于未来场景文本识别的研究。 此外,我们分析了当前的上下文模块和预测模块,并提出了一种相互学习策略,以增强他们的词汇学习能力或对词汇外单词的泛化能力。

你可能感兴趣的:([CVPR2020]论文翻译:On Vocabulary Reliance in Scene Text Recognition)