EraseNet: End-to-End Text Removal in the Wild
端到端的文本删除网络:EraseNet
环境配置:
pip3 install torch===1.3.1 torchvision===0.4.2 -f https://download.pytorch.org/whl/torch_stable.html
摘要:
场景文本擦除技术在隐私保护、基于摄像头的虚拟显示翻译和图像编辑等方面的应用越来越受到人们的关注。然而,现有的方法在实际应用中存在不足,主要是因为它们是在合成或非代表性数据集上进行评估的,为了填补这一空白,促进这一研究方向,本文提出了一个名为SCUT-EnsText的真实数据集,该数据集由公共场景文本阅读基准中3562幅不同的图像组成,每幅图像都经过严格的注释,提供了视觉上可信的擦除目标。利用SCUT-EnsText,作者设计了一种新的基于gan的模型,称为EraseNet,它可以自动的删除位于自然图像上的文本。该模型是一个由coarse-erasure sub-network和refinement sub-network组成的两阶段网络。refinement sub-network的目标是改进特征表示和refinement of the coarse outputs,以提高擦除性能。此外,EraseNet还包含一个用于文本感知的分割头和一个在生成器和判别器上都具有光谱归一化(SN)的local-global SN-Patch-GAN,以保持训练的稳定性和被擦除区域的一致性。在之前的公共数据集和全新的SCUT-EnsText上进行了足够数量的实验。作者的EraseNet在所有指标上都显著优于现有的最先进的方法,具有显著的更高质量的结果。
索引术语:场景文本擦除,隐私保护,GAN
一、介绍:
场景文本是信息传播最重要的媒介之一,包含了大量的个人、私人或者敏感信息,包括地址、身份证号、电话号码。车牌号码等,这些信息经常在场景图像中暴露。这些私人信息很容易被从事欺诈、营销或者其他非法活动的及其获取。为了防止场景文本图像侵犯隐私,可以熟练的使用PS简单地从图片中删除文本。然而,由于场景文本出现的形状【引用论文1】、颜色、字体、方向和背景干扰等多种多样的情况,人工擦除或者涂刷过程可能需要大量的时间。此外,场景文本删除是场景文本编辑【引用论文2】的第一步,如对自然图像进行文本翻译和替换。因此,自然图像中文本的自动擦除成为近年来新兴的研究课题。基本上,端到端场景文本删除方法有三个挑战:
1、这个方法应该能够正确地定位文本内容。不像常见的图像填充方法,提供了一个二值笔划级别的掩码(真值)来指导恢复的位置,端到端场景文本删除方法应该直接对整个图像进行操作,而不需要额外的位置信息。
2、文本内容应该被合理地删除,并以合理的背景填充
3、非文本区域和背景应该保持原来的外观不变。
近几年,许多文本删除方法【引用论文3-8】都取得了显著的进展,然而,它们都是在合成的或小型且不具代表性的真实数据集上训练或验证的。这样的评估结果可能不能正确的反映它们在真实应用程序中的性能。在实际场景中,这些方法可能更糟糕。
为了更好地对场景文本删除方法进行基准测试,作者提出了一个全面的真实世界数据集:SCUT-EnsText。它包含了从公共场景文本读取基准数据集中选择的各种真实图像,包括ICDAR-2013 [9], ICDAR-2015 [10], MS COCO-Text [11],SVT [12], MLT-2017 [13], MLT-2019 [14], and ArTs [15],这些都是由SCUT-CTW1500【16】和Total-Text【17】组成。因此,作者的数据集包含了3562张真实图片,超过21000个文本实例注释。SCUT-EnsText数据集的收集考虑了不同文本类型的多样性,因此包含了所有的现有文本形状、文本方向、文字字体和背景在数据集中有很高的突出度。此外,基于MLT-2019【14】和ArTs【15】,作者考虑了中文和英文。在这些条件下,SCUT-EnsText有足够的信息进行全面的场景文本擦除。对于图像中的文本实例,作者仔细的擦除文本,并用视觉上可信的背景填充文本区域。真值经过注释者的双重检查,以保证其质量。示例如图1所示:
虽然以前的方法【引用论文3-6,8】在这一领域已经取得了显著的进展,但大多数都依赖于文本位置的注释。EnsNet【引用论文17】是在整个图像级别上执行端到端删除文本的第一个方法。然而,仍然存在一些挑战,包括失败的、错误的和不完全的删除。鉴于上述问题,作者受到GAN【18】的启发,提出了一个端到端可训练的框架,称为EraseNet,他可以有效的提高场景文本删除过程的性能。生成网络是一个由粗到精的两阶段网络,带有一个额外的分割头。首先,假设一级U-Net【19】可能缺乏足够的感受野和监督,作者在第一阶段之后级联一个优化子网络来进一步细化之前的输出。这个子网络也是由【20】改进得到的编码器结构,它通过扩大卷积【21】来扩大感受野。为了解决监督不足的问题,作者对这个两阶段的输出都进行了奖惩机制,以符合真值。其次,基于端到端场景文本擦除模型应该感知整个图像中的文本区域的直觉,作者引入了一个分割头来学习表示文本和非文本区域的掩码。此外,在门控卷积(GateConv)【22】的激励下,作者还引入了具有光谱归一化(SN)【23】的local-global SN-Patch-GAN来优化EraseNet,目的是即稳定GAN的训练过程,生成高质量的文本擦除图像。
作者在SCUT-EnsText和【7】中提出的公共合成数据集上进行了充分的实验。定性和定量结果都表明,EraseNet可以超越之前所有的最先进方法。
从直观上来看,场景文本擦除有点类似于图像填充【24-27】,因为两者都要考虑目标区域的恢复。然而,一些差异仍然存在。首先,图像填充在训练和推理阶段输入缺失hole的图像和表示hole位置的掩码,而端到端场景文本擦除在推理阶段只将整个图像作为输入,没有任何位置信息。因此,一个端到端的场景文本擦除网络需要感知文本区域,并决定在哪里擦除自己。其次,图像填充中缺失hole的恢复主要基于周围的纹理,而场景文本擦除中,文本区域的背景是主要目标。为了说明这两个任务的实际差异,作者用最新的图像填充方法进行了对比实验,已验证作者的模型的有效性。
综上所述,本文的贡献如下:
1、作者提出了一个真实的数据集SCUT-EnsText,用于具有高质量注释的场景文本删除。
2、作者提出一个由粗到精的两阶段网络,称为EraseNet,它由一个粗擦除网络和一个精优化网络组成,以提高性能。提出了一个附加的分割头,以帮助更准确地擦除文本区域。
3、作者使用SN-GAN和propose a local-global SN-Patch-GAN 损失来稳定GAN的训练,并加强最终输出的全局和局部一致性。
4、作者统一的生成网络在SCUT-EnsText和之前的合成数据集上获得高质量的文本删除结果。
本文其余部分如下。第二部分介绍场景文本读取基准数据集的相关工作,以及图像绘制和文本擦书技术的发展。第三节描述了拟议的SCUT-EnsText的细节和特点。第四节介绍了作者提出的方法EraseNet。第五节给出了实验结果。最后再第六节得出结论。
二、相关工作
A、场景文本阅读基准
B、自动文本擦除
C、图像填充
三、SCUT-EnsText 数据集
这里面的文本擦除是用PS做的,整个注释过程每张图像花费时间5min-10min。
四、场景文本擦除网络
在本节中,作者介绍提出的端到端场景文本擦除网络,称为EraseNet。首先,作者给出了该方法的整个网络体系结构和整个流程。然后详细介绍了框架的各个部分。最后定义了模型训练的目标函数。整个框架的概述如图6所示。
A、总体架构
FCNs在语义分割领域取得了巨大的成功,而GAN在图像生成和图像翻译中得到广泛的应用。受到这两种模型成功的启发,作者之前的工作EnsNet【7】从cGAN【33】和FCN-ResNet18主干网络修改而来,在端到端场景文本擦除方面取得了相当好的性能。但是,仍然存在一些错误,包括失败的、错误的和不完整的擦除,如图10(e)所示。鉴于上述问题,作者的模型受到传统GAN管道的启发,采用两阶段由粗到精生成网络和全局-局部判别网络设计。该生成器包含粗擦除网络和精擦除网络,使得文本删除过程更加彻底。此外,一个额外的分割头无缝连接,以帮助网络感知文本区域。接下来,将生成的带有文本的图像输入鉴别器网络,然后与真实图像进行区分。此外,作者还引入VGG网络【40】来提取假样本和真值的特征,以惩罚高级语义的差异,作者的网络的整体管道如图6所示。
由于一般GAN的训练不稳定性,【23】中提出一种新的权值归一化技术,称为spectral normalization(SN)。文本提出了一种快速逼近算法(SN-GAN),在判别器中加强Lipschitz约束,并提出了一种新的目标损失训练方法。场景文本擦除的目的是去除文本并在背景以相似且合理的区域内进行绘制,因此作者大致上将场景文本的擦除看做是一个图像到图像的翻译任务和图像的绘制任务的结合。基于SN和之前图像平移和填充【20,22,32】的研究,作者提出一个SN-GAN的改进版本,即local-global SN-Patch-GAN,通过对生成器和判别器进行SN,1)加强最终输出的一致性,2)生成最终的高质量文本擦除图像,3)稳定GAN训练,因此,将卷积层后的批处理归一化替换为SN。最后,作者使用相同的SN-GAN【23】的对抗损失做为作者的对抗损失,定义为公式1和公式2.
B、粗擦除子网络(Coarse-Erasure Sub-Network)
粗擦除网络继承了EnsNet【7】中生成器的结构,他也是一个类似U-net的FCN,有几个残差块和横向连接,如图6所示,它以自然图像作为输入,产生粗输出。图7显示了作者的横向连接,其目的是增强从不同层的特征提取和集成。对EnsNet中横向连接进行修改,从11卷积层开始进行非线性变换。然后,分别通过两个相同大小(33)卷积和另一个1*1卷积层实现特征通道的扩展和收缩操作。此外,通过横向连接从浅层得到的最终特征将与高层特征相结合,而在作者的模型中,将它们连接在一起,以提高恢复的非文本区域的质量。
C、优化子网络
如前所述,用于场景文本删除的单阶段网络遇到的问题是,文本没有完全删除,因此最终图像包括草图或者部分文本的残留。导致这种情况的因素可以分为两类,感受野相对较小和缺乏足够的监督。为了解决这一问题,提高擦除性能,作者级联了一个额外的优化子网络作为第二阶段。粗擦除输出被送入优化子网络,可以用于预测更高质量的最终结果。首先,对于较大的感受野,作者将dilated卷积【21】引入到作者的网络设计中。他可以在不增加冗余计算代价的情况下扩大卷积核的大小;因此,感受野可以被有效的扩大,【20】采用空洞卷积,提出了一种有效的图像绘制模型,如图6所示,作者修改了这样的架构,使之称为优化子网络,再应用skip 连接来集成更高层次的语义和来自两个阶段较低层次的细节。第二,由于缺乏足够的监督,作者不仅要求最终的优化结果与相应的真值匹配重构和对抗损失的优化,而且还要考虑粗擦除的输出。
粗擦除和优化输出分别表示为Icount和Rcount,优化函数可以表示为公式3:
优化子网络以粗略擦除文本的图像作为输入,感受野比粗擦除子网络大,因此其编码器比粗擦除子网络更能有效的学习特征表示,因此,他可以有效地。完整、准确地去除文本。
D、分割头(Segmentation Head)
在图像填充过程中,提供了一个表示确实hole位置的二值掩码,这样就不会出现区域修复的遗漏。对于端到端场景文本擦除,作者纯粹输入整幅图像,目的是在推理过程中实现有效的文本擦除,不需要任何注释,便于文本定位。因此,模型应该能够在删除文本之前感知文本,避免出现文本误擦除或错误与文本相似的背景情况。直观地,作者设计了一个用于学习掩码(P1,P2,…,Pn)的文本和非文本区域的输入图像。由于文本擦除的过程是从粗擦除子网络开始的,所以在这个阶段添加了作者的分割头,图6的左下角表示其体系结构的详细信息。它是另一种编码器-解码器架构,解码器部分在粗擦除子网络的卷积层之后级联,编码器部分与骨干网络共享权重。
对于分割头的学习,为了解决样本不平衡的情况,文本区域往往占据整个图像的一小部分,作者将mask学习的损失定义为【45,46】中提出的dice 损失函数。他考虑了预测与真值之间的轮廓相似性。dice损失函数计算公式如下:
掩码学习损失是设计用来辅助训练的。通过这样的优化,作者的网络可以自动感知一般的文本区域。在实际应用中,输出的分割结果并没有应用于推理阶段。有了分割头,作者的模型可以更合适地定位和去除自然图像上的文本。
E、判别器
proposed EraseNet是一种local-global的GAN框架,用来判别生成器的全局输出和局部输出(基于表示文本位置的掩码真值)是真还是假的。为了保证最终优化输出的一致性和高质量。局部-全局判别器的结构如图8所示。通过叠加7个44的2步长卷积层来构造作者的局部-全局判别器,从而捕获Markovian patches【引用论文32,44】。判别器的最终输出是形状为HW*C的patch特征,其中c为通道数。然后,作者使用公式1中定义的hing loss对这些patches进行惩罚机制,以获得输入是真实还是虚假的文本擦除图像概率。
F、训练策略
为了训练EraseNet,作者将原始图像、去除文本的真值Igt和基于位置注释的二进制掩码M(0为非文本区域,1为文本区域)作为输入。依据之前的工作启发,EnsNet和图像修复,作者结合了对抗损失、dice损失、重建损失以及perceptial 损失【47】和风格损失【48】作为作者的内容损失和风格损失,改善擦除的文本区域和背景纹理细节的恢复和语义。作者的重建损失和内容损失函数如下:
I)Local-Aware Reconstruction Loss:
作者采用粗-精两阶段生成网络,需要考虑不同阶段的结果。由于作者的目标是在擦除文本的同时保持原始的背景纹理,所以作者在计算时根据二进制掩码将输出的相应文本区域乘以更高的权重。因此,粗擦除阶段Lrc和精优化阶段Lrf损失分别定义如公式6,7.最终的局部感知重构损失由公式8给出。
a)内容损失函数(Content Loss):
受到之前图像填充的工作【27,39,49-51】,作者修改了Content Loss,包括perceptual Loss【47】和风格损失【48】去惩罚视觉质量和特征一致性。首先,作者通过ImageNet【52】上预先训练的VGG-16网络【40】提取输出的特征和对应的真值。Perceptual Loss促使卷积神经网络(CNN)中预定层的两类特征具有相似的表征。为了减轻文本擦除区域与背景之间的差异,将原始输出Irout和带有文本擦除Icom的原始图像作为损失项。感知损失可定义为公式10:
风格损失的重点是通过从每个高级特征图构建Gram矩阵来恢复文本删除区域的视觉表示。与perceptual loss类似,风格损失可以定义为公式11:
b)对象函数(Objective Function)
最后,作者将这些损失与掩码损失和对抗损失相加,形成最终的目标函数,定义为公式13:
五、实验
A、数据集和评估标准
1)
在作者提出的SCUT-EnsText和【7】中先前的合成数据集上评估EraseNet。该合成数据集基于【53】的文本合成技术,包括8000幅训练图像和800幅测试图像。他还包含从ICDAR-2013【9】和ICDAR MLT-2017【13】收集的一些真实世界的数据。在下面的实验中,作者将这个合成数据称为SCUT-Syn。
2)
评估指标:【4】中提出了场景文本擦除的评估方法。利用一个辅助文本检测器对擦除文本的图像获取检测结果,然后根据文本定位的真值对ICDAR-2013【9】和ICDAR-2015【10】方法进行precision、recall、F-score评估,这个指标只关注删除了多少文本;然而忽略了输出图像的质量,这是不合理的。因此,为了综合评价最终的结果,作者还采用了它们之前的工作【7】中提出的各种备选度量指标:1)L2误差:即为均方误差MSE;2)两幅图像的峰值信噪比(PSNR);3)MMSIM【54】,计算两幅图像之间的多尺度结构相似度;4)AGE,计算两幅图像灰度级绝对差的平均值;5)eps,表示两幅图像之间的误差像素百分比;6)pCEPS:表示聚类误差像素(像素与相邻的4个像素不匹配)的百分比。MMSIM和PSNR越高,AGE、pEPs,pCEPS和MSE越低,表示结果越好。
在作者的实验中,作者使用上述两个度量(即【4】和【7】中使用的度量,在接下来的实验中分别表示为Detection-Eval和Image-Eval)来评估最终输出的完整性和质量。由于SCUT-EnsText包含弯曲文本,CRAFT【55】作为辅助场景文本检测器。作者直接在已提供的SynText、ICDAR-2013和MLT-2017数据集上预先训练好的模型进行测试。在作者对文本检测的统一评估中,作者利用off-the-shell OpenCV函数获取弯曲文本的最小外接矩形真值,并采用ICDAR-2015【10】和T-IoU【56】度量。注意,在所有实验中,作者分别采用R、P、F表示召回率、精准度、综合评价指标,用TR、TP、TF表示 TIoU-Recall, TIoU-Precision, and TIoU-F-score。
B实现细节
作者在SCUT-EnsText和SCUT-Syn上训练EraseNet,并分别在相应的测试集上对他进行评估。对于SCUT-Syn,没有提供用于文本定位坐标的注释,对于EraseNet的训练,作者通过输入图像及其对应的标签相减来生成mask标签。作者应用随机旋转的最大程度10°和随机水平翻转的概率0.3为数据增强期间训练。采用Adam算法对模型进行优化。在生成器网络中,学习率设置为0.0001,默认β设置为(0.5,0.9),判别器网络学习率设置为0.00001β设置为(0.0,0.9)。不同损失韩式超参数设置如之前说的一样。采用pytorch实现了该方法。所有实验都是在单个NVIDIA 2080TiGPU的工作站进行的,patch size为4.
Lcontent = 120 Lsi + 0.05Lperc
在损失函数Lrc中{λi, βi} 分别设置为{5, 0.8}, {6, 0.8} and {8, 0.8}
粗擦除输出是输入图片的1,1/2,1/4.
在Lrf中,{λR, βR} 设置为10 和 2,
Lcontent,λs and λp are set to 120 and 0.05
C结果分析
这部分,作者将讨论他们的方法在SCUT-EnsText和SCUT-Syn数据集上的文本擦除性能。作者直接用这两个数据集训练EnsNet【7】作为他们的baseline。基于上述两个评价指标的SCUT-EnsText结果如表2所示。定性结果如图9所示。
对于合成数据集SCUT-Syn,作者也进行了相同的消融实验。没有为公共的SCUT-Syn提供准确的文本定位基础,因此定量结果仅基于Image-Eval【7】,表3和图11展示了在SCUT-Syn上定性分析的结果。通过对这两个数据集进行对比实验,作者验证了EraseNet不同组件的贡献:精优化网络、分割头、风格损失。
1)精优化子网络:
如表2和表3所示,与baseline EnsNet【7】相比,所提出的精优化子网络在image-Eval的所有度量指标上都取得了更好的结果。此外,根据表2,在SCUT-Text上,精优化网络得到的P、R和F都比EnsNet低的多。这表明,作者的RN(精优化子网络)可以显著缓解不完全文本擦除的问题,获得更高的质量输出。图9中的定性结果显示了精优化子网络的效果。
2)分割头:
通过在作者的生成器网络的第一个粗擦除阶段增加另一个分割头,作者的模型性能可以进一步提高,如表2和表3中Image-Eval所示。和不带分割头SH(Segmentation Head)的模型相比,作者的模型PSNR提高了1.1,MSSIM提高了0.12。此外,他还可以在其他指标方面获得更高的结果。但是,根据表2对SCUT-EnsText的Detection-Eval,作者的模型中有SH和RN的P、R、F都没有比没有SH的模型略高。原因是作者采用分割头学习文本区域分割的同时,由于基于分割的文本检测算法【45】的复杂性,作者没有对其进行建模,这有助于文本区域的粗擦除预测。在这种情况下,文本区域的某些部分可能不会被删除。但是,它仍然是一个有效的模型,因为它可以避免更多的错误和过度的擦除,取得更好的结果。图9中显示了一些直观的示例。此外,当作者应用数据增强(DA)进行训练时,最终模型(RN+SH+DA)w SL(Style Loss)的所有结果都得到了极大的改进,并超越了以往的最先进的模型。
3)风格损失:
风格损失【48】表示输出的全局风格和它相对应的真值。根据表2和表3的结果,在相同的实验设置下,伴有风格损失的EraseNet(w SL)比没有风格损失(w/0 SL)在图像质量和文本擦除程度都能达到更高的性能。这表明,虽然图像的不同区域可能有不同的风格,但是在像素级监督下,风格的丢失仍然对场景文本的擦除有很大的positive影响。它明显的提高了输出质量。图9还显示了一些定性结果和比较。
D、对比于当前最高性能的方法
为了验证提出的EraseNet的有效性,作者还在SCUT-EnsText和SCUT-Syn数据集上进行了实验,将其与那些相关的和最新的最先进的方法进行了性能比较。所有这些方法都是作者自己重新实现的。SCUT-EnsText的结果如表4所示,SCUT-Syn如表5所示。
这些结果表明,所提出的EraseNet在Image-Eval的所有指标上都优于现有的先进方法,表明所提出的EraseNet的最终输出具有更高的恢复和擦除质量。此外,ICDAR-2015评估【10】和T-IoU度量【56】的结果如表4的Detection-Eval所示,表明作者的方法(EraseNet)可以在F-score和TF-score达到一个显著低于现在场景文本擦除【4】外的其他方法。场景文本擦除也可以获得比作者提出模型更低的P和TP。该模型以图像上步长为32的滑动窗口生成的6464个小块作为输入。因此这个模型只侧重于擦除和修复小规模区域,但是作者的模型专注于整个图像。在像素级监督之后,破坏文本笔划的完整性更实际有效,从而降低预测边界框和真值之间的IoU。因此,在场景文本擦除中,P和TP的值更低,但是该模型仅适用于6464个patch,最终输出的是这些patch的积分,导致输出的图像混乱,图像质量较低,如图10d和11d所示。
在表4和表5的场景文本擦除的图像评估中,PSNR、MSSIM等指标的结果也低。当作者使用数据增强(DA)进行训练时,作者模型的F和TF可以超过以往所有的方法。两种不同度量类别的结果证明了所提出的EraseNet的鲁棒性和有效性。
此外,作者定性地比较了SCUT-EnsText上不同方法的结果,如图10所示。从图10中可以看出,pix2pix【32】只擦除了部分文本区域,留下了工作。对于场景文本擦除器【4】,恢复得到的文本区域包含明显的混乱,文本不能被完美地删除。EnsNet【7】可以有效的解决上述问题,但部分文本可能会留在图像上,文本的粗糙仍然可见。作者的方法几乎可以完美的删除文本区域,同时保持文本与背景之间的连续性和背景的完整性。此外,图11显示了所提出的EraseNet在SCUT-Syn上也可以获得高质量的输出,并优于其他模型。
E、与最先进的图像填充方法比较
图像填充的目的是根据周围的纹理来恢复缺失的hole(洞),而场景文本删除的目的是将文本从原始文本区域删除。在本节中,作者将场景文本擦除作为图像填充的任务,并将结果与作者提出的EraseNet进行比较。作者根据SCUT-EnsText中的二进制掩码擦除图像的文本区域,并将其作为图像填充模型的输入,得到最终的恢复输出。采用门控卷积(GatedConv)【22】和LBAM【39】进行图像填充。因为图像填充的输出总是保持缺失hole之外的原始区域,因此作者也将EraseNet输出的非文本区域替换为原始图像,以便进行公平比较。表4给出了定量结果,图12给出了一些定性结果,如表4所示,虽然LBAM【39】模型的MSSIM高于作者的模型,但是作者的模型在其他的指标方面表现的更好。此外,根据图12所示的可视化结果,LBAM【39】和GatedConv【22】的输出比作者的输出包含更多的混乱和不连续。这可能是因为缺失hole的恢复实际上是基于周围的纹理,而文本及其背景往往只占图像的一小部分,因此在图像填充任务中很难完全推断出文本区域的纹理。然而,在场景文本擦除任务中,恢复主要是基于输入的原始文本区域。因此,这两个任务虽然有一些相似之处,但本质是不同的。专门为场景文本擦除设计的模型更有效。
F、对比于弱监督方法的比较
通过像素监控,EraseNet在场景文本擦除方面取得了非常好的性能。为了公平评价作者方法的有效性,作者进一步进行了两个实验,将EraseNet与一些弱监督方法进行了比较。在第一个实验中,作者遵循文本检测然后着色的流程。作者首先使用场景文本检测器获取文本区域,然后根据检测结果对图像进行掩码,并将其带入预先训练的最先进的图像填充网络。在作者的实验中,作者使用CRAFT【55】作为探测器,LBAM【39】作为作者填充模型,LBAM模型现在Paris StreetView Dataset【37】上进行预训练,其中包含15000张户外场景的图像,是作者数据集的5倍。因此,在这个实验中,作者没有使用SCUT-EnsText中任何像素级注释,而是使用掩码或者文本区域的边界框。这个方法被表示为D/I(弱监督)。在定量和定性结果见表7和图3.注意LBAM中,最终输出有恢复的文本区域及其原始背景图像组成。为了公平比较,作者遵循本节中提到的相同程序。评估绩效。这两个结果都表明,与弱监督方法相比,EraseNet可以获得更好的性能。
在第二个实验中,作者使用Cycle-GAN【57】进行图像级和文字级的比较。循环GAN可以将一个图像转换为另一种不同风格的图像,而无需像素级的监督。对于图像级的实现,作者将整个图像和它们的地面真值作为输入。对于字符级实现,作者裁剪注释或检测的文本区域。输入图像和真值分别随机输入网络。因此,在训练过程中没有成对的图像。主标签也是字符级别的掩码或文本边界框,而带有或不带有文本的未配对图像则是图像级。两个模型都训练了200epochs,表7给出了定量结果,在两个级别的定性结果如图14所示。
为了公平比较,作者直接比较了Cycle-GAN在图像级别上的输出与EraseNet的输出,对于字符级别实现,作者遵循与D/I(弱监督)相同的计算过程。根据实验结果,作者总结了ErseNet优势的原因如下。首先,在图像级别,背景比文本多得多,导致正负样本的不平衡。在这种情况下,Cycle-GAN更倾向于对非文本区域进行变换,因此可能局限于擦除图像中的文本,如图14a所示。其次,对于字符级实现来说,不同文本的背景样式比较复杂。如果没有像素化的监督,Cycle-GAN在训练阶段容易混淆,模型也可能无法转换图像。虽然文本可以被删除,但是背景并不能完全保持原来的风格,所以再根据边界框将其粘贴回原来的图像是,会造成最终输出的混乱。一些定性结果如图14b所示。
六、总结
在本文中,作者提出了一种新的综合场景文本擦除基准,称为SCUT-EnsText,它包含3562张不同文本特征高度多样化的图像。该数据集精心构建,具有较高的标注质量,每幅图像中的所有文本都被仔细地删除,并使用可信背景来实现,以保持文本擦除区域以及周围纹理的一致性。利用SCUT-EnsText,作者提出了一种新的场景文本删除方法,称为EraseNet,它是一个两阶段的SN-GAN模型。将基于U-Net的细化子网络级联到生成器网络的编码器-解码器结构后,可以增强特征表示,有效地细化粗输出,提高场景文本擦除的性能,另外还引入了一个分割头,以帮助更好的感知文本区域,避免错误,过度的擦除非文本区域。此外,为了保持训练的稳定性和被擦除区域的一致性,作者还提出了一种新的局部-全局SN-Pathch-GAN。广泛的实验证明作者模型的优越性,他可以在SCUT-EnsText和现有的合成数据集SCUT-Syn上取得最先进的结果。
端到端场景文本擦除是计算机视觉领域的一项具有挑战性的任务。许多问题还没有得到很好的解决,包括样品的不平衡,复杂的背景和纹理。因此,这仍然是一个有待研究的问题,值得更多的关注和进一步的研究。