【文本图像超分辨】Scene Text Image Super-Resolution in the Wild

引言

这是一篇最新发出来的论文,看样子要投NIPS2020,这个论文可以看作我以前介绍过的TextSR的升级版,两个作者都是同一个人。这篇论文的主要想法就是提出一个专门用来进行文本超分辨的数据集,并且提出了一个专门用来进行文本超分辨的网络。

Scene Text Image Super-Resolution in the Wild

摘要

分辨率的文本图像通常出现在自然场景中,如手机捕获的文档。识别低分辨率文本图像具有挑战性,因为它们丢失了详细的内容信息,导致识别精度差。一个直观的解决方案是引入超分辨率(SR)技术作为预处理。然而,以往的单图像超分辨率(SISR)方法都是在合成的低分辨率图像(如双三次下采样)上训练的,这种方法简单,不适合于真实的低分辨率文本识别。为此,我们提出了一个真实的场景文本SR数据集,称为TextZoom。它包含一对真实的低分辨率和高分辨率图像,这些图像由野外不同焦距的相机拍摄。它比合成数据更真实、更具挑战性,如图1所示。我们认为提高场景文本SR的识别精度是其最终目标。为此,我们开发了一种新的文本超分辨率网络TSRN,它具有三个新的模块。(1) 提出了一种基于序列残差块的文本图像序列信息提取方法。(2) 设计了一种边界感知损失来锐化字符边界。(3) 提出了一种中心对准模块来解决文本缩放中的对准问题。在TextZoom上的大量实验表明,与合成SR数据相比,TSRN大大提高了CRNN的13%以上,ASTER和MORAN的9.0%左右。此外,我们的TSRN在提高文本缩放中LR图像的识别精度方面明显优于7种最先进的SR方法。例如,它在ASTER和CRNN的识别精度上分别比LapSRN高5%和8%。我们的结果表明,低分辨率的文本识别在野外还远未得到解决,因此需要更多的研究工作。
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第1张图片

动机

  1. 现代文本识别技术已经在纯文本图像上取得了令人印象深刻的效果。然而,在识别低分辨率文本图像时,它们的性能急剧下降[1]。识别LR文本的主要困难在于光学退化模糊了字符的形状。因此,将SR方法引入到识别前的预处理过程中是很有前途的。令我们惊讶的是,没有一个真正的数据集和相应的方法关注场景文本SR。
  2. 以前的工作它们只训练下采样图像,学习回归简单的双三次(或双线性)插值映射函数。由于所有的LR图像都是由一个简单的下采样公式生成的,所以不能很好地推广到真实的文本图像
  3. 真实的模糊场景文本图像在退化形式上更为多样。场景文本具有任意形状、分布照明和不同背景。场景文本图像的超分辨率更具挑战性。
  4. 为了重建低分辨率的文本图像,我们提出了一种面向文本的端到端方法。传统的SISR方法只注重对文本细节的重构,只满足人的视觉感知。然而,场景文本SR是一个相当特殊的任务,因为它包含高级文本内容。前后字符之间存在着信息关系。

贡献

  1. 我们的数据集有三个主要优点。(1) 这个数据集注释很好。我们提供文本图像的方向、文本内容和原始焦距。(2) 该数据集包含了大量来自不同自然场景的文本,包括街景、图书馆、商店、汽车内饰等。(3) 数据集按难度仔细地分成三个子集。在TextZoom上的实验表明,与合成SR数据相比,TSRN大大提高了CRNN的识别精度13%以上。
  2. 通过对基于合成LR图像和基于合成LR图像训练的模型的比较和分析,证明了本文提出的数据集TextZoom的优越性。从不同角度论证了场景文本SR的必要性。
  3. 我们提出了一个新的文本超分辨率网络,它包含三个新的模块。通过在TextZoom上进行培训和测试以进行公平比较,它明显超过了7种有代表性的SR方法

TextZoom数据集

我们提出的数据集TextZoom来自两个最先进的SISR数据集:RealSR和SRRAW。我们的数据集中只有一些曲线文本图像。对于每对LR-HR图像,我们提供区分大小写的字符串(包括标点符号)、边框类型和原始焦距的注释。在相同的高度下,焦距越小的图像越模糊。考虑到这一点,我们很将数据集分为三个子集。
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第2张图片

超分辨网络模型

本节中,我们详细介绍了我们提出的方法TSRN。首先,我们简要介绍了我们的模块。然后我们介绍了所提出的序列残差块。然后,介绍了我们的中心对准模块。最后,我们引入一个新的梯度轮廓损失来锐化文本边界。
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第3张图片
我们的基线是SRResNet。我们主要对SRResNet的结构做了两个修改:1)在网络前增加一个中心对齐模块 2)用提出的序列剩余块(srb)替换原始基本块。在这项工作中,我们将二值遮罩与RGB影像串连作为我们的输入。二值掩模是通过计算图像的平均灰度来生成的。训练过程中,首先由中心对准模块对输入进行校正。然后利用CNN层从校正后的图像中提取浅层特征。叠加5个srb,提取深度和顺序相关特征,并按照ResNet[13]进行快捷连接。SR图像最终由上采样块和CNN生成。我们还设计了一个梯度先验损失(LGP)来增强字符的形状边界。网络的输出由MSELoss(L2)和我们提出的梯度剖面损失(LGP)来监督。

Sequential Residual Block

以往最先进的SR方法主要追求PSNR和SSIM的更好性能。传统的SISR只关心纹理的再恢复,忽略上下文信息,而文本图像具有很强的序列性。我们的最终目标是训练一个能够重建文本图像上下文信息的SR网络。首先,利用CNN进行特征提取。然后排列并调整特征地图的大小,因为水平文本行可以编码成序列。然后BLSTM可以传播误差差分,并将特征映射转化为特征序列,并将其反馈给卷积层。为了使倾斜文本图像的序列相关鲁棒性,我们从水平和垂直两个方向引入BLSTM。BLSTM以水平卷积和垂直卷积特征作为序列输入,在隐藏层中反复更新其内部状态。
在这里插入图片描述

Central Alignment Module

错位会导致像素对像素的丢失,如l1和l2会产生明显的伪影和双阴影。这主要是由于训练数据中像素的错位。LR图像中的一些文本像素空间所对应的是HR图像背景像素,网络可能会学习错误的像素对应信息。因此,我们引入STN作为我们的中心对准模块。STN是一种能够对图像进行端到端校正和学习的空间变换网络。由于大部分文本区域的错位都是水平或垂直平移,所以我们采用仿射变换作为变换操作。一旦LR图像中的文本区域与中心相邻对齐,像素级的损失将使性能更好,并且可以消除伪影。

Gradient Profile Loss

已经有人提出了梯度轮廓先验(GPP)算法,以在SISR任务中产生更尖锐的边缘。随后提出了梯度场的变换方法。该方法将梯度轮廓曲线按一定比例进行压缩,并将图像转换为更清晰的图像。这种方法是在深度学习时代之前提出的,因此它只会使梯度场的曲线更清晰,而不需要监督。
由于我们有一个成对的文本超分辨率数据集,我们可以使用HR图像的梯度场作为ground truth。通常,文本图像只包含两种颜色:字符和背景。这意味着文本图像中不存在复杂的纹理,我们只需要注意字符和背景之间的边界。因此,更好的图像质量意味着更清晰的边界,而不是平滑的字符。当背景不是纯色时,梯度场有时并不完全是背景和字符之间的边界。但大多数样例都能达到我们的目的,对我们的训练很有用。
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第4张图片
在这里插入图片描述
具有两个优点:(1)梯度场生动地表现了文本图像的特征:文本和背景。(2) LR图像具有较宽的梯度场曲线,而HR图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线。这确保了一个保密的监督。
LGP的可视化演示如上图所示。利用HR图像的梯度场,我们可以将梯度剖面曲线压缩为较薄的曲线,而无需复杂的数学公式。

实验

在训练期间,我们将L2loss的权衡权重设置为1和LGP设为1e-4。我们使用动量项为0.9的Adam优化器。在评估识别精度时,我们使用ASTER的官方pytorch版本代码。在补充材料中,我们使用了官方的pytorch代码和发布的crnn和MORAN模型。所有的SR模型都由500个epoch和4个NVIDIA GTX 1080ti GPU训练。批量大小根据原稿的设置而调整。
传统的单输入单输出(SISR)任务是通过双三次插值直接下采样HR图像生成相应的LR图像。为了说明真实LR相对于合成LR的优越性,我们在双三次下采样LR图像和真实LR图像上训练我们的模型以显示性能。

【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第5张图片
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第6张图片
我们选择SRResNet、LapSRN和我们提出的TSRN方法,分别在2X模型的合成LR和真实LR数据集上训练它们。我们总共训练了6个模型,并在我们提出的TextZoom子集上对它们进行了评估。从表2可以看出,在真实LR(TextZoom)数据集上训练的三种方法在精度上明显优于在合成LR上训练的模型。对于我们的TSRN,在真实LR上训练的模型在ASTER和MORAN上可以超过合成LR近9.0%,在CRNN上可以超过合成LR近14.0%。
为了研究TSRN中各个组成部分的作用,我们逐步修改网络的结构,并比较它们之间的差异,以建立一个最佳的网络。为了简洁起见,我们只比较ASTER[41]的准确性。
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第7张图片
我们可以发现所提出的梯度剖面损失可以通过0.5%. 虽然增加很小,但是视觉效果更好(如下图)。有了这个损失,一些扭曲形状的字符会更显式,如字符“e”“s”“f”。字符之间的边界可以被计算出来
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第8张图片
【文本图像超分辨】Scene Text Image Super-Resolution in the Wild_第9张图片

你可能感兴趣的:(场景文本识别,CV的碎碎念,计算机视觉,机器学习,人工智能)