大多数侧重于数字化文本文档恢复的图像增强方法仅限于文本信息仍保留在输入图像中的情况,而这种情况可能通常不是这样。在这项工作中,我们提出了一种新的生成性文档恢复方法,该方法允许以目标文本转录的形式根据引导信号进行恢复,并且不需要成对的高质量和低质量图像进行训练。我们介绍了一种带有隐式文本到图像对齐模块的神经网络结构。我们展示了在修复、去模糊和去模糊任务上的良好结果,并且我们展示了经过训练的模型可以用于手动修改文档图像中的文本。一项用户研究表明,在多达30%的情况下,人类观察者会将拟议增强方法的输出与参考高质量图像混淆。
关键词:生成性对抗网络·注意神经网络·文本文档恢复·文本修复
文本文档数字化有许多应用,从日常用途(如使用手持相机拍摄文档的数字副本[15]和企业数字存档)到特殊应用(如保存具有重大文化、历史或语言重要性的旧文档[25])。虽然现代专用文档数字化设备通常提供高质量的输出,但源文档的物理状态可能已经退化到无法读取或难以读取的程度。当源文件是缩微胶片等模拟副本时,尤其如此。由于原始获取过程中的错误,例如曝光不足或曝光过度,缩微胶片的可读性往往很差。某些类型的轻度退化,如照明不均匀、对比度低、模糊或褪色的文本,可以通过自动或半自动图像处理技术进行修复[1,26]。 然而,严重退化的文件无法识别单个字符,仅能通过使用人类或专业语言模型提供的语言知识进行恢复。本文提出了一种实用的方法,该方法可以依靠最先进的文本识别和语言建模方法来恢复这些严重退化的文档,并且可能会退回到人工文本更正。因此,该方法的目标是提高人类读者的视觉质量;这不是OCR方法的预处理步骤。
图1:所提出的方法将退化的低质量文本行图像和相应的转录作为输入,并产生相应的高质量文本行图像
本文的核心贡献是一个神经网络(见图1),它可以恢复被裁剪的文本行,并由文本转录作为附加输入来引导。我们将所提议的网络架构称为文本引导转换器GAN或TG2。文本转录可以通过任何OCR方法提供,也可以通过人工更正;在我们的实验中,我们使用了一个简单的CNN[15]。我们有意识地决定将图像恢复任务与文本识别和语言建模分开,因为这种模块化方法有助于自然的用户交互,并且可以与最先进的OCR方法、现有特定领域的OCR系统以及在大型纯文本语料库上训练的语言模型相结合。实验表明,该方法能够有效地填补文本中缺失的部分,并从不可读的模糊图像和二值化图像中恢复出高质量的文本。这表明该方法可用于一般文本图像的增强和恢复(重建)任务。此外,我们还证明了该方法能够替换文本文档中的单词。
该方法在低质量和高质量的文本行图像上进行训练,并具有相应的文本转录。这两组文本行应该来自同一个文档域,但在其他方面可以是独立的。重要的是,培训不是完全监督的,它不需要相同文档的高质量和低质量图像的匹配对,这可能是不可能获得的,例如,当文档因褪色、撕裂或污渍而退化时。我们的实验表明,一个通用的恢复模型可以在大量的文档集合上进行训练,然后在相当小的数据量上适应特定的文档或退化类型。
用于文本文档质量增强的传统图像处理方法通常侧重于图像去模糊和对比度增强。可以使用基于局部直方图均衡化[20]或简单局部算子[22]的方法来校正由不均匀照明引起的对比度变化。文本文档图像的去模糊可以通过使用贝叶斯方法或更简单地通过使用特定图像先验(例如,强度和结构先验[2]或L0正则化强度和梯度先验[4,27])的代价最小化,作为对潜在锐利图像和模糊核的迭代估计来解决。
最近的许多文档增强方法都依赖于卷积神经网络(CNN)的建模能力。去模糊任务可以使用CNN训练的端到端完全监督[9]或使用两阶段方法来解决,在应用特定于类的去模糊模型[11]之前,先将当前模糊核分类为几个类别中的一个。CNN还被用于深大津法[8]中的二值化任务,该方法主要用于解决墨水渗透问题。此外,CNN还被应用于二值化文本的感知质量增强[28]。
与我们的工作密切相关的是文档超分辨率方法,这些方法深受自然图像方法的启发,例如超分辨率CNN(SRCNN)[3]和超分辨率GAN(SRGAN)[18]。几位作者最近提出的关键概念是将文本识别损失最小化引入优化标准[24,36]。这促使模型从关注一般纹理转向生成逼真且可读的字母和字形。虽然我们在训练网络时使用了类似的想法,但我们还将文本用作恢复网络的输入和指导信号,这使它能够恢复更严重退化的文档,并且这些方法针对不同的用例。
最近,几位作者利用对抗性学习来消除自然场景图像的模糊。在监督(使用对抗性损失与内容损失相结合)[16,31]和非监督(仅限于对抗性损失)[23]设置中都使用了条件性GAN。
修复可以被视为图像恢复的一种极端形式,其中图像区域的原始内容被完全忽略。在这种情况下,对抗性和内容丢失的组合可用于训练以屏蔽输入图像为条件的生成器网络[30]。通过利用生成器网络中的空间注意模块和多分辨率重建方法[37],或通过在图像缺失部分使用指导信号(如语义分割[17]),可以提高生成图像的质量。
如果我们考虑到文本文档数据的连续性,语音增强技术也很有趣。2015年首次引入了一种文本通知语音增强方法,该方法要求文本转录与音频信号明确对齐[14],表明引导信号可以显著改善结果。最近,类似的方法使用量化变分自动编码器隐式学习底层语言模型的表示,以帮助语音增强[21]。通过多头注意机制[35]将学习到的语言特征引入增强模型,以提高增强效果。
首先,U-net体系结构不允许向模型添加额外的连续性条件输入数据,除非与输入图像明确对齐和连接,这在许多情况下是不可能的,例如在修复任务中 。我们通过向网络中添加隐式训练的文本对齐模块来解决这个问题。
其次,有监督内容丢失的训练需要匹配低质量和高质量的训练图像对,这在大多数实际情况下是不可能获得的。虽然这可以通过合成高质量图像的退化部分解决,但有许多类型的退化不容易合成。因此,更可取的做法是消除对此类监控的需求,因此培训只需要不匹配的低质量和高质量图像。我们通过完全消除内容丢失,完全依靠对抗性训练和文本识别丢失来实现这一点。
图2:TG2模型概述。U-net体系结构被用作图像恢复的主干。此外,transformer用作对齐模块,使生成器能够根据目标文本转录进行调节
恢复神经网络独立处理每个文本行,其灵感来源于通常用于一般图像恢复任务的U-Net架构[32]。我们使用隐式文本对齐模块扩展了这个基本架构,该模块能够以端到端的方式学习文本到图像的对齐(见图2)。额外的文本字符串输入允许模型恢复正确的文本,即使无法从输入图像中推断。校准模块基于变压器模型中引入的缩放点积注意块[35]。
通过同时优化两个主要损耗函数来训练网络。由生成性对抗网络(GANs)[5]激发的对抗性丢失迫使网络重建高视觉质量的图像,基于预先训练的OCR神经网络的文本识别丢失限制输出包含正确的文本字符。此外,颜色一致性损失项可用于显式约束输出颜色以匹配网络输入。
在下面的文本中,XLQ和XHQ分别代表数据集中的低质量和高质量文本行图像。恢复模型G表示为
其中T是对应的目标文本转录字符串,YHQ是重构输出,θG是模型的可训练参数。理想情况下,该模型应该从近似于p(XHQ | XLQ,T)的分布中产生样本。请注意,由于相应的低质量和高质量示例对不可用,我们没有显式地强制模型以XLQ为条件。相反,模型只训练为近似p(XHQ|T)。 模型的输出与XLQ的相似性是由恢复模型G的有限学习能力造成的,这是因为它被迫使用低质量图像中包含的信息,以便能够为单个输入字符串生成多个不同的输出,因为我们不向模型提供任何额外的噪声。简单地说,模型G最容易学习YHQ和XLQ强相关的映射。
利用贝叶斯定理,我们可以说条件概率p(YHQ |T)依赖于p(T | YHQ )和p(YHQ)。我们通过最小化CTC[ R(YHQ ),T ]来使用连接主义时间分类(CTC)来最大化p(T| YHQ)。我们通过最小化模型分布和WGAN-GP[7]鉴别器模型D近似的数据分布EMP[p(XHQ),p(YHQ )]之间的地球移动器距离来近似最大化p(YH Q)。
恢复模型G以一个裁剪的文本行及其文本转录作为输入。输入文本行的大小必须调整为恒定的高度,但它们的长度通常可以变化,并且不受模型的限制。对于表示为一个热编码字符序列的文本字符串输入也是如此。请注意,由于技术原因,在我们的实验中,文本行及其转录的长度是有限的,我们将较短的行填充到一个恒定的最大长度。
恢复模型的U-net[32]主干具有常用的编码器和解码器部分。编码器和解码器中的卷积块包括两次重复的3×3卷积和泄漏ReLU激活。然后分别在编码器和解码器中进行2×2最大池和最近邻上采样。在解码器部分,每个卷积块后面还有一个实例规范化层。我们采用跳转连接,以相同的分辨率连接相应的编码器和解码器特征映射,以改善局部信息在网络中的传播。
文本对齐模块将文本转录的信息分配到U-net编码器最后一层的正确位置(我们称之为视觉嵌入),如图2所示。为了促进文本转录与U-net编码器功能的对齐,我们利用了自然语言处理文献中众所周知的Transformer架构[35],它基于多头注意。
注意层处理一组实值向量,而不需要任何关于空间结构的明确知识,它可以潜在地将整个向量集合中的信息结合起来。它通过与学习矩阵相乘计算出的键、查询和值向量的三元组来表示输入向量,根据相应的键和查询向量计算所有输入向量对的相似性权重,并使用相似性权重聚合每个输入的值向量。标准transformer attention block[35]由注意层和逐点矩阵乘法组成,这两个矩阵都是剩余连接的,并通过加法和实例规范化与块输入相结合。
校准模块由两部分组成。该模块的文本编码部分用于从文本序列中提取上下文化的文本特征。文本被表示为一系列264-D字符嵌入向量,这些向量在模型训练期间被随机初始化和优化。学习到的字符嵌入序列通过元素相加与固定位置编码(以波长几何递增的正弦和余弦函数的形式)进行混合[35]。位置编码是对齐模块中字符位置信息的唯一来源。编码的文本特征通过标准的多头自关注块进行细化和语境化,其结构与原始transformer编码器相同[35]。在模块的对齐部分,文本特征中包含的信息通过一系列交叉关注块混合到视觉嵌入矩阵中的适当位置,其中键和值向量由上下文化的文本特征计算,而视觉嵌入提供查询向量。此外,交叉注意块被自我注意块交错,这使得网络能够潜在地从整个文本行聚合视觉和文本信息。
我们在文本编码部分使用一个自我注意块,在对齐部分使用8对交叉注意和自我注意块。对齐模块的输出最终被重塑为与U-net编码器输出相同的高度,使得每个嵌入向量在其相应的水平位置分布到列中的像素。整形后的张量与U-net编码器输出连接,并用作U-net解码器的输入。
各种各样的损失函数可用于训练所提出的图像恢复任务模型。我们选择避免基于参考的内容和感知损失,这会最小化颜色或特征空间中的距离,因为这会将可能的应用限制在完全监督的设置中。相反,我们训练模型来学习具有正确文本的高质量文本图像的条件模型分布。
对抗损失:我们通过在Wasserstein GAN中引入的带有梯度惩罚(WGAN-GP)的鉴别器网络形式的对抗性损失来近似p(YHQ)和p(XHQ)之间的地球移动器距离[7]。 我们之所以选择这种损失,是因为在文献和我们的实验中,在广泛的应用中,它在训练期间表现出良好的稳定性。
通过优化训练参数θD的鉴别器D
式中, X ^ \hat{X} X^是一些XHQ和YHQ的随机线性组合, λ λ λ是梯度惩罚权重,我们在实验中设置为10。通过这种方式,鉴别器被训练为为生成的图像分配较高的分数,为真实的高质量图像分配较低的分数。因此,该鉴别器可以作为图像质量指标,通过最小化对抗损失来训练恢复模型。
鉴别器的结构与恢复模型的编码器部分相同(见图3)。使用逐点卷积将提取的特征处理为局部鉴别器分数,并使用全局最大池对分数进行聚合,从而允许梯度仅通过每个文本行中的单个关键位置传播。我们还试验了全局平均池,它可以在所有位置传播梯度,但最大池提供了更高的质量和更稳定的训练。
文本识别损失:们使用卷积网络形式的文本识别模型,使用CTC损失[6]训练文本识别损失。该体系结构如图3所示。尽管文本识别模型大致上受到Shi等人[33]的启发,但我们通过删除重复层并仅使用最大池和卷积层来简化模型。这会阻止模型学习使用更广泛的上下文进行字符识别,并迫使其无法确定视觉上无法识别的字符。这提供了恢复模型训练期间文本识别丢失的有意义的局部梯度。
通过求解CTC损失,对参数θR的文本识别模型R进行预训练 。
其中,X和T训练对从手动转录的低质量和高质量图像中取样,或可能从自动转录的高质量图像中取样,并辅以合成降解。在我们的实验中,我们同等比例地使用了低质量和高质量的图像。
文本识别损失
强制生成器模型输出包含正确文本的线条图像。请注意,文本识别模型权重在恢复模型训练期间被冻结,识别模型仅用于将有意义的梯度传播到YHQ的像素,类似于LAdv。
颜色一致性损失:在某些情况下,根据训练数据集的性质,无监督训练方法可能会导致不希望的颜色空间漂移。为了确保输出图像具有与输入图像相似的局部颜色统计信息,我们添加了一个简单的颜色一致性损失,该损失最小化了输入和输出图像模糊版本之间的L2距离。颜色一致性也可能通过对抗性循环一致性[39]来实现,但我们发现这种简单损失的结果令人满意。
我们将颜色一致性标准添加到发生器损耗中,如下所示:
其中B是一个模糊函数,我们将其实现为一个简单的平均池,其步长和内核大小等于行高。
组合生成器损失:发电机模型使用三个标准的加权和进行训练。表示等式中的发电机损耗贡献。3、5和6分别作为LAdv、LOCR和LColor,最终的组合标准如下所示:
其中 λ 1 λ1 λ1、 λ 2 λ2 λ2和 λ 3 λ3 λ3是各个损失函数的权重。
我们首先使用学习率为3×10的Adam optimizer在低质量和高质量的训练样本上优化文本识别模型R,以此开始训练过程用学习率3 × 10−4的Adam优化器只需10000次更新。这并不能保证收敛性,但对于我们的用例来说已经足够了,并且实现了大约10%的字符错误率,大多数错误发生在低质量的图像样本中。事实上,将识别模型训练为收敛可能会导致梯度太小,无法在增强模型训练中获得理想的效果。在优化恢复模型的过程中,文本识别模型参数θR保持不变。
生成器模型G和鉴别器模型D使用学习率为10× -4的Adam优化器,以迭代方式训练50万个steps,共同优化等式2和7。在我们的实验中,我们将 λ λ λ1= λ λ λ2= λ λ λ3=1,但不需要颜色一致性损失且 λ λ λ3设置为0的情况除外。这些均匀的权重提供了足够的训练稳定性和良好的结果质量,因此我们没有进一步微调这些权重。
我们使用多个数据集对所提出的方法进行评估,我们在这些数据集上进行烧蚀研究,以显示单个模型组件的定性贡献。我们还展示了一些实际应用的例子。
我们使用两个公开的数据集进行消融研究,并使用一个额外的内部数据集来演示实际应用。在这三种情况下,文本线图像都是使用Kiss等人[15]描述的方法裁剪的,该方法检测基线位置,估计文本高度,并将弯曲的文本线校正为矩形图像。
IMPACT 数据集:Impact数据集[29]包含来自欧洲多个档案馆的超过60万页历史文本文档。该数据集的主要特点是数据集中语言(14)和脚本(10)的可变性。由于大多数文件都以良好的质量进行了数字化,我们依靠合成降解方法来提供低质量的图像样本。
B-MOD 数据集:Brno OCR移动数据集[15]包含超过2000页由手持相机拍摄的科学文章。虽然在这种情况下,语言和字体的可变性很小,但数据集图像是以不同的角度、光线条件和运动以及失焦模糊来捕获的。由于数据集是根据OCR可读性划分为子集的,因此它提供了真实生活中低质量和高质量图像样本的良好来源。
捷克报纸:这是一个内部数据集,由39个报纸页面组成,从不同质量级别的缩微胶片上扫描,用于演示真实的word应用。它包含大约10000个高质量文本行和4000个低质量文本行。文本行的转录来自自动OCR,因此包含错误,尤其是在低质量的文本行中。
文本图像恢复是一个非常广泛的领域,包括许多类型的图像退化[34]。我们使用了三个恢复任务来评估所提出的方法及其在这些特定场景中的行为。
Debinarization:文本二值化是文档数字化过程中常用的一种方法。然而,在采集过程中,墨水褪色、光线不均匀和对比度变化往往会导致二值化过程严重降低文本信息质量。我们通过使用阈值、块减少和非线性强度修改的随机组合,从IMPACT数据集中综合创建此任务的数据。几个综合二值化数据的示例如图5(左)所示。我们将二值化图像恢复的任务描述为恢复具有正确文本内容的真实彩色图像,并将其称为debinarization。
图4:来自所用数据集的文本图像示例。来自IMPACT数据集(a)的样本、B-MOD数据集(B)的简单分区、B-MOD数据集(c)的中等分区、捷克报纸页面的高质量示例(d)和同一页面的低质量示例(e)
图5:示例生成了debinarization任务(左)和修复任务(右)的低质量文本行图像(下图)
Text line inpainting(文本行修复 ):水污迹或污迹等人工制品通常会使几个字母甚至单词的区域退化到无法识别的程度。然而,底层文本通常可以使用语言上下文恢复。为了模拟这一点,我们在IMPACT数据集上合成了该任务的样本,方法是将每个文本行的两到五个随机、可能重叠的区域设置为黑色,如图5(右)所示。遮罩区域横跨文本行的整个高度,长度从25到70像素均匀采样。
Text deblurring(文本去模糊 ):对于文本去模糊任务,我们使用B-MOD数据集“easy”轨迹作为高质量图像的来源,使用“中等难度”轨迹作为低质量图像的来源。我们将恢复低质量图像的任务称为去模糊,尽管模糊不是低质量样本中退化的唯一来源。虽然模糊图像在某种程度上也可以从高质量的示例中合成生成,但我们使用此任务来演示这些方法在实际数据上的性能,其中低质量和高质量样本的匹配对不可用。
本研究评估了三种具有不同文本输入形式的恢复(生成器)模型结构。所有模型均使用TensorFlow框架实现。每个型号的培训过程在一个带有单一Titan XP GPU的系统上大约需要60小时。48×800像素的单个文本行的推断时间约为5ms。
Baseline model(基线模型):我们使用基于裸U-net的主干作为基线恢复模型,因为它不使用任何形式的文本输入,只对图像进行操作。这种体系结构应该能够恢复局部性质的缺陷,例如轻微的模糊,但如果文本行的较大部分缺失,并且需要填充,则不能期望产生令人满意的结果,因为它无法推断缺失的信息。
Oracle model(甲骨文模型):oracle模型接收对齐的目标文本作为输入。我们将此模型称为oracle,因为文本到图像的对齐是在高质量的示例上执行的。由于高质量的示例在实践中永远不可用,考虑到这些文本对齐几乎是完美的,我们只使用这种模型作为这种模型可以实现的理论上限。文本与使用CTC损失训练的卷积循环OCR神经网络的输出对齐[15]。文本被转换为与输入图像具有相同宽度和高度的张量,这样对应于对齐字符位置的列将填充一个热编码表示。这个张量连接到输入图像。
TG2 model (proposed):建议的TG2模型只使用未对齐文本字符串形式的文本输入。文本与输入图像的对齐在使用transformer模块的恢复模型内部进行,如第3节所述。
可以使用多种指标来评估文本文档图像增强的性能。基于相似性的度量,如PSNR或SSIM,是一种流行的选择[8,9,27],但它们需要匹配对恢复图像和地面真实图像,并且仅适用于经过区分训练的系统,而不适用于本文提出的生成模型。文本识别错误也经常被用来评估恢复质量[11,28],我们用它来量化在B-MOD数据集上训练的去模糊模型的性能。然而,文本识别错误不能解释主观感知质量。因此,我们在主观用户研究中评估所有恢复模型。
这项研究包括根据两个关于图像质量的问题中的一个,强迫用户多次在两个文本行图像之间进行选择。问题是:“哪些图像看起来像是计算机生成的?”以及“哪些图像可读性更好?”。实验的网络应用如图6所示。在消融研究中,第一个问题允许我们断言给定模型生成高质量文档图像内容的效果如何,而第二个问题告诉我们哪个模型有助于更轻松地理解恢复图像的文本内容。
图6:为收集用户回复而创建的网站截图。在选择了两个问题中的一个(真实性或可读性)后,向用户展示了要评估的图像对
我们从24个独特的用户中收集了1288条用户回复,这些用户大多具有计算机视觉背景。从所有实验中以随机顺序选择用于评估的样本,并要求每个用户至少完成一批50对图像。这个问题在整批人中一直存在。
表1:用于评估不同方法的经过培训的模型
我们评估了第节中描述的三种模型。4.3在表1中总结的几个不同设置的实验中。三种图像恢复任务(去模糊、修复和去模糊)以两种不同的方式进行评估。在消隐和修复任务中,综合创建低质量的文本行图像,并在用户研究中将输出与参考高质量图像进行比较。除了评估方法的相对比较外,这还提供了恢复模型输出质量的绝对度量,因为最好的方法应该与参考图像无法区分。
在debinarization和修复中,低质量和高质量文本行图像的匹配对可用于将目标文本与oracle模型的图像对齐。在评估过程中也会使用参考图像,我们报告了当被问及图像质量时,用户选择模型输出而不是参考图像的情况的百分比。该指标的上限为50%,这意味着生成的图像与参考高质量图像无法区分,可读性绝对不受阻碍,迫使用户在实验中进行随机选择。然后,我们使用两个样本的z检验来确定哪些模型的结果存在显著差异。
在这种情况下,基线模型仅使用对抗性损失进行训练,这表示没有文本注释的设置。在我们的实验中,文本识别丢失训练的基线模型非常不稳定,不能提供令人满意的结果。我们认为,这是因为在去噪和修复过程中,输入图像缺少恢复所需的关键信息,而文本识别丢失导致的强模糊梯度会导致伪影。在输入没有严重退化的情况下,对文本识别丢失的基线模型进行了去模糊任务评估(见第5.2节)。
图7:用户研究的结果将恢复的图像真实性和可读性与地面真实高质量图像进行了比较。用户图像首选项(左)和执行选择所需的时间(右)。星号表示性能有显著差异的模型(p<0.05)。箱线图胡须的范围从第10百分位到第90百分位
去矿化和修复任务的用户研究结果如图7所示。基线模型在真实性和可读性指标方面表现最差,仅在22.3%和13.5%的情况下让用户感到困惑。这可以通过检查图8中的示例来解释,图8显示了修复区域和无法读取的二值化区域中的明显问题。在这两种情况下,模型都缺乏信息,无法确定正确的文本内容,而基线模型的有限字段限制了模型在颜色、字体和纹理方面生成全局一致的线条的能力,从而加剧了这个问题。
图8:关于修复(左)和去矿化(右)任务的训练模型的结果。自上而下:输入文本行(a)、参考高质量图像(b)、基线模型输出(c)、oracle模型输出(d)和建议的TG2模型输出(e)
正如预期的那样,与基线模型相比,oracle模型在可读性指标方面取得了显著更好的结果,即33.1%,因为它能够在输入中缺少文本信息的地方填充文本信息。然而,真实性指标的增益较小,仅增加了5–27.7%。这可能是因为oracle模型体系结构虽然能够填充正确的缺失文本,但没有机制将字体和背景纹理与文本行的遥远部分相匹配,如图8所示。因此,当数据集中有多个不同的样式和脚本时,oracle模型会遇到困难。
另一方面,在真实性(30.4%)和可读性(36.0%)方面,与基线相比,带有校准模块的拟议TG2模型能够产生更一致的结果。与oracle模型相比,该模型也提供了更好的分数,但在统计上并不显著。定性而言,与oracle模型相比,该模型能够更好地匹配全局字体、纹理和颜色,如图8中的第二和第三次修复结果所示。
用户偏好结果也由用户执行选择所花费的测量时间支持,如图7(右)所示。用户在将参考图像与建议的模型输出进行比较时,花费的时间最长,而在将参考图像与oracle模型输出进行比较时,花费的时间稍短。参考图像和基线模型输出之间的决策最短。在文本行可读性的情况下,oracle模型和建议模型的决策时间之间的差异可以忽略不计,但在真实性标准的情况下,这一差异更为明显。这进一步表明,虽然两种模型都能够生成具有正确文本的图像,但所提出的模型输出更难与原始输出区分开来。
图9:提出的去矿化和修复修复模型的几个失败案例的例子。地面真值文本行图像(a)、综合降级输入(b)和所提出方法的结果(c)的示例
图9显示了由提议的模型恢复的几个文本行,它们在用户研究中的评级始终低于参考图像。在恢复严重退化的输入或再现罕见字符时,所提出的去矿化模型有时无法生成清晰的字体。建议的修复模型偶尔会导致明显的背景颜色不一致,并且可能会在包含多个字体的文本行上出现问题。
图10:在真实性和可读性方面,用户对用于消除B-MOD数据集模糊的不同方法的偏好
在去模糊任务实验中,没有可用于评估的参考图像,我们让用户直接决定两个恢复输出。我们将提出的模型与基线模型以及使用OCR损失训练的基线模型进行比较,类似于Wang等人提出的方法[36]。
图11:训练模型在去模糊任务中的结果。自上而下:输入文本行(a)、基线模型输出(b)、具有文本识别丢失输出的基线模型(c)和建议的模型输出(d)
在真实性和可读性方面,用户强烈倾向于提出的模型。在75.1%的案例中,推荐的模型输出比基线模型更具说服力,在85.4%的案例中,其可读性更好,从而证实了修复和去矿化任务的结果。虽然基线模型通常会产生尖锐的输出 (见图11),生成的文本通常是错误的,甚至包含无意义的符号。
将文本识别损失添加到基线模型的训练标准中,会迫使其输出包含大部分正确的文本,但也会引入通常很强的视觉伪影,如图11所示。相应地,用户更喜欢建议的文本引导模型的输出,在真实性和可读性问题上,分别有86.4%和98.4%的情况下。
表2:在恢复模型输出上运行的自动OCR的字符错误率(CER)和字错误率(WER)
此外,我们还测量了最先进的OCR模型[15]对所有去模糊模型输出的错误率,以量化恢复模型对机器可读性的影响。结果如表2所示。OCR在B-MOD数据集的所有训练数据上进行训练,包括简单、中等和困难的文本行。仅使用敌对损失训练的基线恢复模型引入了较大的OCR错误率,表明它学会了大部分忽略文本信息。用OCR损失训练的基线恢复模型缓解了这个问题,但其代价是感知质量的有限增益,错误率仍然高于输入图像。提出的带有文本输入和对齐模块的TG2恢复模型,与输入图像相比,字符错误率降低了近50%,字错误率也显著降低。请记住,这种方法不能在OCR之前用作预处理步骤,因为它需要文本转录作为输入。
提出的方法是为增强单行文本图像而开发的,并在任务中进行了评估。然而,在实践中,我们更感兴趣的是修复整个文本文档页面。在这里,我们通过引入一个交互式文本增强工具来演示所提出方法的实际应用。(该演示工具带有经过培训的报纸恢复和修复模型以及图像示例,可在https://github.com/DCGM/pero-enhance.存储库还包括培训脚本和指向培训数据的链接。)
交互式工具将文档图像及其文本内容作为输入。例如,可以使用Kiss等人[15]描述的方法自动检测内容信息,或者使用Transkribus[12]等软件手动生成内容信息。该工具允许用户选择文本行,并使用经过训练的恢复模型对其进行增强。该工具支持从文档页面弹性剪切行,用户手动更正目标转录,并将恢复模型输出混合回文档页面。
我们使用捷克报纸数据集进行演示。在IMPACT数据集上训练的去矿化和修复模型使用高质量数据样本的合成降解在报纸页面上进行了微调。如第节所述。4.1.这些行的转录本是自动生成的,可能包含错误。
图12:文本引导的捷克报纸页面各行恢复结果,并将其混合到原始图像中。在使用自动OCR输出恢复一个段落之前(左)和之后(中),从缩微胶片扫描原始报纸页面。文本中的错误可以通过编辑抄本手动更正,以生成最终输出(右)
图12显示了使用debinarization模型增强一个文本段落的结果,其中突出显示了几个增强错误。使用自动OCR输出作为增强的目标转录是恢复数百或数千页的大容量文档时的一个重要功能,手动注释是不可行的。但是,在严重降级的文档中,这可能会导致需要手动更正的错误。图12(右图)显示了校正转录对恢复模型输出的影响。
我们还展示了修复模型的另一个可能有趣的应用。修复模型能够在转录文本行中删除的部分重新创建图像信息。然而,也可以提供不同的转录,以容易地产生改变的文本图像。如果所提供文本的长度对应于图像被擦除部分的长度,则如图13所示,改变几乎不可察觉。
图13:使用修复模型修改报纸文本的示例。布拉拉市(上图)改为布拉格市(中)。试图修复卢森堡市,一个相当长的单词(底部)
7 讨论
本文提出的文本引导文档图像增强方法为历史档案馆、图书馆或其他机构提供了一种有效恢复退化图像内容的方法,这些机构的主要目标是数字化文档的感知质量和人类可读性。在这方面,所提出的方法不同于大多数最先进的文本图像增强方法,后者通常作为自动OCR预处理步骤。
假设对目标转录的了解为不同的用例开辟了道路。在需要增强的退化图像仍然或多或少可读的情况下,可以使用健壮的OCR生成这些转录,并且增强变得完全自动。然而,如果OCR由于严重的文档图像退化而失败,并且大多数增强方法不可避免地会产生不满意的输出,人工操作员可能仍然能够推断图像中缺少什么文本。通过相应地编辑目标转录,所提出的方法仍然能够以令人满意的结果增强图像。
该方法还假设可以自动检测到单个文本行的正确分割。行检测和OCR中的错误都会导致不正确的图像增强,可能需要手动校正。然而,很少需要手动更正文本行位置,因为相应的自动方法只能在极度退化的页面上失败,这些页面通常完全无法被人类读取,因此无法恢复。
IMPACT数据集上的实验表明,单个模型可以处理多种不同的背景颜色、纹理、字体和脚本。然而,按照Sect中的操作,将模型微调到目标文档图像域可能仍然是有益的。6.为此,至少需要来自目标域的几页高质量文档图像。在高质量数据的情况下,可以使用自动OCR生成训练恢复模型所需的目标转录,并且可以综合生成低质量的示例。在模拟降解过于复杂的情况下,可以使用具有可靠转录的真实低质量示例来训练模型,如B-MOD数据集上的实验所示。
在未来的工作中,改善增强结果的一种方法是增加训练数据集中罕见字符和字形的发生率。这些通常会导致恢复模型输出中的形状模糊或扭曲,因为模型在训练过程中只会遇到几次,因为它们的表示不足。另一个有趣的研究方向是在生成器架构中分离文本内容和文本行图像的样式,类似于StyleGANs[13],这可能会对模型输出的外观提供更多控制。
本文介绍了一种新的文本引导图像增强方法。使用合成和真实类型的文本文档图像退化在多个数据集上对该方法进行了评估。通过一项用户研究,评估了使用隐式对齐模块提出的方法的性能,结果发现,该方法的性能与oracle模型相当,或优于oracle模型,oracle模型假定了精确的文本到图像对齐的先验知识。使用最先进的OCR进行定量评估也表明,该方法提高了机器可读性,尽管这不是所提出方法的目标应用。一个开源的交互式工具被用来展示在恢复退化的数字化文件和改变历史资料中的原始文本方面可能的应用。