FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记

1 广告

这篇工作由字节跳动商业化技术团队与新加坡南洋理工大学合作完成。
话不都说,先看效果:
FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记_第1张图片
FDRNet的效果看上去有点好,可惜没有源代码提供。

2 核心思想

现有的文档矫正方法大多利用图片生成技术来模拟形变文档,从而学习并预测文档的 3D 信息并进行矫正。由于合成图片与真实图片 domain gap 较大,这样训练出来的网络在真实图片上泛化能力较差。

本文提出一种可以直接在少量真实数据上进行训练的文档矫正方法 FDRNet。对于文档图片,文本内容通常由傅里叶空间中的高频信息组成,而文档背景则由低频信息组成。基于这一特性,FDRNet 在训练过程当中只关注于文档图片的高频信息并且忽略低频信息,从而利用文档的文本特征(而不是文档的 3D 信息)来矫正文档图片。这样使得 FDRNet 在训练过程当中不需要复杂的文档 3D ground-truth,而是可以直接利用现有的文档图片直接进行训练。FDRNet 用百分之一量级的真实图片训练即可达到 SOTA 效果,并且对于任意形变的文档矫正效果更佳。

3 算法分析

算法包括三个部分:

  • 粗粒度变换器;
  • 细粒度变换器;
  • 傅里叶变换器。

粗粒度变换器和精粒度变换器学习以粗略到精细的方式对文档进行去毛刺;
傅里叶变换器提取文档图像的高频信息,以便进行有效和高效的网络训练,如图2的绿色突出显示的优化管道(Optimization Pipeline)所示;此外,它还提取高频内容信息,以更好地识别文档,如图2中以蓝色突出显示的网络管道(Network Pipeline)右端所示。
FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记_第2张图片

3.1 粗粒度到细粒度的转换

FDRNet: Fourier Document Restoration for Robust Document Dewarping and Recognition学习笔记_第3张图片
粗粒度和细粒度两个变换器共享同一架构空间变换器网络(STN)[14],将空间变换建模为可学习网络。

  • 粗粒度变换器学习在输入图像中定位文档区域,并对定位的文档区域进行粗去毛刺;
  • 细粒度变换器从粗粒度变换器中提取去毛刺的文档图像,并进一步改进去毛刺。

采用薄板样条[4](TPS)作为文档去毛刺的空间变换。

  • TPS变换由两组控制点确定,在一对扭曲和平面文档图像之间具有一一对应关系,它为每个控制点计算空间变形函数以预测几何变形。
  • FDRNet将控制点定义为网状栅格,网络学习预测输入图像中文档区域的网状栅格(即图2中预测网格中的蓝点)。
  • 使用预测网格,TPS将其转换为规则网格(即图2中粗去毛刺和精去毛刺中的蓝点),以实现文档去毛刺。
  • 网格可以有不同的大小,我们的研究表明,9×9网格(有81个控制点)足以进行文件去毛刺。

3.2 傅里叶转换

3.3 网络训练

参考文献

[1] 论文:Fourier Document Restoration for Robust Document Dewarping and Recognition
[2] 数据集:https://sgvilab.github.io/event/warpdoc/

你可能感兴趣的:(玉米树,图像处理,人工智能,深度学习)