智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第1张图片

本文简要介绍ACM MM 2022录用论文“Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild”的主要工作。该论文针对现有的矫正方法只能在紧密裁剪的文档图像上获得较为理想的矫正效果这一不足,提出了一个新的矫正方法Marior。Marior采用渐进式的矫正方式来逐步提高矫正性能。具体而言:先利用分割结果进行环境边缘去除获得初步矫正结果,再通过预测偏移场迭代式地优化该初步结果。该方法在公开数据集上取得了SOTA的结果,矫正结果数据已开源。

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第2张图片

图1 现有矫正方法存在不足的情况. (a) 文档图像中存在大的环境边界 (b) 文档图像中不存在环境边界. 红色虚线高亮突出显示了部分形变的区域.

一、研究背景

对文档图像进行拍照经常受到透视形变和几何形变的干扰,这会影响文档图像的可读性和OCR系统的性能。现有基于深度学习的矫正方法主要关注于紧密裁剪的文档图像,而忽视存在大环境边界的文档图像和没有环境边界的文档图像(如图1所示),导致无法处理这类图像。最直接的方案是将所有这种情况包含在训练数据里面,但是发现效果并不理想。另一个解决方案是在矫正之前加入文档图像检测器将文档区域裁剪出来,但是对于没有环境边界的文档图像还是没办法解决。本文提出Marior用于解决该问题。其包含两个子模块:边界去除模块和迭代式内容矫正模块,边界去除模块先将所有情况的文档图像统一成去除环境边界的图像,内容矫正模块再专注于文档内容的矫正,以此将边界去除和内容矫正解耦开来,从而解决环境边界多样的情况,同时也能减轻网络的学习难度。

二、方法原理简述

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第3张图片

图2 整体流程图

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第4张图片

2.1 边界去除模块(MRM)

Mask预测:如图3所示。在DeepLabv3+的基础上增加一个边缘输出分支更好地指导网络学习。此外,考虑到文档图像的Mask有相对固定的模式(一个完整的连通域,接近四边形,相对直的边缘等),本文利用GAN将这种先验引入到模型当中。

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第5张图片

图3 (a)Mask预测网络的结构;(b)引入先验信息的效果,可以看到先验信息的引入可以获得更好的Mask.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第6张图片

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第7张图片

2.2 迭代式内容矫正模块(ICRM)

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第8张图片

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第9张图片

图5 (a)迭代式矫正模块(ICRM)的迭代方式;(b)迭代过程结束后的采样过程. 热力图的值表示偏移场的绝对值,即需要偏移的距离.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第10张图片

三、主要实验结果及可视化结果

表1 Mask预测模型有效性

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第11张图片

表2 内容加权的L2 Loss 的有效性

表3 在DocUNet数据集上的定量比较. 为公平比较,除Marior外,其余方法在Origin子集(没有经过紧密裁剪,仍含有大环境边界的文档图像)上测试时先加入了一个文档检测器进行裁剪.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第12张图片

表4 在OCR_REAL数据集上的定量比较.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第13张图片
智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第14张图片

图7 在DocUNet数据集上的定性比较.由上到下分别为 (a) Input, (b) DocProj, (c) DewarpNet, (d)Method of Xie et al., (e) Marior (ours), and (f) Scanned Ground Truth. 其中1-3列是紧密裁剪的文档图像,4-5列是含有大环境边界的文档图像(除Marior外其余方法都先才采用检测器进行裁剪),6-7列是不包含环境边界的文档图像.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第15张图片

图8 与PiecewiseUnwarp和DocTr在DocUNet数据集上的定性比较. (a)从左到右分别为Input, PiecewiseUnwarp, Marior (ours)和Scanned Ground Truth. (b)从左到右分别为Input, DocTr, Marior (Ours)和Scanned Ground Truth.

智能图像处理:基于边缘去除和迭代式内容矫正的复杂文档图像校正_第16张图片

图9 从左到右分别为(a) Input, (b) DocProj, (c) DocTr, and (d) Marior (Ours).

从表1和表2消融实验可以看出Mask预测网络以及内容加权L2 Loss的有效性。从表3和表4可以看出,随着矫正渐进式地进行,矫正性能不断提高,证明本文方法中边界去除初步矫正、迭代式内容矫正的有效性。从表3、图7和图8可以看出本文方法在紧密裁剪图像上与现有SOTA方法取得相当效果的同时,在其余环境边界情况下都能取得更好的效果(且不需要额外的检测器)。从表4和图9可以看到本文方法在取得好的矫正性能的同时在速度上也有优势。

四、总结及讨论

该论文创新性地提出了一种基于边缘去除和迭代式内容矫正的复杂文档图像校正,不仅在紧密裁剪文档图像上取得SOTA的矫正结果,还能处理含有大环境边界的文档图像以及不含环境边界的文档图像,填补了该领域在这方面的研究空白。

五、相关资源

  • Marior: Document Dewarping with Control Points Document Dewarping with Control Points论文地址: https://arxiv.org/abs/2207.11515

  • Marior: Document Dewarping with Control Points Document Dewarping with Control Points 项目地址: https://github.com/ZZZHANG-jx/Marior


原文作者:Jiaxin Zhang, Canjie Luo, Lianwen Jin, Fengjun Guo, Kai Ding

文章转载至: CSIG文档图像分析与识别专委会公众号

你可能感兴趣的:(【论文发布】,图像处理)