论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》

摘要

表格识别是一项很有挑战的任务。以前的方法从不同粒度的元素(行/列,文本区域)开始处理问题,这从某种程度上有损启发式规则,忽略了空细胞分裂等问题。基于表结构特征,我们发现获取文本区域的对齐bounding box可以有效地保持不同单元格的整个相关范围。然而,由于视觉歧义,很难准确预测对齐的bounding box。

在这篇文章中,我们通过充分利用局部特征蕴含的文本信息和全局特征蕴含的单元格关系,来获得更可靠的对齐的bounding box。具体来说,我们提出了Local and Global Mask Alignment框架,该框架在局部和全局的特征图中都采用了soft pyramid mask机制。它允许预测的bounding box的边界,能够突破原有proposal的限制。pyramid mask re-scoring模块会融合局部和全局信息,并refine预测边界。最后,我们提出了一种稳健的表结构恢复pipeline,来获取最终的结构。可以有效地解决空单元定位和划分的问题。

实验结果表明我们提出的方法达到了sota。

引言

早期的表格识别依赖于网格边界的检测。但是,这些方法无法处理没有网格边界的表,比如三线表。尽管最近的工作试图预测行/列区域甚至不可见的网格线,但它们仅限于处理跨多个行/列的表。行/列拆分操作也可能切割包含多个行文本的单元格。

另一组方法自下而上的解决问题,首先检测文本块的位置,然后通过启发式规则或GNN恢复边界框的关系。但是,基于文本区域边界框设计的规则容易受到处理复杂匹配情况的影响。基于GNN的方法不仅会带来额外的网络成本,而且依赖于更昂贵的训练成本,比如数据量。而且这种方法很难处理空单元格的歧义性,如图所示。

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第1张图片

表格本身是一种人设计的基于规则的数据格式。在没有形变和旋转的情况下,如果我们能获得所有完美对其的单元区域,而不是文本区域,那么表格结构的推理将会是无损的,如图1(b)所示。然而,获得这些信息并不容易。一方面,文本区域的标注要比cell区域的标注更简单,另一方面,对齐框很难准确地学习,因为区域外围通常没有明显的边界纹理。多行/列单元格很容易与空单元格混淆,如图1(c)所示。网络通常会陷入 对齐的框不够大的情况,导致单元格错配。虽然有工作设计了一个对齐损失来辅助bounding box学习,它只考虑了box之间的相对关系,没有考虑box的绝对覆盖区域。

在本文中,我们的目标是训练网络来获得一个更可靠的bounding box区域,并解决空单元格生成和分区的问题。观察到人们在阅读时,会从局部文本区域和全局布局感知视觉信息,我们提出了一个统一的表结构识别框架,融合了局部和全局信息,叫做LGPMA(Local and Global Pyramid Mask Alignment)网络。具体来说,该模型同时学习基于局部Mask-RCNN的对齐的bounding box检测任务和全局分割任务。在这两个任务中,我们采用pyramid soft mask监督来帮助获得更准确的对齐边界框。在LGPMA中,局部分支(LPMA)通过可见纹理感知来获取更可靠的文本区域信息;全局分支(GPMA)能学习有关cell范围和分裂的空间信息。这两个分支通过联合学习帮助网络学习到更好的融合特征,并通过提出的掩码重新评分策略refine检测到的边界框。基于refine的结果,我们设计了一个鲁棒的直接的表结构恢复pipeline,能有效地定位空单元,并根据全局分割的指导精确合并它们。

本文的主要贡献有以下三点:1) 我们提出了一个LGPMA网络,该框架学习结合了局部和全局的信息的视觉特征。该模型还使用一种mask re-scoring策略,辅助获得更可靠的对齐单元格区域。2) 我们引入了一种表结构恢复pipeline,包括单元匹配,空单元搜索和孔单元合并。非空单元格和空单元格都能够有效定位和拆分。3) 大量试验表明,我们的方法取得了sota效果。

方法

概述

我们提出了LGPMA,其整体工作流程如图所示。

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第2张图片

该模型是基于现有的mask-rcnn构建。bounding box分支直接学习非空单元格对齐bounding box的检测任务;该网络基于ROI-Align操作提取的局部特征学习LPMA任务,基于全局特征图学习GPMA任务。

在LPMA中,除了学习文本区域mask的二进制分割任务外,该网络还在水平和垂直方向上使用pyramid soft mask监督进行训练。

在GPMA中,该网络为非空单元格的所有对齐bounding box学习全局金字塔mask;为了获得更多关于空单元格拆分的信息,网络还学习了同时考虑非空单元格和空单元格的全局二进制分割任务。

然后使用pyramid mask re-scoring 模块来refine预测的金字塔标签。通过平面聚类的过程可以得到准确的对齐边框。最后,集成了包含单元匹配,空单元搜索,空单元合并的表格结构恢复pipeline,最后得到表的结构。

对齐的bounding box检测

精确匹配文本区域的困难主要来自于文本区域和真实单元格区域之间覆盖范围的差距。为了行/列对齐,真实的单元格区域可能包含一些空白,特别是那种跨行跨列的表格。受到启发,有了文本区域和行/列坐标的注释,我们可以根据每行/列最大框的高/宽,来生成对齐的bounding box区域。对齐的边界框的区域大致等于真实单元格的区域。对于打印格式切没有视觉旋转和扭曲的表格图像,如果我们能够获得对齐的单元格区域并假设没有空单元格,则很容易可以根据水平或垂直方向上的坐标重叠信息来推断单元格关系。

我们使用mask-rcnn作为基础模型。在bounding box分支中,网络基于对齐的bounding box监督进行训练。然后对齐的bouding box学习并不容易,因为单元格很容易和空区域混淆。受到启发,我们发现使用soft-label 分割能够突破proposal bounding box的限制,能提供更精确的对齐bounding box。为了充分利用局部纹理和全局布局的视觉特征,我们建议同时学习这两个方面的pyramid mask对齐信息。

Local Pyramid Mask Alignment

在该分支中,模型同时学习二进制分割任务和pyramid mask回归任务,我们称作Local Pyramid Mask Alignment(LPMA);

二进制分割任务与原始模型相同,其中只有文本区域标记为1,其他区域标记为0.检测到的mask可以用于后续的文本识别任务。

对于pyramid mask 回归,我们在水平和垂直方向上用soft label来分配bounding box中的像素,如图所示。

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第3张图片

文本的中间点将具有最大回归的目标1.具体来说,我们假设对齐bounding box的形状是H*W。文本区域的左上角点和右下角点分别是[(x1,y1), (x2,y2)],其中,0<=x1 ,其中两个通道表示水平mask和垂直mask的目标图。对于每个像素(h,w),这两个目标可以建模为:

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第4张图片

这样,proposal区域的每个像素都参与到了对边界的预测。

Global Pyramid Mask Alignment

虽然LPMA允许预测的mask突破proposal的bounding box,但是局部区域的感受野是有限的。为了确定单元格的准确覆盖区域,全局特征也能提供一些视觉线索。受到启发,从全局视图中学习每个像素的偏移量,能给帮助定位更准确的边界。然而,单元级别的边界框可能在宽高比上有所不同,这导致了回归学习的不平衡问题。因此,我们使用pyramid labels作为每个像素的回归目标,称为Global Pyramid Mask Alignment;

和LPMA相似,GPMA同时学习两个任务:一个全局分割任务和一个全局pyramid mask回归任务。在全局分割任务中,我们直接分割所有对齐的单元格,包括非空单元格和空单元格。空单元格的gt是同一行/列中非空单元格的最大高度/宽度生成的。请注意,只有此任务会学习空单元格的分裂信息,因为空单元里面没有可见的文本纹理,可能在一定程度上会影响区域提议网络。我们希望模型根据人类的阅读习惯在全局边界分割中学习更合理的单元格分裂方式,这反映在手动标记的注释上。对于全局pyramid mask回归,由于只有文本区域可以提供不同的"山顶"信息,所有非空单员都被分配与LPMA相似的soft label。GPMA中所有对齐bounding box的ground truth都将缩小5%,以防止框重叠。

优化

该网络通过多个优化任务进行端到端的训练,全局优化可以写成:

其中,Lrpn, Lcls, Lbox和Lmask 是和mask-rcnn中相同的loss,分别表示网络中的rpn loss,bouding box分类损失,bounding box回归损失,和mask分割损失。Lseg是全局二值分割损失,用dice coefficient loss实现。LLPMA和LGPMA是pyramid label回归损失,由pixel-wise L1 loss实现。

推理

推理过程可以分两阶段描述。我们首先根据金字塔mask预测获得refine的对齐bounding box框,然后通过所提出的结构恢复pipeline来生成最终的表结构;

  • Refine对齐的bounding box

除了联合训练产生的好处之外,局部和全局特征在物体感知方面也表现出了各种优势。我们发现,局部特征能预测更可靠的文本区域mask,而全局预测能提供更可信的长距离视觉信息。为了结合两者的优点,我们提出了一种pyramid mask re-scoring策略。对于每个local pyramid mask预测的proposal region,我们加入了来自全局pyramid mask的信息来调整这些分数。我们使用了一些动态权重来平衡LPMA和GPMA的影响。

具体来说,对于预测的对齐Bouding box B={(x1,y1),(x2,y2)},我们首先获得文本区域mask的边界框,记为Bt={(x'1,y'1),(x'2,y'2)}。然后,我们可以在全局分割图中,找到匹配的连通区域P={p1,p2,...,pn},其中p=(x,y)表示像素。我们使用P0来表示重叠其余,然后点(x,y)\in P0的预测的金字塔Label可重新评分如下:

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第5张图片

接下来,对于每个proposal区域,水平和垂直pyramid mask标签被用来拟合三位空间中的两个平面。所有4个平面与0平面的交点线都是refine的边界。例如,为了refine bounding box的右边界,我们使用右边的像素,使用refine的 pyramid mask,用最小二乘法来拟合平面。

拟合的平面和z的交点就是右边界,其他三个边界可以用类似的方法算出来;

表结构恢复

基于refine的对齐bounding box,表结构恢复pipeline的目的是得到最终的表结构,包括:单元格匹配,空单元格搜索和空单元格合并这三个步骤。如图所示:

论文阅读《LGPMA:Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment》_第6张图片

  • 单元格匹配

在所有的对齐bouding box都是轴对齐的情况下,单元格匹配的过程非常简单但稳健。连接关系可以分为水平和垂直类型。主要思想是,如果两个对齐的bounding box在x/y坐标中有足够的重叠,我们可以将它们匹配在垂直/水平方向。

  • 空单元格搜索

在获得检测到的对齐的bounding box的关系后,我们把它作为图中的一个节点,然后它们之间的关系是一个边。同一行/列中的所有节点都构成一个完整的子图,我们采用最大Clique Search算法来寻找图中的所有最大团;以行搜索过程为例,属于同一行的每个节点都将在同一个团中。对于跨越多行的单元格,相应的节点将在不同的Clique中出现多次。在按平均y坐标对这些clique进行排序后,我们可以很容易地用其行索引标记每个节点。出现在多个clique中的节点将被标记为多个行索引,我们可以很容易地找到那些与空单元格相对应的空位置。

  • 空单元格合并

到目前为止,我们已经获得了最小级别的空单元格(占用1行1列),为了更可行地合并这些单元格,我们首先将具有对齐bounding box形状的单个空单元格指定为同一行/列的最大高度/宽度。由于全局分割学习任务学到的视觉信息,我门可以根据分割结果设计简单的合并策略。我们计算每两个相邻空单元的区间区域中预测为1的像素的比率,如图4中的红色区域。如果比率大于预设与之,我们将合并这两个单元格。我们可以看到,空区域的视觉歧义总是存在的,分割任务很难完美的学习,这就是为什么许多基于分割的方法难以处理复杂的后处理,如裂缝恢复和阈值设置。该方法直接采用全局分割提供的原始视觉线索,利用像素投票得到更可靠的结果。

结论

在本文中,我们提出了一个名为LGPMA的表结构识别新框架。我们采用了局部,全部的pyramid mask学习来融合局部文本和全局layout的信息。在推理阶段,通过mask re-scoring策略融合两个level的预测,是网络生成更可靠的对齐bounding box。最后,我们提出了一个统一的表结构恢复pipeline,来获得最终的结果,这也可以预测可行的空单元分区。实验结果表明,我们的方法在三个benchmark上取得了sota;

你可能感兴趣的:(论文阅读,论文阅读)