表格无处不在,从科学期刊、论文、网站和报纸,到我们在超市购买的物品。因此,检测它们对于自动理解文档内容至关重要。由于深度学习网络的快速发展,表格检测的性能显著提高。本次总结的目的是深入了解表格检测领域的主要发展,深入了解不同的方法,并提供不同方法的系统分类。此外,我们还分析了该领域的经典应用和新应用。最后,对现有模型的数据集和源代码进行了组织,为读者提供了关于这一大量文献的指南。最后,我们回顾了利用各种对象检测和表结构识别方法来创建有效和高效系统的体系结构,以及一系列发展趋势,以跟上最先进的算法和未来的研究。我们还建立了一个公共GitHub存储库,我们将在其中更新最新的出版物、开放数据和源代码。代码库地址
教科书、列表、公式、图表、表格和其他元素在文档中很常见。特别是,大多数论文都包含几种表格。表格作为论文的重要组成部分,可以用更少的文字传达更多信息,让读者快速探索、比较和理解内容。表检测和结构识别是图像分析中的关键任务,因为它们允许以数字格式从表中检索重要信息。由于文档的类型和文档布局的多样性,检测和提取图像或文档表非常困难。研究人员以前曾使用启发式技术来识别表或将页面分成多个部分进行表提取。很少有研究关注表检测之后文档中的表结构识别。
文档的布局和内容分析用于检测表。表格有多种布局和格式。因此,创建用于表检测和表结构识别的通用方法非常困难。表格检测被认为是科学界的一个难题。在这一领域进行了大量研究,尽管大多数研究都有局限性。现有的商业和开源文档分析算法,如Teseract,无法从文档图像中完全检测表区域。[1].
机器学习和深度学习已被证明在计算机视觉研究中非常有效。在图像分类、物体检测、物体位置估计、学习等计算机视觉任务中,深度卷积神经网络(前馈人工神经系统的类型)的表现优于其他学习模型。卷积神经网络(CNN)在对象识别中的有效性基于其学习大量中级视觉属性的能力,而不是在图像分类的特定方法中经常使用的手工制作的低级表示。对象由其主要特征定义,包括形状、大小、颜色、纹理和其他特征。为了识别这样的物品,图片必须清楚地显示物体的存在,而且还必须显示其位置[2]。
因此,对象检测可以被描述为定位照片中真实世界目标的方法。检测与分类密切相关,因为它包括确定图像中某个项目的存在和位置。图片中可以识别的项目很多,包括汽车、建筑物、桌子、人脸等。深度学习方法,如深度神经网络、基于区域的卷积神经网络和深度卷积神经网络,可以提高对象识别精度和效率。
近年来,已经使用了各种显著和创造性的策略来提高深度学习模型检测精度,并解决在深度学习对象识别模型的训练和测试过程中遇到的复杂挑战。修改深度神经网络的激活功能[3]、迁移学习[4]、5]、癌症诊断、检测[6]、7、8]和分类[9]、医学问题解答[10、11],以及软件工程应用,如优化软件项目的时间和进度[12、13],物联网中的入侵检测[14,15]和各种语言的手写识别[16,17,18,19]。,并且在所提出的深度学习模型的激活函数和优化系统的组合选择中的创造性方式是这些独特的策略之一。在促进表检测算法快速发展的各种变量和举措中,深度卷积神经网络和GPU计算能力的发展值得称赞。深度学习模型现在广泛应用于计算机视觉的许多方面,包括通用表格检测[20,21,22,23,24]。另一方面,表结构受到的关注要少得多,表结构通常以表的行和列为特征[25,26,27]。
图1显示了深度学习技术和用于理解表格的传统方法的基本流程比较。传统的表识别技术要么不能很好地处理各种数据集,要么需要PDF文件中的额外元数据。在大多数早期方法中也使用了广泛的前处理和后处理,以提高传统表格识别系统的效率。然而,深度学习算法使用神经网络检索特征,主要是卷积神经网络[21],而不是手动创建的特征。然后,对象检测或分割网络尝试区分文档图像中进一步分解和识别的表格部分。
本调查深入研究了基于深度学习的表检测和分类架构。虽然目前的评估是全面的[28,29],但大多数评估没有涉及该领域的最新进展。
本文的主要贡献如下:
1。我们简要介绍了表数据集的历史以及它们之间的区别。
2.本文研究了重要的表检测方法,以及这些方法随时间的演变。
3.对表结构识别进行了深入分析。
4.我们提供了表分类方法,并对这些方法进行了比较。没有一项研究对我们可以确定的这些问题进行了概括。
5.在表检测的一些数据集上的实验结果
图1:传统和深度学习方法的表分析管道比较。虽然卷积网络用于深度学习技术,但经典方法主要通过图像处理技术进行特征提取。与传统方法相比,用于解释表格的深度学习方法更具普遍性且独立于数据。
多年来,表格分析的问题已被广泛承认。图2显示了过去48年中出版物的上升趋势,该分析值来自Scopus。已经发表了显著的表检测和表分类调查。这些调查中有关于桌子检测主题的杰出研究[28,29]。最近很少有调查专门针对表检测和分类这一主题。B、 科亚斯农[30]发表了另一篇关于表格识别和表格的评论。这篇综述简要介绍了当时最新的技术,根据我们的了解,S.Khusro[31]于次年发布了关于PDF文档中表格识别和提取的最新综述。深度学习使计算模型能够学习极其复杂、微妙和抽象的表示,从而在视觉识别、对象检测、语音识别、自然语言处理和医学图像分析等一系列问题上取得重大进展。相反,尽管已经提出了用于表识别的各种基于深度学习的算法,但我们不知道最近的任何彻底调查。为了在表检测方面取得进一步进展,需要对先前的工作进行详细的回顾和解释,特别是对于新进入该主题的研究人员。
图2:显示了表格分析领域的扩展趋势。这些信息是通过查看2015年至2022年的表检测和表识别年度报告收集的,该分析值来自Scopus。
基于深度学习的表检测的研究数量惊人。它们是如此之多,以至于对现有技术的任何完整检查都超出了任何可接受长度的论文的范围。因此,必须建立评选标准,我们将注意力集中在最佳期刊和会议文章上。
本文的主要目标是基于流行的数据集、评估度量、上下文建模和检测建议方法,全面综述基于深度学习的表检测和分类技术,以及一些分类法、高级视角和组织。我们的目标是进行分类,使读者更容易理解各种策略的异同。建议的分类法为研究人员提供了一个框架,以了解现有的研究并突出未来开放的研究问题。
开发满足高质量/准确度和高效率这两个竞争标准的通用算法是目标检测的理想选择。高质量检测必须准确地定位和识别图像或视频帧中的对象,允许区分现实世界中的广泛对象类别,并定位和识别来自同一类别的对象实例,尽管类内外观存在差异,以实现高鲁棒性。高效率需要实时完成整个检测过程,同时保持合理的内存和存储要求。
尽管经过训练的分割模型可以准确定位表,但传统的机器学习技术在表的结构识别方面存在缺陷。一个主要问题是在这么小的空间里有很多东西。因此,网络错过了可能有助于检测和识别表格的关键视觉线索[20]。当物理规则可用时,计算水平线和垂直线的交点,以识别表格结构。霍夫变换是计算机视觉中的一种重要方法,有助于检测文档扫描中的线条[32]。利用线的长度、旋转和平均暗度来过滤假阳性6,并确定该线实际上是否为表线[33]。过滤霍夫线后,计算剩余水平线和垂直线的交点。表格单元格是基于交叉创建的。
从图像分类和视频处理到语音识别和自然语言理解,深度学习已经改变了广泛的机器学习活动。鉴于惊人的变化率[34],目前有大量关于深度学习[35、36、37、38、39、40、41、42、43、44、45]、医学图像分析应用[38]、自然语言处理[42]和语音识别系统[44]的调查研究。卷积神经网络(CNN)是最常见的深度学习模型,可以使用实际信号的基本特性:平移不变性、局部连接和组成层次。典型的CNN包括分层结构和用于学习不同抽象级别的数据表示的多个层[36]。我们从卷积开始
在来自前一层 l − 1 l-1 l−1 的特征图和使用2D卷积核(或滤波器或权重) w w w l 卷积的输入特征图 x x xl−1 之间。这种卷积被视为一系列受到非线性过程 σ σ σ 影响的层,因此
具有偏置项 b b blj 和 N l−1输入特征映射xl−1i与匹配核wli,j。对于每个元素,元素非线性函数 σ ( . ) σ(.) σ(.)通常是每个元素的校正线性单元(ReLU),
最后,合并是对特征图进行下采样和上采样的过程。深度卷积神经网络(DCNN)是具有大量层的神经网络,通常称为“深度”网络。CNN最基本的层由一系列特征图组成,每个特征图都作为神经元运行。一组权重wi,j将卷积层中的每个神经元连接到前一层的特征图(本质上是一组2D滤波器)。卷积和池化层构成了早期的CNN层,而随后的层通常是完全连接的。输入图像从前一层到后一层被反复卷积,感受野或支持区域随着每一层而增长。通常,第一个CNN层提取低级特征(例如边缘),而随后的层提取更加复杂的通用特征。[35, 46, 47, 36].
DCNN有一个分层结构,允许他们学习多个抽象级别的数据表示,学习高度复杂的功能的能力,以及使用最少的领域专业知识直接和自动从数据中学习特征表示的能力。具有极高计算能力的大尺寸标记数据集和GPU的可用性使DCNN如此成功。
尽管取得了巨大成就,但仍有公认的缺陷。迫切需要标记的训练数据和昂贵的计算资源,选择合适的学习参数和网络设计仍然需要大量的专业知识和经验。经过训练的网络很难理解,对退化缺乏抵抗力,许多DCNN已被证明容易受到攻击[37],所有这些都限制了其在现实应用中的适用性。
本节将介绍可用的数据集,这些数据集最常用于表检测、表结构识别和分类任务。
表1:该表说明了表检测中一些著名数据集之间的定量比较。
表检测器使用多个标准来测量检测器的性能,即每秒帧数(FPS)、精度和召回率。然而,平均精度(mAP)是最常用的评估指标。精度是从联合上的交集(IoU)得出的,这是地面真实值和预测边界框之间的重叠面积和联合面积的比率。设置阈值以确定检测是否正确。如果IoU大于阈值,则将其分类为真阳性,而低于该阈值的IoU分类为假阳性。如果模型未能检测到地面真相中存在的物体,则称为假阴性。精确性测量正确预测的百分比,而回忆性测量相对于地面真相的正确预测。
根据上述公式,分别计算每个类别的平均精度。为了比较检测器之间的性能,使用所有类别的平均精度的平均值,称为平均精度(mAP),作为最终评估的单一度量。
IOU是一种度量标准,用于发现地面真相标注和预测边界框之间的差异。该度量用于大多数最先进的对象检测算法。在对象检测中,该模型预测每个对象的多个边界框,并基于每个边界框的置信度分数,根据其阈值去除不必要的框。我们需要根据我们的要求声明阈值。
表检测已经研究了很长一段时间。研究人员使用了不同的方法,可分为以下几类:
1。基于启发式的方法
2。基于机器学习的方法
3。基于深度学习的方法
主要基于启发式的方法主要在1990年代、2000年代和2010年初使用。他们使用不同的视觉线索,如线条、关键字、空间特征等来检测表格。
P.Pyreddy等人[69]提出了一种使用字符对齐、孔洞和间隙检测表格的方法。Wang等人[70]。使用统计方法根据连续单词之间的距离检测表行。采用分组的水平连续单词和垂直相邻行来提出表实体候选。Jahan等人[71]提出了一种方法,该方法使用字间距和行高度的局部阈值来检测表区域。
Itonori[72]提出了一种基于规则的方法,该方法导致文本块排列和规则线位置,以在文档中本地化表。Chandran和Kasturi[73]开发了另一种基于垂直和水平线的表格检测方法。Wonkyo Seo等人[56]使用交叉点(水平线和垂直线的交叉点)检测和进一步处理。
Hassan等人[74]通过分析文本块的空间特征来定位和分割表格。Ruffolo等人[75]介绍了PDF-TREX,这是一种用于单列PDF文档中表格识别的启发式自下而上方法。它使用页面元素的空间特征将它们对齐并分组为段落和表格。Nurminen[76]提出了一组启发式方法来定位具有共同对齐的后续文本框,并为其分配成为表格的概率。
Fang等人[77]使用表标题作为检测表区域并分解其元素的起点。Harit等人[78]提出了一种基于唯一表格起始和结尾模式识别的表格检测技术。Tupaj等人[79]提出了一种基于OCR的表格检测技术。
系统根据关键字搜索类似表格的行序列。上述方法在具有统一布局的文档上相对有效。然而,启发式规则需要调整到更广泛的表格中,并不真正适用于通用解决方案。因此,机器学习方法开始被用于解决表检测问题。
基于机器学习的方法在2000年代和2010年代很常见。
Kieniger等人[80]通过聚类词段应用了一种无监督学习方法。Cesarini等人[81]使用了一种改进的XY树监督学习方法。Fan等人[82]使用有监督和无监督方法来检测PDF文档中的表。Wang和Hu[83]将决策树和SVM分类器应用于布局、内容类型和词组特征。T、 Kasar等人[84]使用连接检测,然后将信息传递给SVM分类器。Silva等人[85]将联合概率分布应用于视觉页面元素的连续观察(隐马尔可夫模型),以将潜在的表行合并到表中。Klampfl等人
[86]比较了数字科学文章中的两种无监督表格识别方法。Docstrum算法[87]将KNN应用于将结构聚合成线,然后使用线之间的垂直距离和角度将它们组合成文本块。必须注意的是,该算法是1993年设计的27种,早于本节中提到的其他方法。
F Shafait[88]提出了一种用于表识别的有用方法,该方法在具有一系列布局的文档上表现良好,包括商业报告、新闻报道和杂志页面。Teseract OCR引擎提供了算法的开源实现。
随着神经网络获得兴趣,研究人员开始将其应用于文档布局分析任务。最初,它们用于更简单的任务,如表检测。后来,随着更复杂的体系结构的开发,更多的工作被投入到表列和整体结构识别中。
Hao等人[24]使用CNN来检测某个区域提案是否为表格。Azka Gilani等人[22]提出了一种基于更快R-CNN的模型,以弥补Hao等人[24]和其他现有方法的局限性。
Sebastian Schreiber等人[20]是第一个使用更快的RCNN执行表检测和结构识别的人。他等人[89]将FCN用于语义页面分割。S、 Arif等人[90]试图通过使用文本的语义颜色编码来提高Faster R-CNN的准确性。Reza等人[91]将基于GAN的架构组合用于表检测。
Agarwal等人[92]使用具有双主干的Mask R-CNN的多级扩展来检测表格。
最近,基于 t r a n s f o r m e r transformer transformer 的模型被应用于文档布局分析,Smock、Brandon等人[63]将Carion等人[93]DEtection transformer框架(变压器编码器-解码器架构)应用于其表数据集,用于表检测和结构识别任务。Xu等人[94]提出了一种自监督预训练文档图像变换器模型,该模型使用大规模未标记文本图像进行文档分析,包括表检测。
在本节中,我们将检查用于文档图像表检测的深度学习方法。为了方便读者,我们将这些方法分为几个深入学习的想法。表2列出了所有基于对象识别的表检测策略。它还讨论了这些方法中使用的各种基于深度学习的方法。
吉拉尼[22]展示了如何使用深度学习识别表格。文档图片最初采用建议的技术进行预处理。
然后将这些照片发送到区域建议网络中进行表检测,然后是完全连接的神经网络。建议的该方法可以非常精确地处理各种文档图片,包括文档、研究论文和期刊,以及各种布局。
D Prasad[95]提出了一种用于解释文档图片中的表格数据的自动表格检测方法,这主要需要解决两个问题:表格检测和表格结构识别。使用单个卷积神经网络(CNN)模型,为处理表检测和结构识别挑战提供增强的基于深度学习的端到端解决方案。CascadeTabNet是一个基于级联掩码区域的CNN高分辨率网络(级联掩码R-CNN HRNet)模型,它同时识别表区域并从这些表中识别结构体细胞。
SS Paliwal[96]提出了TableNet,它是一种用于表检测和结构识别的新的端到端深度学习模型。为了划分表和列区域,该模型使用表检测和表结构识别这两个目标之间的相关性。然后,从发现的表格子区域中,执行基于语义的行提取。
Y Huang[97]描述了一种基于YOLO原理的表检测算法。作者对YOLOv3进行了各种自适应改进,包括锚点优化技术和两种后处理方法,以解决文档对象和真实对象之间的显著差异。还使用k-means聚类进行锚点优化,以创建比自然对象更适合表的锚点,从而使我们的模型更容易找到表的准确位置。在后处理过程中,将从投影结果中删除额外的空白区域和有噪声的页面对象。
L Hao[24]提供了一种检测PDF文档中表格的新方法,该方法基于卷积神经网络,这是最广泛使用的深度学习模型之一。所建议的方法首先使用一些模糊约束选择一些类似表的区域,然后构建和细化卷积网络,以识别所选区域是否为表。
此外,卷积网络立即提取并使用表格部分的视觉方面,同时还考虑原始PDF文档中包含的非视觉信息,以帮助更好的检测结果。
SA Siddiqui[98]为检测文档中的表提供了一种新的策略。这里给出的方法利用了数据识别任何排列的表的潜力。然而,给定的方法直接起作用在照片上,使其普遍适用于任何格式。所提出的方法使用了可变形CNN和更快速的R-CNN/FPN的独特组合。
由于表格可能以不同的大小和变换出现,传统的CNN有一个固定的接受域,这使得表格识别变得困难(定向)。可变形卷积将其接收场建立在输入上,允许其对其进行整形以匹配输入。由于接受域的这种定制,网络可以容纳任何布局的表格。
N Sun[99]提出了一种用于更快基于R-CNN的表检测的角点查找方法。Faster R-CNN网络首先用于实现粗略的表格识别和角落定位。然后,使用坐标匹配对属于同一表的角进行分组。同时过滤不可靠的边缘。最后,匹配的角组对表格边框进行微调和调整。在像素级,所建议的技术提高了表边界查找的精度。
I Kavasidis[100]提出了一种使用深度神经网络、图形模型和显著性思想的组合来检测表格和图表的方法。M Hole´cek[101]提出了在票据等结构化文档中利用图卷积进行表理解的概念,扩展了图神经网络的适用性。计划研究中也使用了PDF文档。
本研究将行项目表检测与信息提取相结合,以解决表检测问题。任何单词都可以快速识别为行项目或不使用行项目技术。根据单词分类,表格区域可能很容易识别,因为与账单上的其他文本部分相比,表格行能够非常有效地区分它们。
ÁCasado Garc´ıa[102]使用对象检测技术,作者表明,在进行彻底检查后,从更近的域进行微调可以提高表检测的性能。作者将Mask R-CNN、YOLO、SSD和Retina Net与对象检测算法结合使用。本研究选择了两个基本数据集:TableBank和PascalVOC。
X Zheng[103]提供了全局表提取器(GTE),这是一种用于联合检测表和识别单元结构的方法,可以在任何对象检测模型之上实现。为了借助于单元格放置预测来训练他们的表格网络,作者开发了GTE表格,该表格基于表格固有的单元格限制限制引入了新的惩罚。一种称为GTE单元的新型分层单元识别网络利用了表格样式。此外,为了快速且廉价地作者建立了一个规模庞大的训练和测试数据语料库,开发了一种自动对已有文本中的表和单元格结构进行分类的方法。
Y Li[104]提供了一种新的网络,用于生成表格文本的布局元素,并增强较少规则的表格识别的性能。生成对抗网络(GAN)和该特征生成器模型是可比较的。作者要求特征生成器模型为严格管理和松散管理的表提取可比较的特征。
DD Nguyen[105]介绍了TableSegNet,这是一种具有紧凑设计的完全卷积网络,可同时分离和检测表。TableSegNet使用较浅的路径以高分辨率发现表位置,使用较深的路径以低分辨率检测表区域,将找到的区域拆分为单独的表。TableSegNet在整个特征提取过程中使用了具有广泛内核大小的卷积块,并在主输出中使用了额外的表边界类,以提高检测和分离能力。
D Zhang[106]提出了一种基于YOLO表的表检测方法。
为了增强网络学习表格空间排列方面的能力,作者将对合纳入网络的核心,并创建了一个简单的特征金字塔网络,以提高模型效率。
这项研究还提出了一种基于表格的增强技术。
为了识别文档图像中的表结构,本部分回顾了深度学习方法。为了读者的利益,我们将这些方法划分为离散的深度学习原则。表3、4列出了基于对象检测识别表结构的所有方法及其优缺点。它还讨论了这些方法中使用的各种基于深度学习的方法。
A Zucker[107]提出了CluSTi,一种用于识别发票扫描图像中的表结构的聚类方法,作为一种有效的方法。CluSTi做出了三项贡献。首先,它使用聚类方法来消除表格图片中的高噪声。其次,它使用最先进的文本识别来提取所有文本框。最后,CluSTi使用具有最佳参数的水平和垂直聚类技术将文本框组织成正确的行和列。Z Zhang[108]提出的拆分、嵌入和合并(SEM)是一种准确的表结构识别器。M Namysl[109]在本研究中提出了一种通用的模块化表提取方法。
表2:几种基于深度学习的表检测方法的优缺点比较
E Koci[110]提供了一种新的方法,用于在确定每个单元格的布局角色后识别电子表格中的表格并构建布局区域。使用图形模型,它们表达了这些区域之间的空间相互关系。在此基础上,他们提出了移除和征服(RAC),这是一种基于一组精心选择的标准的表识别算法。
利用可变形卷积网络的潜力,SA Siddiqui[51]提出了一种分析文档图像中表格模式的独特方法。P Riba[54]在本文中提出了一种基于图形的技术,用于识别文档图片中的表格。还使用位置、上下文和内容类型,而不是原始内容(识别文本),因此这只是一种结构感知技术,不依赖于语言或文本阅读质量。E Koci[111]使用基于遗传的技术进行图形划分,以识别与表中表匹配的图形部分。
SA Siddiqui[112]将结构识别问题描述为语义分割问题。为了分割行和列,作者采用了完全卷积网络。引入了预测平铺的方法,该方法降低了表结构识别的复杂性,假设表结构中的一致性。作者从ImageNet中导入了预训练的模型,并使用了FCN编码器和解码器的结构模型。当给定图像时,模型创建与原始输入图片大小相同的特征。
SA Khan[113]在这项工作中提出了一种基于深度学习的鲁棒解决方案,用于从文档图片中的已识别表中提取行和列。在将表格图片发送到双向递归神经网络之前,使用门控递归单元(GRU)和所建议的解决方案中具有softmax激活的完全连接层对表格图片进行预处理。
SF Rashid[114]为不同文档图片中的表内容识别提供了一种新的基于学习的方法。SR Qasim[115]提出了一种基于图网络的表识别架构,作为典型神经网络的一种替代方案。S Raja[116]描述了一种用于识别表结构的方法,该方法结合了细胞检测和交互模块来定位细胞,并根据行和列预测它们与其他检测到的细胞的关系。此外,对作为额外差分分量的单元识别的损失函数添加结构限制。Y Deng[52]研究了端到端表识别的现有问题,他还强调了在这一领域需要更大的数据集。
Y Zou[117]的另一项研究呼吁开发一种使用全卷积网络的基于图像的表结构识别技术。所示的工作划分了表的行、列和单元格。所有表组件的估计边界都使用连接组件分析来增强。根据行和列分隔符的位置,然后为每个单元格分配行和列编号。此外,还使用特殊算法来优化蜂窝边界。
为了识别表中的行和列,KAHashmi[118]提出了一种指导的表结构识别技术。根据这项研究,通过使用锚点优化方法,可以更好地定位行和列。在他们提出的工作中,使用掩码R-CNN和优化的锚来检测行和列的边界。
对表格结构进行分段的另一项工作是W Xue[119]的ReS2TIM论文,该论文描述了从表格中重建句法结构。回归每个单元格的坐标是该模型的主要目标。
最初使用新技术构建了一个可以识别表中每个单元的邻居的网络。在研究中,给出了一个基于距离的加权系统,该系统将帮助网络克服与训练相关的班级失衡问题。
C Tensmeyer[120]提出了SPLERGE(拆分和合并),这是另一种使用扩张卷积的方法。他们的策略需要使用两个不同的深度学习模型,第一个模型建立表格的网格状布局,第二个模型确定是否可以在多行或多列上进一步跨越单元格。
Nassar[68]为表结构提供了新的识别模型。后者在两个重要方面增强了PubTabNet端到端深度学习模型的最新编码器-双解码器。首先,作者提供了一种全新的表单元对象检测解码器。这使得他们可以轻松访问编程PDF中表格单元格的内容,而无需训练任何专有的OCR解码器。作者声称,这种体系结构的改进使表内容提取更加精确,并使他们能够使用非英语表。第二,基于变压器的解码器取代LSTM解码器。
S Raja[121]提出了一种新的基于对象检测的深度模型,该模型专为快速优化而设计,并捕捉表格内单元格的自然排列。即使使用精确的单元格检测,密集表识别仍然可能存在问题,因为多行/列跨越单元格使得难以捕获长距离的行/列关系。因此,作者还试图通过确定唯一的基于直线图的公式来增强结构识别。作者从语义的角度强调了表中空单元格的相关性。作者建议对一个很好的评估标准进行修改,以考虑这些细胞。为了激发对这个问题的新观点,然后提供一个中等规模的评估数据集,其中包含根据人类认知建模的注释。
X Shen[122]提出了两个模块,称为“汇总行”(RA)和聚合列(CA)。首先,为了生成行和列的粗略预测并解决高误差容限问题,应用了特征切片和平铺。其次,计算通道的注意力图以进一步获得行和列信息。为了完成行分割和列分割,作者使用RA和CA构建了一个称为行和列聚合网络(RCANet)的语义分割网络。
C Ma[123]提出了RobusTabNet,这是一种识别表格结构并从各种文档图片中检测其边界的新方法。作者建议使用CornerNet作为一个新的区域建议网络,为Faster-R-CNN生成更高质量的表格建议,这大大提高了Faster R-CNN用于表格识别的定位精度。通过仅利用最小的ResNet-18骨干网络。
此外,作者还提出了一种新的拆分和合并方法来识别表结构。在该方法中,使用新的空间CNN分离线预测模块将每个检测到的表划分为网格单元,然后使用网格CNN单元合并模块来恢复生成单元。他们的表格结构识别器可以准确地识别具有显著空白区域的表格和几何变形(甚至弯曲)的表格,因为空间CNN模块可以在整个表格图片中有效地传输上下文信息。B Xiao[124]假设一个复杂的表结构可以用一个图来表示,其中顶点和边代表单个单元格及其之间的连接。
然后,作者设计了一个条件注意网络,并将表结构识别问题描述为细胞关联分类问题(CATT Net)。
Jain[125]建议训练一个深度网络,以识别表格图片中包含的各种单词对之间的空间关系,从而破译表格结构。作者通过单词深度空间关联提供了一个名为TSR-DSAW:TSR的端到端管道,该管道以HTML等结构化格式生成表格图片的数字表示。建议的技术首先利用文本检测网络(如CRAFT)来识别输入表格图片中的每个单词。接下来,使用动态编程创建单词配对。这些单词对在每个单独的图像中加下划线,然后提供给DenseNet-121分类器,该分类器已被训练以识别空间相关性,如同一行、同一列、同一单元格或无。最后,作者对分类器输出应用后处理,以生成HTML表结构。
H Li[126]将该问题表述为细胞关系提取挑战,并提供T2,一种成功地从数字保存的文本中提取表结构的尖端两阶段方法。T2提供了一个广泛的概念,称为一个基本连接,它准确地表示细胞之间的直接关系。为了找到复杂的表结构,它还构建了一个对齐图并使用消息传递网络。
在文档分析领域中,表分析是一个重要而广泛研究的问题。由于深度学习思想的使用,解释表格的挑战已经发生了巨大的变化,并制定了新的标准。
正如我们在论文引言部分的主要贡献段落中所说的那样,我们已经讨论了目前已经取得进展的几个进程通过实施深度学习概念从文档图片中的表中提取信息的过程。我们讨论了使用深度学习来检测、识别和分类表的方法。我们还展示了分别用于检测和识别表的最知名和最不知名的技术。
正如我们在第7节所做的那样,所有可公开访问的数据集及其访问详细信息都已编译完毕。在众多数据集上,我们对已解决的方法进行了彻底的性能比较。在公众可以自由访问的知名数据集上,最先进的表检测算法产生了几乎完美的结果。一旦确定了表格区域,就要对表格进行结构分割,然后进行识别。
我们的结论是,这两个领域仍有发展机会。