合合技术团队

常用的表格检测识别方法——表格结构识别方法 (下）

常用的表格检测识别方法——表格结构识别方法（下）

3.2表格结构识别方法

表格结构识别是表格区域检测之后的任务，其目标是识别出表格的布局结构、层次结构等，将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括：单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中，表格结构信息主要包括以下两类描述形式：1）单元格的列表（包含每个单元格的位置、单元格的行列信息、单元格的内容）；2）HTML代码或Latex代码（包含单元格的位置信息，有些也会包含单元格的内容）。

与表格区域检测任务类似，在早期的表格结构识别方法中，研究者们通常会根据数据集特点，设计启发式算法或者使用机器学习方法来完成表格结构识别任务。

Itonori（1993）根据表格中单元格的二维布局的规律性，使用连通体分析抽取其中的文本块，然后对每个文本块进行扩展对齐形成单元格，从而得到每个单元格的物理坐标和行列位置。Rahgozar等人（1994）则根据行列来进行表格结构的识别，其先识别出图片中的文本块，然后按照文本块的位置以及两个单元格中间的空白区域做行的聚类和列的聚类，之后通过行和列的交叉得到每个单元格的位置和表格的结构。

Hirayama等人（1995）则从表格线出发，通过平行、垂直等几何分析得到表格的行和列，并使用动态规划匹配的方法对各个内容块进行逻辑关系识别，来恢复表格的结构。Zuyev（1997）使用视觉特征进行表格的识别，使用行线和列线以及空白区域进行单元格分割。该算法已经应用到FineReader OCR产品之中。Kieninger等人（1998）提出了T-Recs（Table RECognition System）系统，以词语区域的框作为输入，并通过聚类和列分解等启发式方法，输出各个文本框对应的信息，恢复表格的结构。随后，其又在此基础上提出了T-Recs++系统（Kieninger等，2001），进一步提升了识别效果。Amano等人（2001）创新性地引入了文本的语义信息，首先将文档分解为一组框，并将它们半自动地分为四种类型:空白、插入、指示和解释。然后根据文档结构语法中定义的语义和几何知识，分析表示框与其关联条目之间的框关系。

Wang等人（2004）将表格结构定义为一棵树，提出了一种基于优化方法设计的表结构理解算法。该算法通过对训练集中的几何分布进行学习来优化参数，得到表格的结构。同样使用树结构定义表格结构的还有Ishitani等人（2005）,其使用了DOM（Document Object Model）树来表示表格，从表格的输入图像中提取单元格特征。然后对每个单元格进行分类，识别出不规则的表格，并对其进行修改以形成规则的单元格排布。Hassan（2007）、Shigarov（2016）等人则以PDF文档为表格识别的载体，从PDF文档中反解出表格视觉信息。后者还提出了一种可配置的启发式方法框架。

国内的表格结构识别研究起步较晚，因此传统的启发式方法和机器学习方法较少。

在早期，Liu等人（1995）提出了表格框线模板方法，使用表格的框架线构成框架模板，可以从拓扑上或几何上反映表格的结构。然后提出相应的项遍历算法来定位和标记表格中的项。之后Li等人（2012）使用OCR引擎抽取表单中的文本内容和文本位置，使用关键词来定位表头，然后将表头信息和表的投影信息结合起来，得到列分隔符和行分隔符来得到表格结构。

总体来说，表格结构识别的传统方法可以归纳为以下四种：基于行和列的分割与后处理，基于文本的检测、扩展与后处理，基于文本块的分类和后处理，以及几类方法的融合。

随着神经网络的兴起，研究人员开始将它们应用于文档布局分析任务中。后来，随着更复杂的架构的发展，更多的工作被放到表列和整体结构识别中。

A Zucker提出了一种有效的方法CluSTi，是一种用于识别发票扫描图像中的表格结构的聚类方法。CluSTi有三个贡献。首先，它使用了一种聚类方法来消除表格图片中的高噪声。其次，它使用最先进的文本识别技术来提取所有的文本框。最后，CluSTi使用具有最优参数的水平和垂直聚类技术将文本框组织成正确的行和列。Z Zhang提出的分割、嵌入和合并（SEM）是一个准确的表结构识别器。M Namysl提出了一种通用的、模块化的表提取方法。

E Koci 提出了一种新的方法来识别电子表格中的表格，并在确定每个单元格的布局角色后构建布局区域。他们使用图形模型表示这些区域之间的空间相互关系。在此基础上，他们提出了删除和填充算法（RAC），这是一种基于一组精心选择的标准的表识别算法。

SA Siddiqui利用可变形卷积网络的潜力,提出了一种独特的方法来分析文档图片中的表格模式。P Riba提出了一种基于图的识别文档图片中的表格结构的技术。该方法也使用位置、上下文和内容类型，而不是原始内容（可识别的文本），因此它只是一种结构性感知技术，不依赖于语言或文本阅读的质量。E Koci使用基于遗传的技术进行图划分，以识别与电子表中的表格匹配的图的部分。

SA Siddiqui将结构识别问题描述为语义分割问题。为了分割行和列，作者采用了完全卷积网络。假设表结构的一致性的情况下，该方法引入了预测拼接方法，降低了表格结构识别的复杂性。作者从ImageNet导入预先训练的模型，并使用FCN编码器和解码器的结构模型。当给定图像时，模型创建与原始输入图像大小相同的特征。

SA Khan提出了一个鲁棒的基于深度学习的解决方案，用于从文档图片中已识别的表格中提取行和列。表格图片经过预处理，然后使用门控递归单元（GRU）和具有softmax激活的全连接层发送到双向递归神经网络。SF Rashid提供了一种新的基于学习的方法来识别不同文档图片中的表格内容。SR Qasim提出了一种基于图网络的表识别架构，作为典型神经网络的替代方案。S Raja提出了一种识别表格结构的方法，该方法结合了单元格检测和交互模块来定位单元格，并根据行和列预测它们与其他检测到的单元格的关系。此外，增加了结构限制的损失功能的单元格识别作为额外的差异组件。Y Deng 测试了现有的端到端表识别的问题，他还强调了在这一领域需要一个更大的数据集。

Y Zou的另一项研究呼吁开发一种利用全卷积网络的基于图像的表格结构识别技术。所示的工作将表格的行、列和单元格划分。所有表格组件的估计边界都通过连接组件分析进行了增强。根据行和列分隔符的位置，然后为每个单元格分配行和列号。此外，还利用特殊的算法优化单元格边界。

为了识别表中的行和列，KA Hashmi [118]提出了一种表结构识别的引导技术。根据本研究，通过使用锚点优化方法，可以更好地实现行和列的定位。在他们提出的工作中，使用掩模R-CNN和优化的锚点来检测行和列的边界。

另一项分割表格结构的努力是由W Xue撰写的ReS2TIM论文，它提出了从表格中对句法结构的重建。回归每个单元格的坐标是这个模型的主要目标。最初使用该新技术构建了一个可以识别表格中每个单元格的邻居的网络。本研究给出了一个基于距离的加权系统，这将有助于网络克服与训练相关的类不平衡问题。

C Tensmeyer提出了SPLERGE（Split and Merge），另一种使用扩展卷积的方法。他们的策略需要使用两种不同的深度学习模型，第一个模型建立了表的网格状布局，第二个模型决定了是否可能在许多行或列上进行进一步的单元格跨度。

Nassar为表格结构提供了一个新的识别模型。在两个重要方面增强了PubTabNet端到端深度学习模型中最新的encoder-dual-decoder。首先，作者提供了一种全新的表格单元目标检测解码器。这使得它们可以轻松地访问编程pdf中的表格单元格的内容，而不必训练任何专有的OCR解码器。作者称，这种体系结构的改进使表格内容的提取更加精确，并使它们能够使用非英语表。第二，基于transformer的解码器取代了LSTM解码器。

S Raja提出了一种新的基于目标检测的深度模型，它被定制用于快速优化并捕获表格内单元格的自然对齐。即使使用精确的单元格检测，密集的表格识别也可能仍然存在问题，因为多行/列跨行单元格使得捕获远程行/列关系变得困难。因此，作者也寻求通过确定一个独特的直线的基于图的公式来增强结构识别。作者从语义的角度强调了表格中空单元格的相关性。作者建议修改一个很受欢迎的评估标准，以考虑到这些单元格。为了促进这个问题的新观点，然后提供一个中等大的进行了人类认知注释后的评估数据集。

X Shen提出了两个模块，分别称为行聚合（RA）和列聚合（CA）。首先，作者应用了特征切片和平铺，对行和列进行粗略的预测，并解决高容错性的问题。其次，计算信道的attention map，进一步获得行和列信息。为了完成行分割和列分割，作者利用RA和CA构建了一个语义分割网络，称为行和列聚合网络（RCANet）。

C Ma提出了一种识别表格的结构并从各种不同的文档图片中检测其边界的新方法。作者建议使用CornerNet作为一种新的区域候选网络，为fasterR-CNN生成更高质量的候选表格，这大大提高了更快的R-CNN对表格识别的定位精度。该方法只利用最小的ResNet-18骨干网络。此外，作者提出了一种全新的split-and-merge方法来识别表格结构。该方法利用一种新的spatial CNN分割线预测模块将每个检测表格划分为一个单元网格，然后使用一个GridCNN单元合并模块来恢复生成单元格。它们的表格结构识别器可以准确地识别具有显著空白区域的表格和几何变形（甚至是弯曲的）表格，因为spatial CNN模块可以有效地向整个表图片传输上下文信息。B Xiao假设一个复杂的表格结构可以用一个图来表示，其中顶点和边代表单个单元格以及它们之间的连接。然后，作者设计了一个conditional attention网络，并将表格结构识别问题描述为一个单元格关联分类问题（CATT-Net）。

Jain建议训练一个深度网络来识别表格图片中包含的各种字符对之间的空间关系，以破译表格的结构。作者提供了一个名为TSR-DSAW的端到端pipeline：TSR，通过深度空间的字符联系，它以像HTML这样的结构化格式生成表格图片的数字表示。该技术首先利用文本检测网络，如CRAFT，来识别输入表图片中的每个字符。接下来，使用动态规划，创建字符配对。这些字符配对在每个单独的图像中加下划线，然后交给DenseNet-121分类器，该分类器被训练来识别同行、同列、同单元格或无单元格等空间相关性。最后，作者将后处理应用于分类器的输出，以生成HTML表格结构。

H Li将这个问题表述为一个单元格关系提取的挑战，并提供了T2，一种前沿的两阶段方法，成功地从数字保存的文本中提取表格结构。T2提供了一个广泛的概念，即基本连接，准确地代表了单元格之间的直接关系。为了找到复杂的表格结构，它还构建了一个对齐图，并使用了一个消息传递网络。

实际场景应用中的表格结构识别，不仅要同时完成表格检测和结构识别，还要对每个单元格的文本进行识别和信息抽取，其流程比以上的研究领域都更为复杂。

3.2.1先进的表格结构识别模型

SPLERGE

ICDAR 2019的表格结构识别最佳论文《Deep Splitting and Merging for Table Structure Decomposition》提出了一对新的深度学习模型SPLERGE（分割和合并模型），它们给定一个输入图像，1)预测基本的表格网格模式，2)预测应该合并哪些网格元素来恢复跨越多行或列的单元格。该方法提出投影池作为分割模型的一个新组成部分，而网格池作为合并模型的一个新组成部分。虽然大多数完全卷积网络依赖于局部证据，但这些独特的池化区域允许模型利用全局表格结构。该方法在PDF文档的公共ICDAR 2013表格竞赛数据集上取得了最先进的性能。在作者用来训练模型的一个更大的私有数据集上，性能明显优于一个此前最先进的深度模型和一个主要的商业软件系统。

SPLERGE算法原理：

论文提出的表格结构提取方法是SPLERGE，它由两个深度学习模型组成，它们按顺序执行分割和合并操作（见图1）。分割模型接受一个裁剪良好的表格的输入图像，并以跨越整个图像的行和列分隔符的形式生成表格的网格结构。由于某些表包含生成单元格，因此作者将合并模型应用于拆分模型的网格输出，以将相邻的网格元素合并在一起，以恢复生成单元格。

分割模型（Split Model）

分割模型以任何维数H×W的图像作为输入，并产生两个一维输出信号：r∈[0,1]H和c∈[0,1]W。输出信号r和c表示像素中的每一行（列）是逻辑表行（列）分隔符区域的一部分的概率。

分割模型由3个子网络组成：

1）共享全卷积网络（SFCN）

2)行投影网络（RPN）

3)列投影网络（CPN）

SFCN计算RPN和CPN都在使用的局部图像特征。然后，RPN和CPN将这些局部特征进行进一步处理，以预测行和列分隔符（分别为r和c）。

SFCN由3个卷积层和7x7核的卷积层组成，最后一层进行膨胀系数为2的膨胀卷积。每一层产生18个特征映射，并使用ReLU激活函数。

膨胀卷积，比如池化，增加了网络的感受野，但与池化不同的是，它们保留了输入的空间分辨率。保留输入的空间分辨率在表结构提取中很重要，因为许多列和行分隔器只有几个像素宽。在[6]中，当调整初始输入的大小以使分隔符区域更大时，获得了更好的结果。有一个大的接受域也是至关重要的，因为确定行和列分隔符的位置可能需要全局上下文。例如，始终左对到相同位置的文本表示列分隔符。

SFCN的输出被作为RPN和CPN的输入。RPN的输出为r，即每一行像素是行分隔符区域的一部分的概率。同样，CPN的输出为c。因为RPN和CPN具有相同的结构，除了投影和池化操作是在像素的行还是列上，所以只集中讨论RPN。

尽管可以使用任意数量的块，但本方法中的RPN是由5个链接在一起的块组成的。根据经验，使用超过5个块并没有改善结果，同时作者使用了类似的过程来确定其他特定的架构选择。为了简化讨论和说明，作者在实验中使用了实际的超参数值，但也可以使用其他合理的值。在一个合理的范围内改变超参数似乎并没有对非正式实验的结果产生显著的影响。图2显示了由单个块所执行的操作。首先，输入（并行）输入3个卷积层，其膨胀因子为2/3/4，每个层产生6个特征映射。将每个展开卷积的输出连接起来，得到18个特征映射。使用多种扩张因子可以使RPN学习多尺度特征，并增加其感受野，同时仍然采集更多的局部信息。

接下来，RPN执行1x2最大池化（CPN执行2x1最大池化）。这减小了特征图的宽度，但保持了高度，因此输出信号r的大小为h。只有前三个块执行最大池，以确保宽度不会被下采样。

然后，RPN通过1x1的卷积操作，然后进行投影池化（图3），计算行特征（图2的顶部分支）。投影池化的灵感来自于经典布局分析中用于寻找空白间隙的投影轮廓操作。作者使用投影池化保持输入的空间大小（而不是像投影剖面图中那样折叠到一维），并简单地用它的行平均值替换输入中的每个值。具体来说，

其中i,j分别是在特征映射F中的行列索引，1≤j≤W。作者称\hat{F}

为F的行投影池化，并在每个特征映射上独立应用此操作，这是典型的池化操作。以这种方式池化允许信息在图像的整个宽度上传播，这可能超过1000个像素。这些行特征被连接到最大池化操作的输出中，这样每个像素都具有局部和行全局特征。CPN执行列投影池，类似地是，

图2的底部分支显示了块如何产生行预测，尽管不是每个块都这样做。一个1x1的卷积产生一个单一的输出映射，作者在其上执行投影池。然后作者应用一个sigmoid函数来产生概率。由于每一行像素都包含一个唯一的概率，作者可以取一个垂直切片得到一个一维概率信号 r^n，其中n表示块索引。为了使中间预测 r^n可用于第n + 1块，作者还将2D中的概率连接到块的输出中。

在作者的实现中，只有最后3个块产生输出，即r3、r4、r5。在训练过程中，作者对所有三个预测都应用了一个损失，但在训练后，作者只使用最后一个预测r5来进行推理。这种迭代预测过程允许模型做出预测，然后优化该预测。这些技术已经成功地应用于以往的自然场景中的结构化关键点检测任务。

1) 训练：

SFCN、RPN和CPN子网络在150 DPI的表格图像以典型的监督方式进行联合训练。作者假设图像被裁剪为只包含表单元格，并排除不在单元格区域内的表格标题、标题和脚注。

每个表都有注释的GT一维信号r^*和c^*。GT的设计是为了最大化分隔区域的大小，而不相交于任何非跨行单元的内容，如图4所示。这与传统的单元格分隔符的概念相反，对于许多表来说，单元格分隔器是只有几个像素厚的细线。预测小区域比预测大区域更困难，而且在无线表格的情况下，单元格分隔符的确切位置定义不明确。GT分隔符区域可能与跨越多行或列的单元格内容相交。分割模型的目标是恢复表格的基本网格，并且生成单元格由合并模型来处理。

损失函数是块预测和GT信号之间的平均元素二值化交叉熵：

为了防止过拟合，作者修改方程3，在\lvert r^*_i-r_i \lvert ＜0.1时，将损失收缩为0。总损失是单个输出损失的加权和：

其中，作者设置了\lambda _4= 0.25和\lambda _3
= 0.1。作者使用ADAM优化器随机初始化训练模型，进行大约10^6次权重更新。作者使用批处理大小为1，因为表格图像有不同的空间大小。作者使用0.00075的初始学习率，每进行80K更新就会衰减0.75倍。

2) 推理：

一旦预测了r，就需要推断行分隔符出现在哪个像素位置。为简单起见，讨论集中在r上，但同样的程序也适用于c，以获得列分隔符。为此，作者通过在r上执行图形切割分割，将图像分割为行和行分隔符区域。然后，作者选择与每个推断的分隔符区域的中点对应的行像素位置。

为了创建分割r的图，作者有H个节点排列在一个线性链中，其中每个节点都连接到它的两个邻居（除了两端的两个节点）。邻域边权值均匀设置为 \lambda _{gc}= 0.75。节点i连接到边权值为ri的源节点和边权值为1−r_i的接收节点。

合并模型(Merge Model)

合并模型使用输入图像和分割模型的输出来预测需要合并哪些网格元素，以恢复跨多行或列的单元格。输入张量是表格图像，输出行/列概率（r、c），推理的行/列区域和预测的网格结构的连接。预测的概率r和c通过叠加（即，[r，r，……，r])）转换为二维图像。推理出的行/列区域被呈现为二进制掩模（类似于图4中的红色区域）。预测的网格结构被渲染为一个二进制掩模，其中每行和列分隔符区域的中点被渲染为一条7像素宽的线。此外，网格结构还用于确定模型的池化区域。

如果网格结构由M行和N列组成，则模型输出两个矩阵：

1) D - probs。上下合并（大小为（M−1）× N）

2) R - probs。左右合并（大小为M ×（N−1））

D_{ij}是单元格（i，j）与单元格（i+1，j）合并的概率，R_{ij}是单元格（i，j）和（i，j+1）合并的概率。D的大小不是M×N，因为在任何一列中只有M−1对上下合并。

在作者的公式中，所有这些概率都是独立的，即单个网格单元可以在多个方向上合并。

合并模型的体系结构类似于分割模型。有一组4个共享的卷积层（没有膨胀），其中2x2的平均池化发生在第2层和第4层之后。然后，该模型有4个分支，每个分支预测一个单元格在特定方向上合并的M×N概率矩阵，即上、下、左或右。将这些矩阵称为u，d，l，r。而作者的独立性假设表明作者在方程式中将两个个体的概率相乘。在公式5,6中，当两个概率都接近于0时，这将引入优化困难，所以作者计算D和R为

直观地说，作者只预测，在单个分支输出之间存在一致性的情况下，应该将一对单元格合并。

每个分支由3个块组成，与图2中所示的分割模型块相似。不同之处在于，平行卷积层使用了1/2/3的膨胀因子，没有执行最大池化，投影池化被网格池化取代（图5）。在网格池化中，每个像素位置替换其网格元素内的所有像素的平均值：

其中，Ω（i，j）是与（i，j）共享相同网格元素的所有像素的坐标集。在网格池之后，同一网格元素内的所有像素共享相同的值，这允许信息在每个单元格内传播。随后的卷积允许信息在相邻的单元格之间传播。为了生成给定分支的u，d，l或r矩阵，作者将每个网格元素中预测的周围像素概率平均，并将它们排列在一个M×N矩阵中。与分割模型一样，合并模型也执行迭代输出优化，其中块2和块3产生输出预测。

1) 训练：

因为分裂和合并模型是打算按顺序使用的，所以作者使用分裂模型产生的网格结构来训练合并模型。构造GT D和R矩阵（见图6），作者

1) 在表格迭代所有生成的单元格

2) 确定网格元素相交的GT边界框

3) 对适当的方向，设置每个单元合并的概率为1

在Split模型中，每个输出的损失函数是平均（裁剪）元素级的二进制交叉熵(公式4)。总损失是

因为生成单元格只出现在用于训练模型的私有数据集中的15%的表格中，所以作者对这个数据集进行子采样，以便合并模型的50%的训练集至少有一对需要合并的单元格。训练超参数与分割模型相似。

以0.5的概率对D和R进行阈值计算，并合并指示的单元格。网络预测没有对生成的合并只产生矩形单元格的约束，因此在后处理中添加了额外的合并，以确保生成的表结构只有矩形单元格。例如，将3个网格元素合并在一起形成一个L形单元格，然后将与第4个元素合并，以创建一个跨越2行2列的单元格。

实验：

ICDAR2013:

实验在ICDAR 2013数据集上的结果来自于在私有数据集上训练的模型。作者试图验证改进的性能来自于一个更好的深度模型，而不仅仅是来自一个更大的训练集。作者通过重新实现DeepDeSRT模型，并在与本文提出的模型相同的数据上进行训练来做到这一点。

表一显示了模型在ICDAR 2013数据集（任务2）上的结果。带有-PDF后缀的方法表明使用了额外的PDF渲染的输入通道。该数据集的评估度量是对检测到的邻接关系的f-score。粗略地说，这测量的是正确检测到的相邻单元格对的百分比，正确检测表示两个单元格都被正确地分割并被识别为相邻单元格。

对于这个数据集，合并模型未能为分割模型的输出提供足够的后处理。在执行预测的合并后，后处理结合了额外的单元格，以防止单元格在最终输出中形成L形。在ICDAR 2013数据集中的几个大标题区域中，由于一些错误的成对合并预测产生了L形，大量的单个单元群被合并为单个单元群。作者没有进一步细化启发式方法以防止L形图形的出现，而是实现了一些简单的启发式方法，可以替代合并模型。这些启发式包括

•合并预测的分隔符通过文本的单元格。

•当绝大多数成对的单元格（在第3行之后）都为空白或每对只有一个单元格是非空白时，合并相邻的列。这将将一个内容列与（大部分）空白列合并。

•在第一行（可能是标题行）中，将非空白单元格与相邻的空白单元格合并。

•在垂直对齐的文本之间具有连续的空白间隙的分割列。

图8中显示了一些由启发式方法固定的示例表。虽然Split模型在识别表格网格方面表现良好，但它有时会犯一些很容易纠正的错误，并且不能自己处理生成单元格。当结合简单的启发式方法来处理这些情况时，它实现了95.26%的f-measure，而之前的最佳结果为94.60%。Merge模型未能从私有集合推广到ICDAR 2013数据集，但如表二所示，它确实提高了私有集合的性能。图9显示了一些通过Split-PDF +启发式对无线表的预测示例，这些预测比有线表更难识别。

与PDF信息（文本、路径、图像通道）作为分割模型的输入和不是时，有很大的性能差异。由于在私有集合上的差异不那么大（表II），作者得出结论，PDF输入通道的有效性取决于数据集。ICDAR表主要是排列的，有更大的标题，与训练数据集相比，可能有明显的视觉外观。因此，额外的PDF信息可能在不熟悉的领域中更有帮助，因为文本和路径元素是显式的输入，而不需要由模型直观地推断。

作者复现了DeepDeSRT表结构模型，并在与作者提出的模型相同的私有数据上对其进行了训练。然而，即使作者探索了各种后处理阈值和训练超参数，作者也无法获得合理的性能。在DeepDeSRT，他们报告的FM为91.44%，超过了34个表的随机子集，因此不能进行直接比较。作者认为，这一差距表明，作者不能忠实地重现他们的模型，以进行公平的比较。然而，作者使用的训练集非常不同，并且在私有集合和ICDAR 2013数据集之间存在显著差异。这些原因可以解释性能差距，但差距足够大，以至于作者不确定作者的实现是否是Deep DeSRT的忠实复现，因此作者省略了精确的性能数字，以避免直接比较。

私有数据集：

在这个数据集上，作者使用精度和对正确检测到的细胞的召回率来评估方法。作者还报告了具有完美精确度和召回率的表的百分率。如果一个预测的边界框（BB）完全只包含一个GT单元格内容BB，那么它将是一个正确的预测。特别是，与多个GT BB相交或不完全包含任何GT BB的预测BB被标记为false positive。不匹配的GT BB被标记为false negative。因为空白单元格没有被手动注释，所以作者排除了不与任何GT BB相交的预测BB。这样，如果方法正确地预测了未标记的空白单元格，那么它们就不会受到惩罚。

表二显示了测试集上5000个表格的结果。根据每个表计算报告的准确率和召回率，然后取平均值。作者无法找到之前工作的任何官方实现，所以为了进行比较，作者使用了商业软件系统Acrobat Pro DC和作者复现的DeepDeSRT模型。

作者提出的模型的所有变体在所有指标上都显著优于两个baseline。作者还看到，因为使用分割模型不能单独处理具有跨行单元格的表，合并模型显著提高了表格的准确性。对于需要合并的表，每个表需要合并的平均数量比ICDAR 2013要少得多，从而导致更少的L形预测。作者还观察到，使用PDF信息作为输入确实带来了改善，但比ICDAR 2013的数据更轻微。这可能反映了这样一个事实，即ICDAR 2013和私有集合之间的域差异在渲染的PDF中更为明显，但当只检查文本或路径图像通道时，差异就减少了。这表明这种方法可能是有效的。

结论：

论文提出了一种新的表格结构提取方法。它由一对深度学习模型组成，这些模型一起将一个表格图像分割成基本的单元格网格，然后将单元格合并在一起，以恢复跨越多行和多列的单元格。该模型的关键见解是在表格图像的大区域上汇集信息，如像素的整个行/列或先前预测的单元格区域。当在ICDAR 2013表格竞赛数据集上评估分割模型时，实现了最先进的性能。

实验还证明了PDF信息，如页面元素是否是文本/路径/图像，可以编码为深度网络的输入，并提高性能。但是，如果这些信息不可用（例如，扫描的文档），该模型只能使用灰度图像作为输入。最后，证明了合并模型对从web中提取的表格私有数据集是有效的。

TSRFormer

2022年微软研究院的论文《TSRFormer: Table Structure Recognition with Transformers》提出了一种新的表格结构识别（TSR）方法，称为TSRFormer，以从各种表格图像中稳健地识别具有几何畸变的复杂表格的结构。与以往的方法不同，该方法将表格分割线预测定义为线回归问题而不是图像分割问题，并提出了一种新的基于两阶段DETR的分割预测方法，称为SeparatorREgressionTRansformer（SepRETR），以直接预测表图像中的分割线。为了使两阶段DETR框架有效地适合于分割线预测任务，作者提出了两个改进：1)先验增强匹配策略来解决DETR的慢收敛问题；2)一种新的交叉注意模块直接从高分辨率卷积特征图中采样特征，从而在较低计算成本的情况下实现较高的定位精度。

TSRFormer算法原理：

如图1所示，TSRFrorter包含两个关键组件：1)基于SepRETR的分割模块，用于预测每个输入表图像中的所有行和列分离线；2)基于关系网络的单元合并模块来恢复生成单元。这两个模块被连接到一个由ResNet-FPN主干生成的共享卷积特征图P2上

基于SepRETR的分割模块

在分割模块中，将两个并行分支附加到共享特征映射P2上，分别预测行和列分隔符。每个分支由三个模块组成：(1)特征增强模块，生成上下文增强特征图；(2)基于SepRETR的分割线预测模块；(3)辅助分割线分割模块。

特征增强：如图1所示，作者添加一个3×3卷积层和3个重复下采样块，每个块由1×2最大池化层、3×3卷积层和ReLU激活函数组成，经过P_2后依次生成下采样特征图P_2\inR^{{\frac H4} X{\frac W {32}}XC}。然后，将两个级联空间CNN（SCNN）模块连接到P_2^{'}上，通过向整个特征图上向左右方向传播上下文信息，进一步增强其特征表示能力。以右方向为例，SCNN模块沿宽度方向将P_2^{'}分割成\frac W{32}

片，并从左向右依次传播信息。对于每个切片，它首先被发送到一个内核大小为9×1的卷积层，然后通过元素级的添加与下一个切片合并。在SCNN模块的帮助下，输出上下文增强的特征映射E_{row}中的每个像素都可以利用来自两边的结构信息来获得更好的表示能力。

基于SepRETR的分离线预测：如图3所示，作者使用三条平行的曲线线分别表示每行分隔符的顶边界、中心线和底边界。每条曲线用K= 15个点表示，其x坐标分别设置为x_1,x_2,……x_k.对于每一行分隔符，其3K点的y坐标由作者的SepRETR模型直接预测。在这里，作者为第i个x的x坐标设置了X_i=\frac W{16}×{i}。对于列分支中的y坐标，作者只需要用H替换W。如图2所示，作者的SepRETR包含两个模块：一个参考点检测模块和一个用于分割线回归的DETR解码器。

参考点检测模块首先尝试从增强的特征映射E_{row}
中预测每个行分隔符的参考点。将检测到的参考点的特征作为对象查询，并输入DETR解码器，为每个查询生成增强的嵌入。这些增强的查询嵌入然后通过前馈网络独立地解码为分离线坐标和类标签。这两个模块都连接到一个共享的高分辨率特征图上，该特征图是通过在

E_{row}^{'}\in R×W×C^{'}中依次添加一个1×1的卷积层和一个上采样层而生成的。

1) 参考点检测。该模块试图预测沿着原始图像的宽度方向的固定位置X_r上的每个行分隔符的参考点。为此，E_{row}^{'}
的X_r^{th}列中的每个像素被输入一个sigmoid分类器，以预测一个分数，以估计一个参考点位于其位置的概率（i，x_r）。在这里，作者在所有实验中设置超参数x_r
为\frac H4进行行线预测，y_r为\frac H4进行列线预测。考虑到E_{row}^{'}
的X_r^{th}列中每个像素的概率，作者通过在该列上使用7×1最大池化层来应用非最大抑制来删除重复的参考点。之后，选择前100个行参考点，并通过0.05的分数阈值进行进一步过滤。其余的行参考点作为行分割线回归模块中的DETR解码器的目标查询。

2) 分割线回归。为了提高效率，作者不使用transformer编码器来增强CNN主干网输出的特性。相反，作者将高分辨率特征图E_{row}^{'}
的x_1^{th}，x_2^{th}，...，x_K^{th}列连接起来，以创建一个新的降采样特征图C_{row}\in R^{ H×K×C^{'}}.然后，将E_{row}^{'}
从位置上提取的行参考点的特征视为对象查询，输入3层转换器解码器，与C_{row}交互，进行分离线回归。位置的位置嵌入（x，y）是通过连接归一化坐标\frac xW和\frac yH的正弦嵌入来生成的，这与DETR中的相同。经transformer解码器增强后，将每个查询的特征分别馈入两个前馈网络中进行分类和回归。对于行分隔符回归的y坐标的GT被归一化为\frac {y_{gt}}H。

先验增强的二分图匹配：从输入图像中给定一组预测及其对应的GT对象，DETR使用Hungarian算法为系统预测分配GT标签。然而，作者发现DETR中原始的二分匹配算法在训练阶段是不稳定的，即在不同的训练时期可以对同一图像中的不同对象进行查询，这大大降低了模型的收敛速度。作者发现，在第一阶段检测到的大多数参考点在不同的训练阶段都位于对应行分隔符的顶部和底部边界之间，因此作者利用这些先验信息直接将每个参考点与最近的GT分隔符进行匹配。这样，匹配的结果在训练过程中就会变得稳定。具体来说，作者通过测量每个参考点和每个GT分隔符之间的距离来生成一个成本矩阵。如果一个参考点位于GT分隔符的顶部和底部边界之间，则成本被设置为从该参考点到该分隔符的GT参考点的距离。否则，成本将设置为INF。基于此成本矩阵，作者使用Hungarian算法在参考点和GT分割之间产生一个最优的二分匹配。在得到最优匹配结果后，作者进一步去掉了具有成本INF的对，以绕过不合理的标签分配。在后续的实验表明，通过作者的预先增强的二分匹配策略，作者的SepRETR的收敛速度变得更快。

辅助分割线分割：这个辅助分支旨在预测每个像素是否位于任何分隔符的区域内。作者在E_{row}
之后添加了一个上采样操作，然后是一个1×1的卷积层和一个sigmoid分类器，来预测一个二进制掩模M_{row}\in R^{ W×H×1}来计算这种辅助损失。

基于关系网络的单元格合并

在分割线预测后，作者将行线与列线相交，生成一个单元格网格，并使用关系网络通过合并一些相邻的单元格来恢复生成单元格。如图1所示，作者首先使用RoI对齐算法从P_2中根据每个单元的边界盒提取7×7×C特征图，然后输入每层512个节点的两层MLP，生成512d特征向量。这些单元特征可以排列在具有N行和M列的网格中，形成特征图F_{cell}\in R^{ N×M×512},然后通过三个重复的特征增强块来获得更广泛的上下文信息，并输入关系网络来预测相邻单元之间的关系。每个特征增强块包含三个并行分支，其中分别有一个行级最大池化层、一个列级最大池化层和一个3x3卷积层。这三个分支的输出特征映射被连接在一起，并通过一个1×1的卷积层进行卷积以进行降维。在关系网络中，对于每一对相邻的细胞，作者将它们的特征和18d空间相容性特征连接起来。然后在这个特征上应用一个二值分类器来预测这两个单元格是否应该合并。该分类器采用了一个2个隐藏层的MLP，每个隐藏层有512个节点和一个sigmoid激活函数。

损失函数

对于分割模块，作者以行分隔符预测为例，并将相应的损失项表示为L_*^{row}。同样，作者也可以计算列分隔符预测的损失，记为L_*^{col}。参考点检测：采用focal loss的一种变体来训练行参考点检测模块：

其中N_r为行分割线数，α和β分别为设置为2和4的两个超参数，P_i和P_i^*为E_{row}^{'}
的x_r^{th}列中i^{th}像素的预测和GT标签。在这里，P_i^*被非标准化高斯函数增强，它在分隔符的边界处被截断，以减少在GT参考点位置周围的惩罚。具体来说，让（y_k，x_r）表示k^{th}行分隔符的GT参考点，它是该行分隔符的中心线与垂直线x=X_r的交点。以k^{th}行分隔符顶部和底部边界的垂直距离作为其厚度，记为w_k。那么，P_i^*

可以定义如下：

其中，

自适应于分隔器的厚度，以确保该行中的分隔符P_i^*不小于0.1。

辅助分割损失：行分隔符的辅助分割损失是一个二进制交叉熵损失：

其中S_{row}表示M_{row}的采样像素集，M_{{row}^{(x,y)}}和M_{{row}^{(x,y)}}^*分别表示S_{row}像素(x,y)的预测和地面真实标签。仅当M_{{row}^{(x,y)}}^*的像素位于行分隔符内时，它才为1，否则为0。

总损失：transformer中的所有模块都可以联合训练。整体损失函数如下：

其中，\lambda 是作者在实验中设置为0.2的控制参数。

实验：

数据集：

SciTSR包含12,000个训练样本和3,000个从科学文献中裁剪出来的轴对齐表的测试样本。作者还从测试集中选择了716个复杂的表，以创建一个更具挑战性的测试子集，称为SciTSRCOMP。在这个数据集中，单元格邻接关系度量被用作评价度量。

PubTabNet包含500,777个训练图像、9,115个验证图像和9,138张测试图像，它们是通过匹配科学文章的XML和PDF表示而生成的。所有的表格都是以轴向对齐的。由于没有发布测试集的注释，所以作者只报告验证集上的结果。论文提出了一种新的基于树编辑距离的相似度（TEDS）度量，该度量既可以识别表结构识别，也可以识别表结构识别OCR错误。然而，由于不同的TSR方法使用不同的OCR模型不同，考虑OCR误差可能会导致不公平的比较。最近的一些工作提出了一种改进的TEDS度量TEDS-Struct，仅通过忽略OCR误差来评估表结构识别精度。作者还使用这个修改后的度量值来评估作者在这个数据集上的方法。

WTW包含了从自然复杂场景中收集到的10,970张训练图像和3,611张测试图像。该数据集只关注有边界的表格对象，并包含表id、表格单元格坐标和行/列信息的注释信息。作者从原始图像中裁剪表区域用于训练和测试，并使用单元邻接关系（IoU=0.6）作为该数据集的评估指标。

In-House数据集包含40,590张训练图像和1,053张测试图像，这些图像是从异构文档图像中裁剪出来的，包括科学出版物、财务报表、发票等。这个数据集中的大多数图像都是由相机捕获的，所以这些图像中的表格可能是倾斜的，甚至是弯曲的。一些例子见图4和图5。cTDaR TrackB度量用于评估。作者使用GT文本框作为表格内容，并基于IoU=0.9报告结果。

实验结果：

作者在公共数据集SciTSR、PubTabNet和WTW上将提出的TSRFormer与几种最先进的方法进行了比较。对于SciTSR，由于其他方法提供的评估工具包含两种不同的设置（考虑或忽略空单元格），并且以前的一些工作没有解释他们使用了哪一种设置，所以实验报告了这两种设置的结果。如表1所示，论文的方法分别在测试集和复杂的子集上取得了最先进的性能。在SciTSR-COMP上的良好结果表明，论文的方法对复杂的表具有更强的鲁棒性。

在PubTabNet上，如表2所示，论文的方法在TEDS-Struct评分上达到了97.5%，比LGPMA（ICDAR 2021科学文献解析任务B竞赛中的获胜者）高0.8%。

为了验证论文的方法在自然场景中边界扭曲/弯曲表格对象的有效性，作者在WTW数据集上进行了实验，表3的结果表明，论文的方法在f1-score上比cycle-centernet（专门为此场景设计）好1.0%

为了验证TSRFrormer对更具有挑战性的无边界表的有效性，作者重新实现了另一种基于分割和合并的方法SPLERGE，并在几个数据集上与论文的方法进行了比较。为了公平比较，作者利用TSRFromer相同的模型架构，只实现了另一个分割线预测模块，该模块首先通过行/列级池增强特征映射，然后通过对水平/垂直切片中的像素进行分类来预测轴对齐的分隔符。如表4所示，重新实现的SPLERGE可以在SciTSR和PubTabNet数据集上取得竞争性的结果，而在具有挑战性的内部数据集上，它仍然比TSRFromer低11.4%。

图5和图4中的定性结果表明，论文的方法对于具有复杂结构、无边界单元格、大空白空间、空白或跨行单元格以及扭曲甚至弯曲形状的表格具有鲁棒性。

消融实验：

基于SepRETR的分割模块的有效性：为了验证基于回归的分离预测模块的有效性，作者采用RobusTabNet，去掉基于分割线回归模块SepRETR，直接使用辅助分离分割分支进行分离线预测，实现了另一个基于分割的分割模块。启发式mask-to-line模块也与RobusTabNet中的相同。表5中的结果表明，论文的分离回归模块明显优于基于分割的分割模块。图6显示了一些定性的结果。后处理模块很难很好地处理这种低质量的mask。相比之下，基于回归的方法是启发式的，对这些具有挑战性的表鲁棒。

SepRETR设计的消融研究：论文还进行了以下消融研究，以进一步研究SepRETR中三个关键成分的贡献，即transformer解码器，用于cross-attention和集合预测的特征。对于没有集预测的实验，实验设计了一个启发式的标签分配规则。如果一个参考点位于分隔符的两个边界之间，则其对应的查询将被视为一个正样本，而回归目标是它所在的分隔符。否则，对此参考点的查询是一个负样本。由于这种策略可以为一个分割行分配多个查询，为了删除重复的结果，实验将NMS应用于从每个预测行的两个边界生成的多边形。如表6所示，使用transformer解码器来帮助每个查询同时利用全局上下文和本地信息，可以显著提高基于SepRETR的分割模块的性能。此外，表6的最后两行显示，使用采样的高分辨率特征图C_{row}和C_{col}可以进一步提高f1-score 0.5%。虽然没有集预测的结果是好的，但作者发现这种方法对一些启发式设计非常敏感，如标签分配规则和NMS。相反，用集预测损失训练SepRETR不仅可以获得更好的结果，而且可以摆脱这种启发式设计的局限性。

先验增强的二分图匹配策略的有效性：作者通过训练基于SepRETR的分割模块进行了一些实验。如表7所示，在DETR中使用原始策略训练模型40个epoch比训练20个epoch的精度更高，这意味着分割模块没有完全收敛。相比之下，使用所提出的先验增强匹配策略可以获得更好的效果。经过20和40个epoch训练的模型之间的性能差距较小，表明这两个模型收敛得很好，这表明先验增强的匹配策略可以使收敛速度更快

结论

论文提出了一种新的表格结构识别方法，它包含两个有效的组件：一个基于SepRETR的分割线预测分割模块和一个基于关系网络的用于跨行单元格恢复的单元格合并模块。与以往基于图像分割的分割线检测方法相比，基于SepRETR的分割线回归方法可以在不依赖启发式mask-to-line模块的情况下实现更高的TSR精度。实验结果表明，所提出的先验增强的二分匹配策略可以有效地提高两阶段DETR的收敛速度。因此，论文的方法在三个公共基准SciTSR、PubTabNet和WTW测试上取得了最先进的性能。在更具挑战性的真实内部数据集中，进一步验证了论文的方法对具有复杂结构、无边界单元格、大空白空间、空白或跨行单元格以及扭曲或弯曲形状的表格的鲁棒性。

参考文献

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022.A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev，E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin.Deep learning for table detection and structure recognition: A survey.arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

C. Tensmeyer, V. I. Morariu, B. Price, S. Cohen, T. Martinez, Deep

splitting and merging for table structure decomposition, 2019 Inter

national Conference on Document Analysis and Recognition (ICDAR),

IEEE, 2019, pp. 114–121.

Lin W H, Sun Z, Ma C X, Li M Z, Wang j w, Sun L, Huo Q. TSRFormer: Table Structure Recognition with Transformers.arXiv:2208.04921v1 [cs.CV] 9 Aug 2022

你可能感兴趣的:(数据挖掘,机器学习,人工智能,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl