羞儿

【读点论文】SPTS v2:Single-Point Scene Text Spotting，通过改变标注方式获得更好的模型泛化能力，相比于SPTS提高了模型训练合推理速度

SPTS v2: Single-Point Scene Text Spotting

Abstract

端到端场景文本识别由于文本检测和识别之间的内在协同作用而取得了重大进展。以往的方法通常以手工标注为前提，如水平矩形、旋转矩形、四边形、多边形等，这比单点标注要昂贵得多。我们的新框架SPTS v2允许我们使用单点注释训练高性能的文本识别模型。SPTS v2保留了具有实例分配解码器(IAD)的自回归 Transformer 的优点，通过顺序地预测同一预测序列内所有文本实例的中心点，而具有并行识别解码器(PRD)的文本并行识别，这大大降低了对序列长度的要求。这两个解码器具有相同的参数，通过简单而有效的信息传输过程交互连接，传递梯度和信息。在各种现有基准数据集上的综合实验表明，SPTS v2可以用更少的参数胜过以前最先进的单点文本观测者，同时实现19倍的推理速度。在我们的SPTS v2框架的背景下，我们的实验表明，与其他表示相比，单点表示在场景文本识别中具有潜在的偏好。这种尝试为超越现有范例领域的场景文本识别应用提供了重要的机会。代码可从https://github.com/Yuliang-Liu/SPTSv2获得。
论文地址：[2301.01635] SPTS v2: Single-Point Scene Text Spotting (arxiv.org)，Accepted for publication in TPAMI 2023。SPTS v2: Single-Point Scene Text Spotting | Papers With Code

INTRODUCTION

近年来，情景文本阅读技术取得了长足的进步。给定图像，文本定位器可以同时定位和识别文本内容，从而实现许多现实世界的应用，如文档数字化、智能助手和自动驾驶仪。基本上，矩形、四边形和多边形等边界框通常用于表示不同形状的文本。然而，人类可以直观地阅读没有这样一个定义区域的文本，这一事实鼓励了无边界框文本识别器的发展，解除了边界框注释所施加的限制。
如下图所示，前面的方法使用由一系列坐标组成的边界框来定义实例级文本，其中封闭的区域被认为是一个正样本。由于其简单和直接性，边界框已成为许多其他视觉任务的首选注释格式。然而，与对象检测任务中的目标通常以定义的外观呈现不同，文本实例可能由于不同的排版和字体而以任意形状出现。
- 现有的OCR方法通常使用边界框来表示文本区域。然而，受人类如何在没有这样一个定义区域的情况下直观地阅读文本的启发，本文证明了单个点足以指导模型学习强场景文本识别器。
因此，需要使用边界框来包含更多的坐标，如多边形，来标记这些任意形状的文本。否则，可能会涉及相当大的噪声，这可能会对识别性能产生负面影响。例如，Total-Text 最多使用20个坐标，而SCUT-CTW1500 最多使用28个坐标来注释单个弯曲场景文本实例。虽然使用多边形可以在一定程度上缓解标注任意形状文本的噪声问题，但也大大增加了标注成本。针对这些问题，本文提出了一种基于单引导点的场景文本监控新方法。如上图所示，每个文本由实例中的单个点表示。这种流线型的表示打破了边界框的限制，使模型能够自由地访问附近的像素，并进一步学习区分文本之间的边界。此外，与多边形相比，它大大节省了标注成本。
近十年来，场景文本识别的研究重点从水平文本和多向文本转向任意形状文本，体现在从矩形和四边形注释向更紧凑但更昂贵的多边形的转变。如图2所示，矩形边界框容易涉及到其他文本实例，可能会混淆后续的场景文本识别。此外，许多人已经努力开发更复杂的表示来适应任意形状的文本实例。
- LabelMe工具测量了不同的注释样式及其时间成本(对于示例图像中的所有文本实例)。绿色区域是阳性样本，而红色虚线框是可能包含的噪声。注意，时间是由三个标注者的平均值测量的。对于点以外的表示，它们通常需要放大以对准确切的位置，这消耗了大量的注释工作。
例如，如下图所示，Mask TextSpotter利用边界多边形对文本区域进行定位。Text Dragon利用字符级边界框生成中心线来预测局部几何属性，ABCNet将多边形标注转换为bezier曲线来表示弯曲的文本实例，Text Snake通过一系列以对称轴为中心的有序磁盘来描述文本实例。这些启发式表示是由知识渊博的专家精心设计的。尽管它们已被证明对文本检测和识别模块之间的特征对齐是有效的，但对人工设计规则的依赖不可否认地破坏了通用性。具体来说，需要特定的网络架构和模块来处理特征和标注信息，例如RoI模块的变体和后处理机制。此外，如上图所示，上述依赖多边形或字符边界框标注的表示方式标注成本较高，而提出的单点标注方法可以将标注成本减半。
- 文本实例的不同表示。
在过去的几年里，一些研究者探索了用弱监督的方式训练粗糙标注的OCR模型。这些方法主要可以分为两类，即(1)引导标签到更细的粒度和(2)部分标注训练。前者通常从字级或行级注释派生字符级标签;因此，这些模型可以在不引入间接成本的情况下享受众所周知的字符级监督的优势。后者致力于用更少的训练样本获得有竞争力的表现。然而，这两种方法仍然依赖于边界框注释。最近的一项研究[SPTS: Single-point text spotting]表明，场景文本的仅点注释仍然可以在场景文本识别任务中取得具有竞争力的性能
用更简单的标注格式(如单点注释)替换边界框的潜在问题之一是，大多数文本观测者依赖于类似roi的采样策略来提取共享的主干特征。例如，Li等人和Mask TextSpotter需要RoI内的框和掩码预测;ABCNet提出了bezeralign将曲面表示包装成水平格式，而TextDragon引入了RoISlide来统一检测和识别头。
在本文中，受最近基于序列的目标检测器Pix2Seq的成功启发，我们证明了文本观测者可以用单点进行训练。由于标注形式简洁，可以显著节省标注时间，如图所示的样本图像单点标注时间，仅为字符级边界框标注时间的不到五十分之一。选择点注释的另一个激励因素是可以开发一个干净高效的OCR管道，抛弃复杂的后处理模块和基于图像的采样策略;因此，roi引入的模糊性(见图中红色虚线区域)可以得到缓解。
然而，采用单点表示仍然具有挑战性。在我们的会议版本中，以前最先进的单点文本定位器(SPTS)使用自回归的Transformer为所有文本实例生成长序列。在这里，仅点预测非常简单，可以整体处理无序的文本实例。因此，它可以学习避免重复预测、特定的标签分配方法，如DETR中的二部匹配，或复杂的后处理，如非最大抑制(NMS)。虽然我们的会议版本SPTS是有效的，但它的推理速度非常低，特别是同时包含多个实例的图像。
因此，为了在利用自回归预测的同时保持高效率，我们设计了SPTS v2，在实现更高性能的同时显著提高了推理速度。具体来说，我们观察到结果的长序列主要被文本识别所占据，因此我们只能在第一实例分配解码器(IAD)中自回归地预测每个实例的位置，例如x和y，称为指示器;而对于第二个并行识别解码器(PRD)，每个指示器负责其后续的文本识别预测，可以并行实现。这背后的基本原理是，IAD是解决隐式标签分配，而PRD是对给定标签分配后的特征的相关文本识别结果进行并行预测。为了实现从识别特征到IAD阶段的梯度流，我们提出了一种简单有效的信息传输方法，该方法集成了文本位置和IAD阶段特征的嵌入，这对SPTS v2的成功至关重要。We summarize our contributions as follows:
- 我们将文本识别作为一项语言建模任务，只使用交叉熵损失。这种简化的方法消除了复杂的后处理和采样策略的需要，提供了更大的灵活性。
- SPTS v2引入了一种新的实例分配解码器(IAD)和并行识别解码器(PRD)，通过一种简单而有效的信息传输方法，共享相同的参数。SPTS v2显著减少了序列的长度，优于会议版SPTS，参数更少，推理速度快19倍。
- 在五个基准上进行的大量实验，即ICDAR 2013 ， ICDAR 2015 ， TotalText ， SCUT-CTW1500和Inverse-Text，涉及水平和任意形状的文本，证明了我们的方法与之前最先进的技术相比具有竞争力。

RELATED WORK

在过去的几十年里，针对场景文本识别的各种场景，提出了多种标注样式，包括以笔划级或字符级边界框表示的字母、以矩形表示的水平文本、以四边形表示的多方向文本[、以多边形表示的任意形状文本、以及其他新颖的表示，如单点或非点。

Character-level Scene Text Spotter

在早期阶段，许多经典方法需要字符级注释来训练模型。Wang等使用基于HOG特征的字符分类器来读取文本。Bissacco等将DNN与HOG特征相结合，构建了用于文本识别的字符分类器系统。后续工作进一步发展了卷积神经网络作为字符分类器。以上方法使用字符级注释调整为水平文本。一些研究者试图扩展角色级场景文本识别器来处理任意形状的文本。Mask TextSpotter设计了字符分割模块对字符进行定位和识别;它的改进版本[Mask TextSpotter: An end-to-end trainable neural network for spotting text with arbitrary shapes, Mask TextSpotter v3: Segmentation proposal network for robust scene text spotting]显著降低人工标注的成本。CharNet提出了一个单阶段框架，通过使用字符级注释来提高文本识别性能。CFRATS定位字符区域，并将字符区域的信息发送给基于注意力的识别器。MANGO开发了一个位置感知掩码注意模块，为字符生成位置掩码，并使用序列解码器获得识别结果。

Rectangle-based Scene Text Spotter

基于矩形的场景文本识别器在任务的前期起着重要的作用。Weinman等提出了一种文本识别系统，该系统首先生成文本建议，然后使用独立的单词识别模型提取文本内容。Li等采用了一种通用的目标检测器框架Faster R-CNN来检测矩形文本，并通过共享主干连接检测器和基于ctc的[Connectionist temporal classification]识别器。其增强版[Towards end-to-end text spotting in natural scenes]配备了2D注意力识别模块，用于处理不规则文本。Gupta等采用FCRN检测矩形框，并使用词分类器作为识别器。最近，Liao等提出了一种基于TextBoxes和CRNN的文本识别系统，分别用于单词的定位和识别。Shi等使用TextBoxes作为检测器获得检测结果，并提出了一种新的识别器ASTER，该识别器采用薄板样条变换作为纠错网络对识别图像进行纠错。

Multi-oriented Scene Text Spotter

最近的方法是开发多方向场景文本定位器来处理具有复杂形状的文本实例。Busta等提出了一种Deep TextSpotter，它使用YOLOv2作为检测器来检测多方向文本，并使用基于ctc的识别器将识别特征转换为字符序列。FOTS提出了一种新的RoI操作，称为RoI Rotate，将面向文本识别特征从四边形检测结果转换为规则特征。He等人提出了一个类似的框架来定位文本的实例。他们进一步开发了一种文本对齐方法，将旋转的特征采样到水平特征中，并使用基于注意力的识别器来提高性能。

Arbitrarily-shaped Scene Text Spotter

由于文本的形状、颜色、字体和语言的多样性，对任意形状的场景文本进行识别是一项具有挑战性的工作，越来越受到人们的关注。在这方面，文本通常用任意形状的多边形进行注释。最近，Qin等提出了一种RoI Masking方法来抑制识别特征的背景噪声，并使用基于二维注意力的识别器从识别特征中读取任意形状的文本。Wang等人基于快速探测器PAN设计了一个定位系统，命名为pa++。TextNet预测四边形文本建议来定位文本，并开发了一个视角RoI转换过程来纠正四边形特征。Feng等将文本实例描述为一系列四边形，并提出了RoISlide将四边形连接起来进行文本识别。Wang等对定向矩形框进行检测，并将定向矩形框转化为边界。边界作为薄板样条变换的基准点，将不规则文本校正为规则文本。Qiao等人使用了类似的方法，他们开发了一个分割检测器来生成基点。ABCNet使用了一种单级检测器，它结合了参数化的Bezier曲线来表示文本实例，以及一种新的RoI操作(BeizerAlign)，用于将任意形状的文本特征采样为水平格式。其改进版本[ABCNet v2: Adaptive bezier-curve network for real-time end-toend text spotting]采用BiFPN作为主干，并使用基于注意力的识别器进一步提高性能。SwinTextSpotter进一步利用了检测和识别之间的一种新的协同方式，称为识别转换模块，使检测在识别损失的情况下可区分。TESTR基于deform - detr设计了单编码器双解码器结构，去掉了手工设计的组件。ABINet++使用了ABCnetV2中的框架，并进一步使用具有自治、双向和迭代语言模型的识别器[Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition]来提高性能。

Point-based and Transcription-only Scene Text Spotter

最近的几项研究探索了使用转录数据来开发或辅助文本识别系统。例如，TTS 在deform - detr中集成了一个RNN识别头，并使用匈牙利算法仅使用文本转录注释来增强模型。同样，TOSS 利用语音注释的纯转录数据来训练模型。得益于其提出的从粗到细的交叉注意机制，TOSS可以在不需要检测数据的情况下生成粗文本掩码。
我们之前的工作，单点文本识别器使用自回归 Transformer 为所有文本实例创建长序列，这也可以用于单点和仅转录的训练。然而，它面临着推理速度的限制，特别是对于具有许多文本实例的图像。为了克服这些挑战，我们开发了SPTS v2，该模型通过巧妙地增强自回归预测和提高效率，显著提高了推理速度和性能。

METHODOLOGY

Preliminary

大多数现有的文本定位算法都需要定制模块来桥接检测和识别块，其中主干特征被裁剪并在检测和识别头之间共享，例如BezierAlign ， RoISlide和roimasks。受Pix2Seq的启发，单点文本识别器(SPTS)将文本识别问题作为语言建模任务，基于一个直观的假设，如果一个深度模型知道目标是什么和在哪里，它可以被教导通过所需的序列来告诉结果。SPTS使用自回归Transformer为所有文本实例生成长序列，有效地管理无序实例。尽管它很有效，但它的推理速度受到了很大的影响，特别是当图像包含大量文本实例时。

SPTS v2

为了提高推理速度和整体性能，SPTS v2的设计具有实例分配解码器(IAD)和并行识别解码器(PRD)，每个解码器处理该过程的不同方面。IAD对综合序列中的每个文本实例自动回归预测“指标”(如x和y坐标)，而PRD利用这些指标，能够对相应的文本识别结果进行并行预测。IAD和PRD都采用Transformer解码器结构。为了实现参数约简，两个模型的解码器共享参数，并由检测和识别任务的梯度来监督。最初，共享解码器作为IAD运行，预测“指标”。随后，结合一种新的信息传输方法，将共享解码器转换为PRD，从而允许对文本识别结果进行并行预测。这种信息传输方法将位置嵌入与IAD特征相融合，从而促进了识别特征的梯度流。
具体而言，如下图所示，每张输入图像首先通过CNN和Transformer编码器进行编码，提取视觉和上下文特征。然后，捕获的特征由Transformer解码器解码，其中以自动回归的方式预测令牌。与以前的算法不同，我们进一步将边界框简化为位于文本实例中第一个字符左上角或文本实例中心的角点，如下图所示。得益于这种简单而有效的表示，可以避免基于先验知识精心设计的模块，例如基于分割的方法中使用的分组策略和基于框的文本定位器中配备的特征采样块。
- 拟议的SPTS v2的整体框架。视觉和上下文特征首先由一系列CNN和Transformer编码器提取。然后，这些特征分别通过IAD和PRD自动回归解码成包含定位和识别信息的序列。对于IAD，它预测同一序列内文本实例的所有中心点的坐标，而对于PRD，识别结果是并行预测的。注意，IAD与PRD共享相同的参数，因此没有为PRD阶段引入额外的参数。

Sequence Construction

为了用序列表示目标文本实例，需要将连续描述(例如，边界框)转换为离散空间。为此，我们将边界框简化为单个点，并使用变长转录代替单标记对象类别。SPTS的主要局限性是序列长度过长会显著降低推理速度。这是因为对于单词级和行级文本实例，识别结果通常固定为最大长度，分别为25和100。为此，在SPTS v2中，我们设计了实例分配解码器(IAD)和并行识别解码器(PRD)来克服这些限制。

Instance Assignment Decoder

文献[SPTS]，[Pix2Seq]表明自回归解码器是有效的;然而，直观的是，考虑到文本实例的长序列，这是一个耗时的解决方案。为了提高效率，SPTS v2通过共享相同的Transformer解码器，将检测和识别分为两个阶段的工作流程。第一阶段称为实例分配解码器(IAD)。在第一阶段，SPTS v2只对每个文本实例的中心点进行解码，直到序列结束。一个直观的流水线如下图所示。
- IAD (Instance Assignment Decoder)的输入输出顺序。每一组x和y表示不同的文本实例。
具体来说，文本实例中心点的连续坐标被统一离散为 $1,n_{bins}]$ 之间的整数，其中 $n_{bins}$ 控制离散程度。例如，长边为800像素的图像只需要 $n_{bins} = 800$ 就可以实现零量化误差。请注意，文本实例的中心点是通过对上中点和下中点取平均值得到的，如图(b)所示。到目前为止，文本实例可以由三部分组成的序列表示，即[x, y, t]，其中(x, y)是离散坐标，t是将在PRD中预测的转录文本。值得注意的是，转录本身是离散的，即每个字符代表一个类别。
- 用不同的位置指示点。
和标记被插入到序列的头部和尾部，分别表示序列的开始和结束。因此，给定一个包含N个文本实例的图像，构造的序列将包含2N个离散的标记，其中文本实例将随机排序。事实上，如之前的研究[Pix2Seq]所示，可以有效地学习随机排序的文本实例，从而在不明显的情况下实现对不同隐藏特征的标签分配，巧妙地避免了像使用二部匹配那样的显式标签分配，而二部匹配在DETR系列中起着至关重要的作用。实际上，与其他标签赋值相比，实例赋值直观上更有效。密集标签分配方法使用非最大抑制(NMS)选择合适的检测结果进行识别。二部匹配标签分配方法使用最大实例数来检测和识别文本，这消耗了空文本实例的额外计算。

Parallel Recognition Decoder

在IAD的帮助下，我们分离了不同的文本实例。在并行识别解码器中，可以同时获得不同文本实例的内容。与一般的对象检测将对象划分为固定的类别不同，文本内容识别是一个目标序列长度可变的序列分类问题。这可能会导致不对齐问题，并可能消耗更多的计算资源。为了消除这些问题，我们首先将文本填充或截断为固定长度K，其中< pad >令牌用于填补较短文本实例的空缺。此外，假设字符有ncls类别(例如，英语字符和符号为97)，用于标记序列的字典的词汇量大小可以计算为ncls + 3，其中额外的三个类别用于，和标记。根据经验，在我们的实验中，我们将K和 $n_{bins}$ 分别设置为25(对于SCUT-CTW1500为100)和1000。此外， $n_{ti}$ 的最大值被设置为60，这意味着包含超过60个文本实例的序列将被截断。PAD的图示如下图所示。
并行识别解码器(PRD)的输入和输出序列。每一行代表不同的文本实例。给定信息传输产生的特征，并行预测识别结果，直到达到最大长度或EOS符号。
我们假设一张图像包含N个文本实例，每个实例包含最大数量的K个字符。SPTS需要Nv1个循环来预测该图像，其中Nv1定义为:
- $N_{v1}=(2+K)·N+1,(1)$
- 而对于SPTS v2，它只需要Nv2 for循环，其中Nv2为:
- $N_{v2}=2·N+K+1$
- K·(N−1)还原。在我们的实现中，N和K分别被设置为60和25。在这种情况下，SPTS需要1,621个自回归循环，而SPTS v2只需要146个循环，循环数量减少了91.0%(1475/1621)。实际上，在PRD中，如果所有实例都满足序列结束符号，SPTS v2也可以提前结束。通过PRD，可以显著提高推理速度。

Information Transmission

这两种解码器的参数是共享的，并由检测和识别梯度来监督。然而，在不同的文本实例之间存在信息丢失。在SPTS中，可以通过识别令牌感知之前检测到的文本信息，并传递文本识别的梯度来监督不同文本实例的预测。这种交互对于SPTS v2中的并行识别解码器找到文本的正确位置也很重要。为了解决这个问题，我们提出了一种信息传递的方法。形式上，我们首先提取隐藏文本实例位置特征(feat的缩写)和相应的文本位置预测结果(如x1, y1)。然后，我们将文本实例位置结果转换为嵌入，然后将其添加到文本实例位置特征中。该过程可表述如下:
在信息传递的帮助下，后期文本识别的梯度可以通过特征或特征传递到不同的文本实例中，并且PRD阶段的识别令牌可以通过特征感知先前检测到的文本信息。PRD将这些先验信息作为指示解码器的前两个查询，从而并行识别所有文本实例。在实践中，这种直接的传输对SPTS v2至关重要。

Model Training

由于训练SPTS v2是为了预测令牌，所以只需要在训练时最大化似然损失，可以写成:
- $L=max\sum_{i=1}^Lw_ilogP(\bar s|I,s_{1:i})$
- 其中 I 是输入图像， $\bar s$ 是输出序列，s是输入序列，L是序列的长度，wi 是第 i 个标记的可能性的权重，经验设置为1。对于IAD和PRD，它们共享相同的Transformer，只需要交叉熵损失，保持简洁的管道。

Inference

在推理阶段，SPTS v2首先顺序预测 IAD 中的位置令牌，直到序列令牌结束。然后，信息传输将融合检测特征，并行自动回归预测文本内容。预测的序列随后将被分成多个片段。因此，标记可以很容易地转换为点坐标和转录，从而产生文本定位结果。此外，对相应段中所有令牌的可能性进行平均并分配为置信度分数，以过滤原始输出，有效地消除冗余和假阳性预测。

EXPERIMENTS

我们报告了五个基准的实验结果，包括水平数据集ICDAR 2013，多方向数据集ICDAR 2015，任意形状数据集TotalText和SCUT-CTW1500，以及逆文本数据集。

Datasets

曲线合成数据集150k。通过对合成样本进行预训练，可以提高文本识别器的性能。根据之前的工作，我们使用由SynthText工具箱生成的150k合成图像，其中包含大约三分之一的弯曲文本和三分之二的水平实例。
ICDAR 2013包含229个训练样本和233个测试样本，而图像主要是在 controlled environment 中捕获的，其中大多数文本都是水平呈现并明确聚焦的。
ICDAR 2015由偶然捕获的1000张训练图像和500张测试图像组成，其中包含在复杂背景下呈现的多方向文本实例，在模糊、扭曲等方面有很强的变化。
Total-Text包括1255个训练图像和300个测试图像，其中每个图像中至少有一个弯曲样本，并在单词级别用多边形边界框进行注释。
SCUT-CTW1500是另一个广泛使用的基准，用于识别任意形状的场景文本，它涉及1,000和500张图像进行训练和测试。文本实例在文本行级别由多边形标记。
Inverse-Text是最近提出的一个数据集，主要关注任意形状的场景文本，其中约40%的逆类实例包含500个测试图像。根据之前的工作，我们使用在Total-Text上训练的模型测试该数据集。

Evaluation Protocol

现有的文本定位任务评估协议包括两个步骤。首先，计算ground-truth (GT)与detection box之间的交集over union (IoU)分数;只有当IoU分数大于指定的阈值(通常设置为0.5)时，方框才匹配。然后，将每个匹配的边界框内的识别内容与GT转录进行比较;只有当预测文本与GT相同时，它才会有助于端到端准确性。然而，在该方法中，每个文本实例由单个点表示;因此，基于IoU的评估度量不能用于度量性能。同时，比较基于边界盒的方法和基于点的方法的定位性能可能是不公平的，例如，直接将边界盒内的点视为真阳性可能会高估检测性能。为此，我们提出了一个新的评估指标，以确保与现有方法进行相对公平的比较，该指标主要考虑端到端准确性，因为它反映了检测和识别性能(故障检测通常会导致错误的识别结果)。
具体如下图所示，我们修改了文本实例匹配规则，将IoU度量替换为距离度量，即选择与GT盒中心点距离最近的预测点，并使用与现有基准测试相同的全匹配规则测量识别结果。只有一个置信度最高的预测点才会与基本事实相匹配;其他的则被标记为假阳性。
- 基于点的评估度量的说明。钻石是预测的点，圆圈代表GT。
为了探索所提出的评价协议是否能够真实地代表模型的精度，下表比较了ABCNetv1和ABCNetv2在Total-Text和SCUT-CTW1500上的端到端识别精度，即常用的基于IoU的边界框度量和所提出的基于点的度量。结果表明，基于点的评价方案可以很好地反映性能，其中基于盒的评价值与基于点的评价值之间的差异不超过0.5%。例如，ABCNetv1模型在SCUT-CTW1500数据集上在这两个指标下分别获得了53.5%和53.0%的分数。因此，在接下来的实验中，我们使用基于点的度量来评估所提出的SPTS v2。
- 基于点的度量和基于多边形的度量评估端到端识别性能的比较。使用官方代码复制结果。

Implemented Details

该模型首先在包含Curved Synthetic dataset 150k、MLT-2017、ICDAR 2013、ICDAR 2015和Total-Text的组合数据集上进行150 epoch的预训练，由AdamW进行优化，初始学习率为5 × 10−4，学习率线性衰减为1 × 10−5。预训练后，模型在每个目标数据集的训练分割上再进行200次微调，固定学习率为1 × 10−5。整个模型在16个NVIDIA A100 GPU上进行分布式训练，每个GPU的批处理大小为8个。注意，有效批大小为64，因为在minibatch中对每个图像执行两个独立的增强。此外，我们使用ResNet50作为骨干网，而Transformer编码器和解码器都由6层8头组成。
关于 transformer 的架构，我们采用了Pre-LN Transformer。在训练过程中，输入图像的短尺寸随机调整为640到896(间隔为32)的范围，同时保持长侧小于1,600像素，遵循之前的方法。采用随机裁剪和旋转进行数据增强。在推理阶段，我们按照之前的工作，将短边的大小调整为1000，同时保持长边的长度小于1824像素。
为了提高模型输出的准确性和可靠性，我们制定了一个三步程序来过滤冗余的预测。首先，我们导出检测令牌和识别令牌的分类置信度分数。然后，我们计算这些令牌的平均置信度得分。在最后一步，我们根据这个平均分数设置一个阈值，过滤掉低于它的预测。通过这种方法，可以减少大多数误报。

Ablation Study

我们首先进行消融研究，以评估不同设计的SPTS v2。因为PRD需要启动标记来并行地预测识别结果，至少在基线设置中需要隐藏特征(称为Feat)或位置嵌入(称为Token)。结果如下表所示。我们可以看到，如果不共享IAD和PRD的参数，就Total-Text数据集的Full指标而言，性能会下降1.4%。此外，根据表中的第1、2和4行，集成Token和Feat可以进一步提高性能，例如，在Full度量方面，分别比单独使用Token和Feat高3%和5.5%。结果表明了信息传递的重要性。我们使用预训练的模型来测试结果。
- 基于设计的全文消融研究。“None”表示没有词典。“Full”表示我们使用了测试集中出现的所有单词。Feat和token分别表示等式5右侧的项目。共享表示共享IAD和PRD的参数。
直观地说，边界框所包围区域中的所有点都应该能够表示目标文本实例。为了探讨差异，我们进行了消融研究，使用三种不同的策略获得指示点，即通过平均上下中点获得的中心点，左上角和盒子内的随机点。需要注意的是，我们在这里使用相应的ground-truth来计算距离矩阵来评估性能，以保证公平的比较，即左上角使用到ground-truth左上角点的距离，中央使用到ground-truth中心点的距离，随机使用到ground-truth多边形最近的距离。
结果如下表所示，其中左上角的结果最差。随机的结果接近中心，在无指标方面大约差1%。虽然中心点比其他格式表现出最好的性能，但这表明性能对点标注的位置不是很敏感。
- Ablation study of the position of the indicated point.
在序列构建过程中，通过将点坐标修改为边界框的位置，该方法可以很容易地扩展到生成边界框。在这里，我们进行消融研究，仅通过改变文本实例的表征来探索影响。具体来说，研究了四种变体，包括:1)Bezier曲线边界框;2)矩形边界框;3)指示点;4) non-point。注意，对于非点表示，我们只使用SPTS实现结果，因为使用SPTS v2很难实现，因为SPTS v2需要预测PRD阶段的位置。
由于我们在这里只关注端到端性能，为了尽量减少检测结果的影响，每种方法都使用相应的表示来匹配评估中的GT框。也就是说，单点模型使用第4.2节介绍的评价指标，即点之间的距离;SPTS v2-Rect的预测与多边形标注的限定矩形匹配;SPTS v2-Bezier采用匹配多边形框的原始度量;非点的评价指标可参考第5.1节。如下表所示，SPTS v2点在TotalText和SCUT-CTW1500数据集上都实现了最佳性能，大大优于其他表示。这样的实验结果表明，一个低成本的标注，即指示点，能够为文本标记任务提供监督。在此，为了使这些发现更有根据，我们进一步提供如下分析:
- 不同形状边界框的对比。Np是通过不同表示描述文本实例的位置所需的参数数量。训练计划的2倍。
- SPTS-Rect和SPTS-Bezier的结果使用与sptpoint相同的训练计划得到。为了进一步探讨前者是否需要更长的训练时间，我们将下表中的SPTS-Point与2× epoch训练的SPTSBezier进行了比较。可以看出，2× epochs 的SPTS-Bezier并没有明显优于1×次元的SPTS-Bezier，仍然不如1×次元的SPTS-Point。此外，使用较长的训练计划甚至会导致SCUT-CTW1500在SPTS-Bezier的None指标上的性能降低，这表明训练计划可能不是这种情况。
- 为了进一步消除不同度量的影响，我们也直接采用矩形或bezier曲线包围框内的中心点来测试与我们方法相同的点度量。结果如下表所示，方差仍然与表1的结论一致，即点度量的结果与基于框或多边形的度量的结果在None度量方面接近。
  - 基于点的度量和基于盒的度量评估端到端识别性能的比较。
- 从之前的场景文本识别方法中我们可以看到，有时即使检测结果不准确，如缺少字符的某些区域，识别结果仍然是准确的，如下图顶部所示。这是因为文本识别的对齐基于特征空间，其中裁剪的特征具有足够的文本内容接受域。这种现象也可以支持我们的发现:如下图底部所示，由于图像在我们的方法中是全局编码的，因此一个近似的位置可能足以让模型捕获附近所需的特征，这可能进一步释放Transformer的功率。
- 接受野对最终的识别是有益的。Upper: ABCNet v2的结果。下:我们方法的粗糙感受野。
如第3节所述，文本实例按照构造的序列随机排序。在这里，我们进一步研究文本实例顺序的影响。不同排序策略在Total-Text和SCUT-CTW1500上的性能如下表所示。“Area”和“Dist2ori”表示文本实例分别按面积和到左上角原点的距离降序排序。“自顶向下”表示文本实例从上到下排列。可以看出，我们的方法的随机顺序达到了最好的性能。尽管结果可能与直觉相反，但随机有序设置的效果最好;然而，这与pix2seq模型的结果是一致的，当使用集合顺序时，pix2seq模型会遇到丢失对象的问题。在这种情况下，随机顺序可能会潜在地解决这个问题，因为它可能会在稍后捕获那些丢失的对象。由于在不同的迭代中对相同的图像构建了不同的序列，因此经验上使模型更加鲁棒。
- 序列构建中文本实例不同排序策略的消蚀研究。
我们进一步对IAD和PRD的共享解码器层以及我们的Total-Text框架的各种主干进行了深度消融研究，如下表所示。我们观察到，使用ResNet-34作为主干，在None指标方面超过ResNet-18 4.1%。使用ResNet-50作为主干可以比ResNet-34进一步提高3.8%。此外，我们发现解码器层数对不同主干网的性能有很大的影响。例如，使用ResNet-18、ResNet34和ResNet-50作为主干，将解码器层的数量从6层减少到1层，就Total-Text数据集的None指标而言，性能下降了49.1%、42%和15.2%。
- 端到端识别结果和全文本检测结果。“None”表示没有词典。“Full”表示我们使用了测试集中出现的所有单词。解码器1表示使用一层解码器而不是使用六层。
在本节中，我们对模拟的带噪注释数据进行实验，进一步证明SPTS v2的潜力。对于ABCNet v2，我们首先通过对 GT 多边形点标注的随机扰动，在CTW1500的训练数据中引入噪声。将随机扰动应用于CTW1500数据集上多边形点的 GT 值训练标注。对于SPTS v2，我们首先计算 GT 多边形点注释的中心点。按照类似的过程，我们对CTW1500数据集的中心点施加随机扰动。随后，使用扰动标注对ABCNet v2和SPTS v2进行了训练。结果如下表所示，SPTS v2的退化约为0.6%，而ABCNet v2的退化约为2.4%，干扰半径为5，这可以强调SPTS v2对噪声的鲁棒性。干扰半径为10时，SPTS v2下降约2.0%，ABCNet v2下降约2.6%。我们注意到许多文本实例具有较短的高度，中心点的干扰半径为10可能导致它落在文本实例之外。
- SCUT-CTW1500上模拟噪声注释数据结果的消融研究。“None”表示没有词典。“Full”表示我们使用测试集中出现的所有单词。

Comparison with Existing Methods on Scene Text Benchmarks

下表将本文方法与现有方法在广泛使用的ICDAR 2013基准上进行比较。我们的方法在“强”词汇下实现了最佳性能，同时在“弱”和“一般”指标上实现了相当的性能。注意SPTS v2的速度比以前最先进的基于单点的方法快20倍，参数更少。
- ICDAR 2013的端到端识别结果。“S”、“W”和“G”分别代表对“Strong”、“Weak”和“Generic”词汇的识别。SPTS v2比SPTS快19倍。
ICDAR 2015数据集的定量结果如下表所示。所提出的方法与最先进的方法之间存在性能差距。该方法直接基于低分辨率的高级特征预测文本序列，没有RoI操作，无法准确识别微小文本。定量地，如果在评估时忽略面积小于3000(调整大小后)的文本，ICDAR 2015上通用词汇的F-measure将提高到77.5。此外，目前ICDAR 2015上最先进的方法通常在训练和测试期间采用更大的图像尺寸。例如，测试图像的短边被调整为1440像素，而长边则短于4000像素。如下表所示，在较大的测试规模下，SPTSv2在ICDAR 2015上的性能要远远好于较小的测试规模。
- ICDAR 2015不同测试尺度的消融研究。“S”、“W”和“G”分别代表对“Strong”、“Weak”和“Generic”词汇的识别。
我们进一步将我们的方法与包含任意形状文本的现有基准方法进行比较，包括Total-Text和SCUT-CTW1500。如下表所示，对于基于单点的方法，我们的方法达到了最先进的性能，大大优于TOSS。此外，从下表可以看出，我们的方法在基于长文本行的SCUT-CTW1500数据集上取得了较好的结果，这进一步证明了单点可以足够强地指导文本的识别。对于具有挑战性的逆文本，我们的方法在与之前的方法[SwinTextSpotter]相同的设置下进一步取得了优异的性能，在“None”和“Full”指标方面分别比之前的技术提高了8.0%和7.0%，证明了其在处理旋转任意形状文本方面的鲁棒性。
- 在Total-Text, SCUT-CTW1500, ICDAR2015和Inverse-Text上的端到端文本识别结果。“None”表示没有lexicon free。“Full”表示我们使用测试集中出现的所有单词。“S”、“W”和“G”分别代表对“强”、“弱”和“通用”词汇的识别。
总之，在几个基准测试中，与以前的文本检测器相比，所提出的方法可以获得具有竞争力的性能。特别是在两个曲线数据集上，即SCUT-CTW1500，本文方法的性能大大优于最近提出的一些方法。我们的方法能够在任意形状的文本上获得更好的准确率的原因可能是:(1)我们的方法抛弃了基于先验知识设计的特定任务模块(如RoI模块);因此，识别精度与检测结果解耦，即即使检测位置移位，我们的方法也能获得可接受的识别结果。另一方面，输入到识别模块的特征在训练时是基于 ground-truth 位置采样，而在测试时是基于检测结果采样，这就导致了特征的错位。然而，通过以序列建模的方式处理定位任务，该方法消除了这些问题，从而在基于任意形状的特别长的文本行数据集上显示出更强的鲁棒性。
5个数据集的部分可视化结果如下图所示。从图中可以看出，该方法在弯曲、密集、高度旋转和长文本中显示出鲁棒性。在第二行最右边的图像中，多方向密集的长文本可能导致重叠，从而导致基于边界框的方法遗漏实例。然而，使用我们的方法，即使用单点进行位置指示，这种干扰自然会减少，从而能够准确地发现大多数实例。
- 定性结果对场景文本基准。图像选自Total-Text(第一行)、SCUT-CTW1500(第二行)、ICDAR 2013(第三行)、ICDAR 2015(第四行)和Inverse-Text(第五行)。

DISCUSSION

我们进一步进行实验来综合评价我们的方法的局限性和其他性质。

Transcription-only Text Spotting

正如TTSweak提出的那样，一种方法在仅使用合成数据预训练的转录微调中显示出有希望的结果。我们进一步证明，我们的方法也可以在没有位置标注监督的情况下收敛。我们通过在合成数据和真实数据中从构建的序列中去除指示点的坐标，开发了一个无点文本定位(NPTS)模型。下表列出了我们的模型与其他方法的比较。在评价度量方面，我们用预测和GT转录之间的编辑距离矩阵代替预测和ground truth (GT)点之间的距离矩阵。其他方面与第4.2节中概述的一致。当我们使用来自真实数据的位置信息时，SPTS v2提供了最佳性能。在仅转录的上下文中，TTS优于TOSS和NPTS模型。这可能归因于免费获得的合成数据中的位置信息提供了有价值的监督，而TOSS和NPTS仅依赖于合成数据转录。这表明位置指示对文本识别任务的重要性。在不使用来自合成数据的位置信息的场景中，NPTS的性能优于TOSS。下图显示了NPTS的定性结果，表明该模型已经获得了仅基于转录文本隐式定位文本的能力。
- SPTS和NPTS模型端到端识别结果的比较。 $Loc_{synth}$ 表示仅对合成数据使用位置监督，不需要手动标注。另一方面， $Loc_{real}$ 表示对真实数据使用位置监管。

Failure Cases

我们对失效结果进行了定性误差分析。下图给出了一些代表性误差的可视化。在图(b)的情况下，由于文本中严重的透视畸变和照明造成的干扰而产生误差。在图(a)中，对某些旋转字符的识别出现错误。例如，在最右边的文本中，字符“U”被错误地识别为“I”。在图©中，我们的方法成功检测到顶部的反向文本;但是，对于这个特定的情况，它无法生成任何识别结果。对于图(d)中的情况，由于存在分隔字符的句号符号而产生错误。此外，在图(e)中，我们的方法将一个文本分成两个，导致错误的识别预测。虽然识别不受文本边界的约束，但不同文本实例之间的错误区分最终会导致文本识别的失败。在图(f)中，模型预测的识别结果与视觉数据完全不一致，这可以根据之前的预测推断出来。此外，所提出的方法在处理一些艺术词汇时仍然存在困难，如图(g)所示。对于水平排列的垂直文本，由于缺乏训练样本，我们的方法无法识别文本，如图(i)所示。
- NPTS模型在几个场景文本基准上的定性结果。图片选自Total-Text(第一行)、SCUT-CTW1500(第二行)、ICDAR 2013(第三行)和ICDAR 2015(第四行)。最好在屏幕上观看。

CONCLUSION

我们提出了SPTS v2，这是一种新的场景文本识别范式，它表明极低成本的单点标注可以成功地用于训练强大的文本识别器。SPTS v2基于一个简洁的基于transformer的框架，在该框架中，文本的检测和识别被简单地表述为语言序列，只需要交叉熵损失，不需要特征对齐，也不需要额外的后处理策略。它包括一个实例分配解码器(IAD)，保留了统一同一序列内所有文本实例的优点;一个并行识别解码器(PRD)以及简单而有效的信息传输方法，可以显着减少序列的长度。注意，IAD和PRD共享完全相同的参数。使用更少的参数，SPTS v2优于以前最先进的单点文本观测者(SPTS)，同时推理速度提高了19倍。大量的实验表明，这种基于点的方法仍然可以获得有竞争力的结果。SPTS v2的一个关键优势是它能够大大减少所需的序列长度。其训练方法的直接性质使其特别适合于多任务场景，使不同的多模式数据能够通过一个内聚的标记到语言管道进行处理。使用更大的模型来研究这个问题可能会为探索提供一个有希望的途径。
信息茧房则是由于个人或群体对信息选择的偏见和倾向，导致只接触和相信与自己立场相符的观点，形成一个封闭的信息环境。这个观念本质上来自于传播学中的“自我强化”概念，也就是说人们天生喜欢“强化已有的认知，而非自我颠覆”。在短视频平台中则会通过算法和标签推送把人们的“自我强化"倾向值拉满，在这种时候，人们主要接触和接受的就会基本都是与自己观点相同的意见与信息，考虑到大部分人都不会有“兼听则明"的能力，也就自然忽视掉了与自己观点相悖的信息。在这种情况下，就可能会号致认知偏差、信息过滤和信息孤岛等问题进一步加重，这些问题则会进一步阻碍多样性观点下的理解与对话。
如果你喜欢上一个人，但没有实质进展，不妨让他帮你忙。比如借书、借文具，借游戏等等，当然这些都需要还给对方。这些做完后，对方会主动关心你。比起被别人帮助，人们更愿意帮助别人，并对受助者产生好感。让别人喜欢你的最好方式，不是帮助他们，而是让他们来帮助你，这便是富兰克林效应。别人帮助你了之后，记得常怀感恩的心。滴水之思，当涌泉相报，这条无论是用于朋友还是上司都适合。请别人帮忙之后，在生活中可以常常想到对方，可以是顺手多买的水果咖啡等，节日要给对方一点小礼物，让对方知道你是个懂得感恩的人，关系自然就会拉近。

你可能感兴趣的:(论文笔记,ocr)

基于RapidOCR与LangChain的PDF图文内容解析器开发要努力啊啊啊 RAG系统开发指南 langchain pdf python
fromtypingimportListfromlangchain.document_loaders.unstructuredimportUnstructuredFileLoaderfromdocument_loaders.ocrimportget_ocrimporttqdmclassRapidOCRPDFLoader(UnstructuredFileLoader):def_get_element
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
【数据标注师】OCR标注试着数据标注师 ocr 数据标注师 OCR标注
目录**一、理解OCR标注的本质与目标****二、学习前的必要准备****三、系统学习核心知识与技能****四、高效的学习与练习方法****五、培养核心职业素养****六、进阶方向**掌握OCR标注技能是进入AI数据标注行业的黄金敲门砖！作为数据标注师，学习OCR标注需要系统性地掌握理论、工具和实践。以下是我为你梳理的详细学习路径和核心要点：一、理解OCR标注的本质与目标核心任务：精确标注图像/扫
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
Python 安装使用 tesseract OCR 识别中文花果山总钻风 Python/Flask Linux python ocr 开发语言
前言：i、中文识别效果更好的开源OCR库：CnOCR使用教程ii、6款开源中文OCR使用介绍（亲测效果）：点我查看iii、windows安装tesserract教程：windows安装：点我查看教程1、点我查看教程2windows安装完成，设置好环境变量后，报找不到路径的错误点这里：解决办法本文为CentOS下安装教程Tesseract的OCR引擎目前已作为开源项目发布在GoogleProject
Python中Tesseract OCR的中文识别包实操指南
本文还有配套的精品资源，点击获取简介：TesseractOCR是一个开源的光学字符识别引擎，支持多语言包括中文识别。介绍如何在Python中使用pytesseract库进行图像文字识别，并详细说明安装TesseractOCR以及其中文语言包的步骤。提供了一个Python示例代码来展示图像识别的流程，并解释如何通过预处理提高识别准确率。此外，概述了TesseractOCR的高级功能和训练自定义模型的
Telerik Document Processing Crack
TelerikDocumentProcessingCrackTheTelerikDocumentProcessingLibraries2025Q2updateenhancesthePDFprocessinglibrarywithsupportforopticalcharacterrecognition(OCR).TelerikDocumentProcessingisasuiteofdocument
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
PaddleOCR不同模型和Paddle版本推理性能对比 dotNET跨平台 paddle
飞桨PaddleOCR这几年发布了从V2到V5的中英文OCR模型，Paddle推理框架也从2.X升级到3.0.0版本。本次对不同模型和推理框架的性能做些对比。测试条件：操作系统：win10X64CPU:13thGenIntel(R)Core(TM)i9-13900HF3.0GHz24核32线程CPU指令集：AVX,AVX2测试基于PaddleOCRSharp的C++版本SDK：https://gi
2025年最值得关注的十大OCR模型，技术进化与应用突破全面解析！蜗牛沐雨 ocr 自动化
光学字符识别（OCR）技术已经完成了从“慢、误差高、功能单一”的旧时代，向“快速、精准、多场景全覆盖”的新纪元转变。今天，OCR不再是简单的图像转文本工具，而是支撑智能办公、文档自动化、跨语言内容处理以及视觉理解的核心技术。尤其在2025年，技术格局发生了显著变化：模型更轻量，支持更复杂的文本结构识别，具备强大的多语言和多模态处理能力，能应对实时场景识别甚至复杂的工业图像分析。本文整合了GitHu
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
ali docker部属paddleocr 大熊程序猿 ASP.NET Core docker 容器运维
dockerpullregistry.baidubce.com/paddlepaddle/paddle:2.6.0nano/root/projects/paddleocr_server.py========================fromflaskimportFlask,requestfromwerkzeug.utilsimportsecure_filenameimportuuidfrom
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
基于PaddleOCR的表格识别系统开发 pk_xz123456 仿真模型深度学习算法深度学习开发语言分类安全 cnn
基于PaddleOCR的表格识别系统开发1.项目概述本项目旨在使用PaddleOCR框架开发一个高性能的表格识别系统，能够准确识别约30种不同类型的表格结构。系统将处理2500张合成表格图像作为训练数据，并在合成测试集上进行评估。系统核心功能包括表格检测、表格结构识别和表格内容识别三部分。1.1项目背景表格是信息传递的重要载体，广泛存在于各类文档中。传统表格识别方法需要复杂的规则和模板，而基于深度
【向上教育】国企面试手册(OCR).pdf ㏕追忆似水年华あ人工智能大数据算法旅游 c语言
国企各省面试的形式主要是结构化面试，也有少部分单位采用无领导小组讨论的面试形式。全面了解面试形式是考生须知的重要信息之一。一、结构化面试结构化面试，也称标准化面试，是相对于传统的经验型面试而言的，是根据科学制定的评价指标，运用特定的问题、评价方法和评价标准，严格遵循特定程序，通过测评人员与被测试者进行语言交流，对被测试者进行评价的标准化过程。(一)结构化面试之三大规范1.考题规范化（1）测评要素一
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
15.OCR训练 Echo`` Halcon系统化学习 ocr 人工智能深度学习算法计算机视觉机器学习
目录1.OCR训练2.助手训练13.助手训练24.算子训练5.OCR训练联合编程6.练习1.OCR训练*OCR训练*1.分类器文件*.omc*2.halcon官方的*1.局限性只能识别数字和字母*2.样式比较单一*3.样本数量较少*...**3.训练方法*1.助手训练*1.打开OCR助手*2.选择图片*3.选择训练区域*4.分割*5.字体*6.训练文件*7.新*8.学习*9.加入训练样本*10.保
14.OCR字符识别 Echo`` Halcon系统化学习 ocr 计算机视觉算法人工智能前端
目录1.识别方法1.OCR识别2.OCR识别方法1-助手识别3.OCR识别方法2-算子分割识别4.文本分割识别2.文本分割1.借用助手设置参数文本分割+混合识别2.借用助手设置参数文本分割场景23.不同字符场景1.倾斜字符1.识别方法1.OCR识别*OCR*1.概念*光学字符识别**2.识别的是什么*1.图片里面的文字符号**3.怎么识别*1.基于halcon的OCR识别**4.halconOCR
Excel处理控件Aspose.Cells教程：Java 在 Excel 中插入和删除行和列
Aspose.Cells是Excel电子表格编程API，可加快电子表格的管理和处理任务，支持构建能够生成，修改，转换，呈现和打印电子表格的跨平台应用程序。同时不依赖于MicrosoftExcel或任何MicrosoftOfficeInterop组件，AsposeAPI支持旗下产品覆盖文档、图表、PDF、条码、OCR、CAD、HTML、电子邮件等各个文档管理领域，为全球.NET、Java、C++等1
C# WPF自定义窗口 XMJ2002 wpf
C#WPF自定义窗口书接上文，我们已经实现了如何利用百度智能云实现文字OCR功能，WPF制作文字OCR软件(一)：本地图片OCR识别，最后整体的效果是要呈现在一个窗口上的，而WPF的默认窗口并不能符合我们的需求，能够自己定义的内容少，所以这篇文章将介绍如何自定义窗口。整体实现效果如下：一、自定义标题栏首先需要在窗口定义的时候加上WindowStyle="None"AllowsTransparenc
[SQLSERVER][SQL]监控SQlserver存储过程 awonw sqlserver sqlserver sql 数据库
USE[master]GO/******Object:StoredProcedure[dbo].[sp_who_run_plus]ScriptDate:2021-09-1016:51:26******/SETANSI_NULLSONGOSETQUOTED_IDENTIFIERONGOCREATEPROC[dbo].[sp_who_run_plus]ASBEGINSELECTDB_NAME(er.[
Python+dddocr自动化突破多缺口滑块验证技术详解
Python+dddocr自动化突破多缺口滑块验证技术详解在当今互联网环境中，滑块验证已成为阻挡自动化程序的主要防线之一。本文将通过Python+dddocr实现一套完整的自动化解决方案，突破多缺口滑块验证，内容涵盖技术原理、实现细节和实战技巧。一、多缺口滑块验证的技术原理多缺口滑块验证是传统滑块验证的升级版，通过设置多个干扰项增加识别难度：验证机制图像生成验证逻辑背景图缺口碎片缺口匹配行为分析添
python代码判断两棵二叉树是否相同 Data+Science+Insight 数据结构 leetcode 算法 python 二叉树
python代码判断两棵二叉树是否相同给定两个二叉树，编写一个函数来校验它们是否相同。如果两个树在结构上相同，并且结点具有相同的值，则认为它们是相同的。判断两个二叉树是否是相同的，相同的依据是二叉树结构相同二叉树对应节点值相同#二叉树基础类#ABinaryTreenodeclassNode:#Utilitytocreatenewnodedef__init__(self,val):self.val=
OpenVINO™2025部署PaddleOCR模型 OpenVINO 中文社区经验分享
PaddleOCR模型下载OpenVINO™2025支持直接加载paddle的模型。所以可以直接先从官网直接下载PaddleOCRv5.0的模型：文本检测模型下载地址#DownloadandunzipPP-OCRv5_server_detpre-trainedmodelhttps://paddle-model-ecology.bj.bcebos.com/paddlex/official_infer
内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析一起搞IT吧内存泄漏和内存占用拆解系列专题相机图像处理 android
【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：这一篇我们开始讲：内存泄漏系列专题分析之二十二：句柄/文件描述符fd泄漏实例分析目录一、背景二、：句柄fd文件描述符内存泄漏分析思路2.1：闭源库libcvp2.socrash分析Camxhal异常日志2.2：内存分配失败，接着看kernelKMD日志2.3：crash的根因是拿不到fd2.4：分析getfdfail2.5：重新复现并分析
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C