机器白学

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

论文原文链接：https://arxiv.org/abs/2409.01704

特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。

通用OCR理论：通过统一的端到端模型迈向OCR-2.0

0 摘要

1 引言

2 相关工作

2.1 传统OCR

2.2 基于LVLM的OCR

3 通用OCR理论

3.1 框架

3.2 预训练OCR专用视觉编码器

3.2.1 视觉编码器的生成

3.2.2 编码器预训练的数据引擎

3.3 通过多任务联合训练扩展OCR-2.0知识

3.3.1 GOT的最终架构

3.3.2 用于联合训练的数据引擎

3.4 通过解码器后训练定制新的OCR功能

3.4.1 细粒度数据引擎用于交互式OCR

3.4.2 多裁剪数据引擎用于超大图像OCR

3.4.3 多页数据引擎用于批量PDF文件OCR

4 实验

4.1 实现细节

4.2 主要结果

4.2.1 普通文档OCR性能

4.2.2 场景文本OCR性能

4.2.3 格式化文档OCR性能

4.2.4 细粒度OCR性能

4.2.5 更通用OCR性能

5 结论

6 附录

通用OCR理论：通过统一的端到端模型迈向OCR-2.0

0 摘要

传统的OCR系统（OCR-1.0）越来越无法满足人们的需求，由于对人造光学智能加工的需求不断增长而导致的使用字符。在本文中，我们将所有人工光学信号（如普通文本、数学/分子公式、表格、图表、乐谱，甚至几何图形）统称为“字符”，并提出了通用OCR理论以及一个卓越的模型——GOT，以推动OCR-2.0时代的到来。GOT模型包含5.8亿参数，是一种统一、优雅的端到端模型，由高压缩率的编码器和长上下文解码器组成。作为OCR-2.0模型，GOT能够处理各种OCR任务中的上述所有“字符”。在输入端，模型支持常见的场景图像和文档风格图像（切片模式和整页模式）。在输出端，GOT可以通过简单的提示生成普通文本或格式化结果（如markdown、tikz、smiles、kern格式）。此外，该模型还具有交互式OCR功能，即通过坐标或颜色指导的区域级识别。为了提升实用性，我们还对GOT适配了动态分辨率和多页OCR技术。在实验中，我们提供了充足的结果以证明该模型的优越性。

1 引言

光学字符识别（OCR）是一种广泛使用的技术，用于将光学图像中的字符提取为可编辑格式。在OCR-1.0时代，典型的OCR系统[10]主要基于多模块流水线设计，通常包括元素检测、区域裁剪和字符识别等模块。然而，由于每个模块容易陷入局部最优问题，使得整个系统的维护成本很高。此外，传统OCR方法的泛化能力不足，通常表现为不同的OCR-1.0网络针对不同的子任务专门设计。这种情况下，用户在众多OCR模型中选择适合特定任务的一个模型总是显得很不方便。

近年来，大型视觉语言模型（Large Vision Language Models, LVLMs）[5, 9, 24, 27, 36, 46, 49]发展迅速，并展现出了令人印象深刻的性能。OCR作为一种备受期待的能力，当前LVLMs的OCR性能也在不断提升。例如，基于CLIP[37]的LLaVA[24]在指令微调阶段自然获得了英文OCR的能力。为了提高OCR精度并支持其他语言（如中文），Qwen-VL[5]解冻了其图像编码器（CLIP-G），并在第二阶段训练中使用了大量OCR数据。Vary[46]则创新性地生成了与CLIP分支并行的新高分辨率OCR视觉词汇，用于处理文档级密集OCR。相比之下，InternVL-1.5[9]及其他模型[27, 50]采用滑动窗口方式，将整个图像裁剪为多个子图块以实现高分辨率OCR。因此，一个共识是，光学字符感知与识别是文本驱动图像理解的基础，这也吸引了许多研究者关注LVLMs对OCR性能的增强。

然而，当前LVLMs的流行设计可能并不适合多样化的OCR任务，原因如下：

感知与推理之间的冲突：LVLMs主要专注于视觉推理性能，例如视觉问答（VQA）[33, 42]，因为这正是大语言模型（LLM）的强项。为了快速从LLMs中获得问答性能增益，大多数LVLMs[15, 24, 49]通过对齐图像token与文本token的方式进行优化。然而，对于纯感知类的OCR任务，尤其是高密度文本场景，这种方法并不合理。每个对齐的视觉token（偏向文本token）无法压缩足够多的字符。例如，将数千个图像token（如图像裁剪方式[9, 23]）用于编码仅包含A4-PDF页面的文本显得非常浪费。
高迭代和部署成本：LVLM通常拥有数十亿参数，这导致后续的训练和部署成本过高。一般来说，当我们希望添加一种新OCR模式（如一种新语言）时，仅通过微调并不足够，而需要足够的GPU资源进行预训练。然而，仅为了引入一个新的OCR功能而重新运行数十亿参数的预训练同样是极大的浪费。

通过这些挑战可以看出，虽然LVLMs在某些方面增强了OCR能力，但它们在多样化和高效性方面还有待改进。因此，我们提出了通用OCR理论，即OCR-2.0，以突破传统方法和LVLM方法在OCR任务中的瓶颈。我们认为OCR-2.0模型应该具备以下关键特性：

端到端架构：与OCR-1.0模型中复杂的多步骤流程相比，OCR-2.0模型应该采用统一的端到端架构，以降低维护成本。这使得即使是初学者也能在2.0时代快速掌握整个OCR系统。
低训练与推理成本：OCR-2.0模型不应像LVLM那样专注于推理任务的“聊天机器人”。它的核心应该是对光学字符的强感知和识别能力，因此模型的参数数量应合理，以换取较低的训练与推理成本。
多功能性：OCR-2.0模型还需具备多功能性，包括识别更广泛的人工光学“字符”，如乐谱、图表、几何图形等。此外，模型应支持具有更强可读性的输出格式，例如用于公式和表格的LaTeX/Markdown格式。

基于上述通用OCR理论，我们提出了一个初步的OCR-2.0模型——GOT，旨在弥合OCR-1.0模型与人们更高光学字符处理需求之间的差距。在架构上，我们采用了简洁的编码器-解码器框架。具体而言，GOT包含一个高压缩率的编码器，用于将光学图像转化为token，以及一个长上下文的解码器，用于输出相应的OCR结果。编码器拥有约8000万参数，支持1024×1024的输入大小，足以处理常见的照片或文档风格输入图像。每个输入图像将被压缩为256×1024维度的token。解码器拥有约5亿参数，支持最长8K长度的token，以确保能够处理长上下文场景。我们为GOT设计了一种高效的训练策略，可分为三个步骤：即编码器的独立预训练、编码器与新解码器的联合训练以及解码器的后续训练。此外，为了进一步提升GOT的实用性，我们还适配了以下功能：细粒度OCR特性以增强交互性、动态分辨率策略以处理超高分辨率图像（例如超过2K的图像），以及多页OCR技术以缓解PDF图文对中难以分页的问题（例如.tex文件中的分页问题）。为支持每个训练阶段，我们开发了多种用于生成合成数据的数据引擎，这是GOT成功的关键之一，本文将对此进行详细描述。我们模型支持的主要输入数据格式见下面的图1。

图1：在输入端，GOT支持多种光学图像类型，例如常用的照片和文档。此外，作为一个通用的OCR-2.0模型，GOT可以处理更多任务，例如乐谱、分子公式、简单几何形状、图表等。此外，该模型可以适应区域聚焦OCR、高分辨率OCR以及多页OCR。GOT主要支持英文和中文，并可以通过提示控制结构化结果（Mathpix markdown/tikz/smiles/kern）。

作为一个面向OCR-2.0的模型，GOT在我们的实验中在各种OCR任务中表现出了良好的性能。我们希望提出的这一简单而优雅的GOT能够吸引更多研究者投身于OCR-2.0的研究。当然，迈向OCR-2.0的道路依然漫长，GOT也有许多改进空间，例如支持更多语言、更通用的人工信号以及更复杂的几何形状。在这个由LVLMs引领的新时代，我们相信纯OCR模型并未结束，反而可能是一个新的开始。

2 相关工作

2.1 传统OCR

光学字符识别（OCR）是一个经典的研究主题，旨在将图像中的光学内容转换为可编辑格式，以进行进一步的下游处理。传统OCR系统，也称为OCR-1.0，通常使用由多个专家模块组成的框架。例如，为处理多样化的光学字符，OCR系统[10]通常通过集成多个领域专家网络开发而成，如布局分析[54]、文本检测[18, 19, 26, 30, 43, 45, 52, 55]、区域提取和内容识别[11, 14, 16]。采用这种流水线方案的原因是文本识别模块（OCR部分）未能成功扩展，只能处理小切片格式的图像，导致整个OCR流程需要先检测文本/裁剪区域，再识别切片内的结果。然而，一个具有复杂流程的系统可能会遭受潜在的系统性错误和高昂的维护成本。尽管一些OCR-1.0模型（例如Nougat[6]）可以直接在整页级别上处理文档，它们通常是为特定子任务设计和训练的，这导致其泛化能力不理想。在OCR-1.0时代，一个不便之处在于，我们通常需要根据各种OCR需求切换不同的模型。

2.2 基于LVLM的OCR

大型视觉语言模型（LVLMs）[5, 9, 20, 24, 27, 46, 49]由于其强大的泛化能力，在AI社区中备受关注。对于当前具备感知与推理综合能力的LVLMs，随着对文本驱动视觉理解需求的增加，OCR能力成为了一个热点。大多数LVLMs的OCR能力来自现成的CLIP[37]，特别是那些通过冻结CLIP编码器[24]完成整个LVLM训练的模型。对于此类模型，主要以英文场景文本知识为主的原始CLIP成为其OCR性能在域外任务（如其他语言或文档）中的瓶颈。一些其他的LVLMs[5, 49]选择解冻编码器并冻结LLM进行训练，以增强CLIP编码器并将图像token对齐到文本token。然而，这些模型将面临低光学字符压缩率的问题，因为冻结的LLM难以从对齐的图像token中解码过多文本。为缓解这一问题，一些模型[9, 27, 50]采用滑动窗口方法，将输入图像分解为更小的块。虽然这种动态分辨率方法在处理高分辨率输入图像（例如PDF）时非常有效，但会导致过多的图像token，并在一定程度上限制生成的OCR结果的最大长度。

3 通用OCR理论

在这项工作中，我们提出了通用OCR理论，即OCR-2.0（如第1节所述），以促进OCR领域的发展。基于这一新理论，我们提出了一种新颖的OCR模型（GOT）。在本节中，我们将介绍我们模型的技术细节，包括框架、多阶段训练策略以及相应的数据引擎。

3.1 框架

如图2所示，GOT由三个模块组成：图像编码器、线性层和输出解码器。线性层作为连接器，用于映射视觉编码器与语言解码器之间的通道维度。我们通过三个主要步骤来优化整个GOT模型。首先，我们进行纯文本识别任务以预训练视觉编码器。为了提高训练效率并节省GPU资源，我们选择了一个较小的解码器来将梯度传递给编码器。在这一阶段，我们将包含场景文本的图像和包含文档级字符的手工图像输入到模型中，以使编码器能够学习到两种最常用字符的编码能力。在下一阶段，我们通过将已训练的视觉编码器连接到一个新的更大的解码器来构建GOT的架构。我们为此阶段准备了大量更通用的OCR数据（例如乐谱、数学/分子公式和几何图形），以扩展OCR-2.0知识的范围。在最后阶段，我们旨在进一步提升GOT的泛化能力和适用性。具体来说，我们生成了细粒度和多裁剪/多页的合成数据，并将其加入到GOT中，以支持区域提示OCR[20]、超大图像OCR以及批量PDF OCR功能。

图2：所提出的GOT框架。第1阶段：我们使用一个小型OPT-125M预训练视觉编码器，以高效适配OCR任务。第2阶段：通过将视觉编码器连接到Qwen-0.5B来构建GOT，并在该阶段使用更通用的光学字符的充足OCR-2.0知识。第3阶段：无需修改视觉编码器，GOT被定制为支持新的字符识别功能。

3.2 预训练OCR专用视觉编码器

如前所述，GOT采用了编码器-解码器结构。受LVLMs设计的启发，解码器可以通过一个训练良好的语言模型初始化。然而，我们并未找到适合OCR-2.0模型的预训练编码器，因此必须自行训练一个。我们希望新的OCR编码器能够在各种输入形状（包括切片和整页）中，在常用的场景和文档文本识别中表现良好。

3.2.1 视觉编码器的生成

我们选择VitDet[17]（基础版本，约8000万参数）作为编码器结构，因为它的局部注意力机制可以大幅降低高分辨率图像的计算成本。我们按照Vary-tiny设置[46]设计了编码器的最后两层，这些层可以将1024×1024×3的输入图像转化为256×1024的图像tokens。随后，这些图像tokens通过一个1024×768的线性层投射到语言模型（OPT-125M[53]）的维度。与Vary编码器仅关注单一文档任务并适配相对单一的输入形状不同，我们在预训练中结合了自然场景和裁剪切片。在预处理阶段，各种形状的图像都被直接调整为1024×1024的正方形，因为正方形形状可以在各种宽高比图像中提供一定的适应性。

3.2.2 编码器预训练的数据引擎

在编码器的预训练阶段，我们使用了大约500万对图像-文本数据，包括300万场景文本OCR数据和200万文档OCR数据。这些数据的获取方式如下。

自然场景数据：英文图像从Laion-2B[40]数据集中抽取，中文图像从Wukong[12]数据集中抽取。随后，使用PaddleOCR[10]工具从这些多样化的真实场景中获取伪真值文本。总体上，我们获得了200万条数据，其中中英文各占一半。对于文本真值，我们进行了两种处理：移除边界框，并按照从上到下、从左到右的顺序组合每段文本内容；根据边界框从原始图像裁剪文本区域，保存为图像切片。第二种方法使我们额外获得了100万条切片类型的图像-文本数据对。

文档级数据：我们首先从Common Crawl中收集开源的PDF样式文件，并使用Fitz Python工具包提取相应的密集文本内容。在此过程中，我们获得了120万条整页PDF样式的图像-文本数据对和80万条切片数据。切片数据包括行级和段落级，是通过解析边界框从PDF图像中裁剪获得的。

3.3 通过多任务联合训练扩展OCR-2.0知识

3.3.1 GOT的最终架构

在完成视觉编码器的预训练步骤后，我们将其连接到一个功能更强大的语言模型，构建GOT的最终架构。在此，我们采用了Qwen[4]作为解码器，其参数量为5亿，参数量相对较小，同时还融合了多语言的先验知识。连接器（即线性嵌入层）的维度被调整为1024×1024，以与Qwen-0.5B的输入通道对齐。因此，GOT形成了一个无缝的编码器-解码器架构，总参数量约为5.8亿，更加节省计算资源，也更易于部署在4G内存的消费级GPU上。编码器的高压缩率（从1024×1024的光学像素压缩为256个图像token）为解码器生成新token节省了大量空间。同时，解码器满意的解码上下文长度（最大支持约8K长度）确保了GOT在密集场景下能够有效输出OCR结果。

3.3.2 用于联合训练的数据引擎

为了将充足的OCR-2.0知识注入GOT，在这一阶段我们并未局限于前述的普通OCR数据，而是精心探索了多种合成方法和数据引擎，如图3所示。以下段落详细说明每种合成数据的来源。

图3：我们使用六种渲染工具运行数据引擎，以使GOT能够在多样化的OCR任务中表现良好。具体而言，我们使用LATEX渲染表格，Mathpix-markdown-it渲染数学/分子公式，TikZ渲染简单几何图形，Verovio渲染乐谱，Matplotlib和Pyecharts渲染图表。

普通OCR数据
我们使用第3.2.2节中提到的数据的80%作为普通OCR数据。为了进一步增强GOT的鲁棒性，我们还增加了手写文本识别子任务，该任务涉及各种风格的手写体文字（来自不同语言的信件和日记）。我们收集了中文的CASIA-HWDB2[1]、英文的IAM[2]和挪威的NorHand-v3[3]数据集。对于行级切片格式的原始图像-文本对，我们将6至8对组合并随机粘贴到空白文档页面中，以实现长文本手写体的识别并提高训练效率。

Mathpix-markdown格式数据
为了在输出结果中保持光学内容格式的强可读性，特别是数学公式和表格，我们通过多种方式收集尽可能多的格式化数据。

数学公式：我们从Arxiv爬取大量LATEX源文件（.tex），并提取约100万公式片段。接着，我们将公式源转化为Mathpix格式，并使用Chrome-driver调用Mathpix-markdown-it工具，将源文件渲染为HTML格式。随后，将HTML文件转换为SVG并保存为PNG图像。我们发现这种渲染方法比直接使用LATEX快20倍以上。

分子公式：我们下载了包含200万SMILES源文件的ChEMBL_25文件，然后使用Mathpix-markdown-it工具和rdkit.Chem包，收集了约100万分子公式图像-文本对。

表格：从爬取的.tex文件中提取约30万表格源文件，并将其渲染为图像。由于LATEX在高级表格的渲染效果更好，因此直接使用LATEX作为渲染工具，而非Mathpix-markdown-it。

整页数据：使用Nougat[6]方法，我们获得了约50万对英文markdown PDF文本对。此外，参考Vary[46, 47]，我们收集了另外50万对中文markdown对，并将其内容转化为Mathpix格式。我们还额外添加了约20万条内部数据，包括图书、论文和财务报告，这些数据是直接用Mathpix标注的。

更通用的OCR数据
为了使GOT能够处理更通用的人工光学“字符”，我们收集了三个相关的挑战性任务并生成了对应的数据：乐谱、几何图形和图表。

乐谱：乐谱是文化遗产的重要组成部分，光学乐谱识别在实现乐谱的自动识别和转录中发挥重要作用[7, 38]。我们选择了GrandStaff[39]数据集作为来源来渲染。这些多声部音乐得分提供了Humdrum **kern转录格式。除了现有的约10万图像-文本样本外，我们还提取了一些文本样本，通过Verovio Python包重新渲染，并随机添加标题和作者信息。最终，我们收集了约50万样本。

几何图形：几何是LVLMs的关键能力之一，也是迈向AGI的重要一步。GOT被期望能够将光学几何元素转化为TikZ[34]文本格式。我们使用TikZ风格的点和线，以及最简单的点线空间关系，构造了基础几何图形（如圆形、矩形、三角形、组合形状）以及简单的函数曲线（如直线、抛物线、椭圆、双曲线等）。通过这种方法，我们获得了约100万条几何TikZ数据。

图表：图表在多个研究领域的数据可视化和分析中至关重要。我们参考OneChart[8]，通过Matplotlib和Pyecharts工具渲染图表图像-文本对。由于GOT仅是OCR模型，无需图表元素在语义上相关。因此，我们从开放访问的NLP语料库中随机提取实体文本（如标题、来源、x轴标题、y轴标题等），并从受控分布中生成随机数值。通过此方法，我们获得了200万条图表数据，其中一半来自Matplotlib，另一半来自Pyecharts。

3.4 通过解码器后训练定制新的OCR功能

在通过前两个步骤压缩多样化OCR-2.0光学信号的通用视觉信息后，GOT已经准备好在各种场景下执行图像级OCR任务。基于这种感知能力强的视觉编码器，GOT可以轻松调整以满足用户对输入和输出的需求。我们通过仅对解码器部分进行后续训练，为GOT定制了三个新功能：细粒度、多页和动态分辨率OCR。

3.4.1 细粒度数据引擎用于交互式OCR

作为一种高交互性功能，细粒度OCR[20]是一种由空间坐标或颜色控制的区域级视觉感知功能。用户可以在问题提示中添加框坐标（框引导OCR）或彩色文本（颜色引导OCR），以请求对感兴趣区域（RoI）的识别，从而避免输出其他无关字符。对于自然场景的细粒度OCR，源图像和注释来自开源数据集，包括RCTW[41]、ReCTS[25]、ShopSign[51]和COCO-Text[44]数据集。这些数据集提供文本边界框，因此我们可以直接用它们生成细粒度（区域/颜色提示）OCR数据。对于文档级的细粒度OCR，参考Fox[20]方法，我们从下载的PDF文件中筛选出扫描格式的文件，并使用Python包（Fitz/PDFminer）解析剩余部分。我们记录页面级图像、每行/段的边界框以及对应的文本，以生成框引导OCR子任务的真值数据。对于这种任务，每个坐标值先被归一化，然后放大1000倍。对于颜色引导任务，我们选择最常用的颜色（红、绿和蓝）作为框颜色，并通过对应的边界框在原始图像上绘制。总体上，我们收集了约60万条样本。

3.4.2 多裁剪数据引擎用于超大图像OCR

GOT支持1024×1024的输入分辨率，足以应对常见的OCR任务，例如场景OCR或A4页面的PDF OCR。然而，对于某些场景下的超大图像（例如两页PDF水平拼接，常见于阅读论文时），需要动态分辨率。得益于我们高压缩率的编码器，GOT在一个大滑动窗口（1024×1024）下实现了动态分辨率功能，确保模型能够以可接受的图像token数量完成超高分辨率的OCR任务。我们采用InternVL-1.5[9]的裁剪方法，平铺的最大裁剪数为12。超分辨率图像通过上述单页PDF数据合成，包括水平和垂直拼接。通过这种方法，我们共获得了50万条图像-文本对数据。

3.4.3 多页数据引擎用于批量PDF文件OCR

对于OCR任务，多页处理通常使用“for循环”。由于某些格式化PDF数据使得分页困难（例如Arxiv中的.tex文件），我们为GOT引入了多页OCR功能（无需“for循环”），以便进一步扩展。这种功能旨在解决PDF真值分页问题（例如Nougat[6]），使研究人员可以直接在多页上进行训练。为实现这一功能，我们从Mathpix格式的PDF数据中随机抽取2至8页，将其拼接在一起，形成一个单轮OCR任务。每页文本包含的token数少于650，以确保总长度不超过8K。我们共生成了约20万条多页OCR数据，其中大部分是中英文页面交替的内容。

4 实验

4.1 实现细节

我们使用8×8 L40s GPU对GOT进行训练。在预训练阶段，我们以全局批量大小128优化所有模型参数，训练3个epoch。我们采用AdamW[29]优化器，并使用余弦退火调度器[28]，初始学习率为1e-4。在此阶段，最大token长度设置为4096。在联合训练阶段，我们将最大token长度设为6000，使用与第一阶段相同的优化器设置，训练1个epoch。在最后的后训练阶段，我们将最大token长度扩展到8192，以使模型支持多块/多页OCR功能。在此阶段，初始学习率为2e-5，训练1个epoch。

在每个训练数据处理过程中，从上一阶段的数据中采样80%用于下一阶段训练，以确保在添加新功能时基本能力不会退化。

4.2 主要结果

在本节中，我们验证了GOT在五种不同OCR任务中的性能，包括1）普通文档OCR；2）场景文本OCR；3）细粒度文档OCR；4）格式化（Mathpix markdown）文档OCR；5）更通用字符OCR。需要注意的是，每个基准测试的数据在测试前都经过严格的文本相似性过滤，以确保其未包含在训练数据中。以下是每个测试基准的数据来源及模型性能分析。

4.2.1 普通文档OCR性能

我们使用开源的Fox[20]基准测试来评估GOT在中文和英文PDF OCR中的性能。所用的指标是OCR任务中常用的，包括编辑距离、F1-score、精确率、召回率、BLEU和METEOR。由于文档的文本较长，我们采用了词级分割来计算各项指标。如表1所示，GOT仅凭580M参数，在文档中的纯文本OCR任务中达到了先进的性能，证明了其卓越的PDF文本感知和识别能力。

表1：文档级页面中密集英文（en）和中文（zh）OCR性能比较。其他模型的结果来源于之前的研究[20]。

4.2.2 场景文本OCR性能

我们收集了400张自然场景图像，其中一半为中文，一半为英文，作为场景文本OCR的基准测试。该基准测试中的所有真值均经过人工校正。由于场景图像中的文本相对较短，我们采用字符级分割来计算各项指标。如表2所示，GOT在自然场景图像上的表现也非常优秀，展示了模型在大多数基础OCR任务（包括文档和场景文本）中的卓越性能。

表2：场景文本中英文（en）和中文（zh）OCR性能比较。

4.2.3 格式化文档OCR性能

将光学PDF图像转换为类似markdown的格式是OCR模型的一项重要功能。为了验证GOT的这一能力，我们精心准备了90页样本作为高质量的基准测试。这些基准数据包含中英文文档页面，首先通过Mathpix生成伪标签，然后进行人工校正以修正错误。如表3所示，单尺度（1024×1024）下的GOT能够产生令人满意的结果。当我们使用多裁剪推理时，GOT的性能进一步提升，尤其是在包含小文本的公式和表格上。这些结果证明了GOT在格式化输出文档上的有效性。此外，在处理高分辨率图像时，动态分辨率方案是一个不错的选择。

表3：格式化文档（中文/英文）和更通用OCR的性能比较。单一（Single）表示输入为原始图像，多裁剪（Multi-crop）表示使用动态分辨率策略

4.2.4 细粒度OCR性能

我们报告了GOT的细粒度OCR指标。如表4所示，GOT在基于边界框和基于颜色的参考OCR任务上总体表现优于Fox[20]，表明我们的模型具有出色的交互式OCR能力。

表4：细粒度文档OCR性能比较。

4.2.5 更通用OCR性能

我们利用乐谱、几何图形和图表基准测试来验证GOT在更通用OCR任务中的性能。对于前两个任务，我们分别渲染了100个和180个额外样本作为基准测试。如表3所示，GOT在这些新OCR任务中仍然表现良好。对于图表OCR，我们使用了结构提取版本的ChartQA[32]和PlotQA[35]作为基准测试。如表5所示，GOT在图表OCR能力上甚至远超专门的图表模型和流行的LVLMs。所有结果均表明，我们的模型在更通用OCR任务上的有效性。

表5：以数字为中心的图表OCR性能比较。

5 结论

本文提出了一种初步的OCR-2.0模型，其结构比OCR-1.0系统更简单，比LVLMs更专注于纯OCR任务，同时具有更优异的性能。OCR-2.0将各种泛OCR任务集成到一个模型中，是模型设计、数据工程和应用场景中一个具有重要价值的研究方向。我们希望这个简单、优雅、高效且前景广阔的GOT OCR-2.0模型能够吸引更多人关注这一任务。

6 附录

（附录记载了一些具体的测试图片结果，详情可参看原文）

你可能感兴趣的:(论文翻译,ocr,论文阅读,论文翻译)

远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
试题公式ocr识别数据集
试题公式ocr识别数据集insurance_formula_latexhttps://github.com/LeeXYZABC/insurance_formula_latex.gitreference---
Python|扫描版词书转文字(PyPDF、OCR） NuageL pdf ocr python
心血来潮想把词书pdf(只有扫描版）转化成电子版，然后插到某生词APP去复习然后有两个想法：1.按照A-Z等来分词单2.PDF转文字1.那首先需要把PDF分开，这个用PyPDF2可以达成PDF参考文章：掌握PDF文件处理的神器：PythonPyPDF2库详解-CSDN博客写了一个功能，允许用户一次性输入多个页码范围：fromPyPDF2importPdfReader,PdfWriterdefspl
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
机器视觉在OCR（字符识别）检测中的应用
目前，对印刷品的检测工作一般采用人工方法进行质量检测，然后再由工作人员将成品和次品进行分类堆放。这样一来，不仅增加了工作人员的劳动强度，而且检测质量也难以得到保障。其次，则是效率低下，浪费时间成本。印品质量自动检测系统满足印刷企业对于产品质量控制的需求。系统采用自主研发的表面缺陷检测、色彩测量、快速建模等核心算法，广泛适用于包装印刷、标签印刷、商业印刷质量在线检测和印后终检。机器视觉用于印刷、包装
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
带印章的财务报表有什么工具可以解析？ TextIn智能文档云平台文档解析人工智能 textin
TextIn的文档解析工具可以解决财务报表的精准解析。不止印章，TextIn文档解析可以将文档中的复杂表格、手写笔记、图片印章等进行梳理，转换成大模型友好的内容格式（Markdown）。日常财务报表中常见手写签名、批注及各类印章覆盖，对传统OCR识别构成巨大挑战。TextIn文档解析具备强大的图像处理与文字识别能力，能有效分离背景印章干扰，清晰辨识覆盖文字，并对潦草、连笔的手写体保持较高的识别准确
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
环形文字识别实例：使用OpenCV和OCR的C/C++实现 TechPr opencv ocr c语言 C/C++
环形文字识别实例：使用OpenCV和OCR的C/C++实现在本篇文章中，我们将介绍如何使用OpenCV和OCR技术来实现环形文字的识别。我们将使用C/C++语言编写源代码，并通过一步一步的解释来帮助您理解实现的过程。导入必要的库首先，我们需要导入所需的库。我们将使用OpenCV来处理图像，以及OCR库来进行文字识别。以下是所需的头文件：#include#include#
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
我是如何搭建了一个企业级PDF处理平台的 wh3933 pdf 架构
第一部分：执行摘要与架构愿景1.1.拟议解决方案概述本文旨在为构建一个模块化、高鲁棒性、可扩展的企业级PDF处理平台提供全面的架构设计与技术实现蓝图。该平台的核心功能集成了虚拟打印、PDF创建、光学字符识别（OCR）以及高级加密，以满足现代企业对文档工作流自动化和安全性的严苛要求。为了实现这一目标，我们提出一个清晰的、关注点分离的系统架构。该架构将整个解决方案解耦为两个核心部分：一个部署在用户工作
证件阅读机在金融银行的应用电子护照杨健辉智能硬件人工智能 ocr
证件阅读机（也称为“证件扫描仪”或“OCR阅读器”）在金融银行领域有广泛的应用，主要用于快速、准确地识别和验证客户身份证件（如身份证、护照、驾驶证等），以提高业务办理效率和安全性。主要应用场景开户/办卡：自动读取身份证、护照信息，减少人工录入错误。大额交易/转账：验证客户身份，防止冒用他人证件。贷款/信用卡申请：快速采集客户信息，提高审核效率。反洗钱（AML）：自动比对证件真伪，防范欺诈风险。VI
护照阅读器简介电子护照杨健辉人工智能智能硬件
护照阅读器简介护照阅读器（PassportReader）是一种专用设备，用于快速、准确地读取护照、身份证、签证等旅行证件的机读区（MRZ）和芯片（ePassport）信息，广泛应用于出入境管理、机场安检、酒店登记、金融开户等场景。1.护照阅读器的核心功能（1）OCR识别（光学字符识别）自动识别护照、身份证、签证等证件上的机读区（MRZ）信息，包括姓名、护照号、国籍、出生日期、有效期等。支持多语言（
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
智能财报OCR识别录入，破解财报分析困局，重塑金融风控新范式 kevin 1 ocr 人工智能大数据
在金融数字化转型的浪潮中，数据已成为驱动业务决策与风险管理的核心资产。然而，海量的非结构化财务报表数据，正成为制约金融机构运营效率和风控精度的关键瓶颈。本文旨在剖析传统财报识别与分析模式的深层挑战，并探讨以AI为核心的智能解决方案如何赋能行业，实现从数据处理到决策智能的范式跃迁。一、效能瓶颈：传统财报处理的三重制约对于银行、证券、信托等金融机构而言，高效、精准的财报分析是信贷审批、投资决策和合规审
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
PaddleOCR 3.0全面解析：五大核心能力与实战应用指南经优英
PaddleOCR3.0全面解析：五大核心能力与实战应用指南PaddleOCRAwesomemultilingualOCRtoolkitsbasedonPaddlePaddle(practicalultralightweightOCRsystem,support80+languagesrecognition,providedataannotationandsynthesistools,suppor
PDF处理控件Spire.PDF教程：在Java中读取PDF，提取文本、图片和表格 CodeCraft Studio pdf java 国产化 Spire.pdf 文档处理
在数据驱动的现代开发中，高效处理PDF文档已成为Java开发者不可或缺的核心能力。无论是处理各类发票扫描件、业务分析报告，还是包含丰富图表的技术文档，掌握Java版的PDF解析技术都将大幅提升数据处理效率，充分释放文档中的商业价值。本指南将介绍如何使用Spire.PDFforJava读取PDF文档，涵盖从可搜索的PDF提取文本、表格和图片，以及通过OCR技术从扫描版PDF中读取文本。Spire.P
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方