【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

        论文原文链接:https://arxiv.org/abs/2409.01704

        特别声明,本文不做任何商业用途,仅作为个人学习相关论文的翻译记录。本文对原文内容直译,一切以论文原文内容为准,对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。 


目录

通用OCR理论:通过统一的端到端模型迈向OCR-2.0

0 摘要

1 引言

2 相关工作

2.1 传统OCR

2.2 基于LVLM的OCR

3 通用OCR理论

3.1 框架

3.2 预训练OCR专用视觉编码器

3.2.1 视觉编码器的生成

3.2.2 编码器预训练的数据引擎

3.3 通过多任务联合训练扩展OCR-2.0知识

3.3.1 GOT的最终架构

3.3.2 用于联合训练的数据引擎

3.4 通过解码器后训练定制新的OCR功能

3.4.1 细粒度数据引擎用于交互式OCR

3.4.2 多裁剪数据引擎用于超大图像OCR

3.4.3 多页数据引擎用于批量PDF文件OCR

4 实验

4.1 实现细节

4.2 主要结果

4.2.1 普通文档OCR性能

4.2.2 场景文本OCR性能

4.2.3 格式化文档OCR性能

4.2.4 细粒度OCR性能

4.2.5 更通用OCR性能

5 结论

6 附录


通用OCR理论:通过统一的端到端模型迈向OCR-2.0

0 摘要

        传统的OCR系统(OCR-1.0)越来越无法满足人们的需求,由于对人造光学智能加工的需求不断增长而导致的使用字符。在本文中,我们将所有人工光学信号(如普通文本、数学/分子公式、表格、图表、乐谱,甚至几何图形)统称为“字符”,并提出了通用OCR理论以及一个卓越的模型——GOT,以推动OCR-2.0时代的到来。GOT模型包含5.8亿参数,是一种统一、优雅的端到端模型,由高压缩率的编码器和长上下文解码器组成。作为OCR-2.0模型,GOT能够处理各种OCR任务中的上述所有“字符”。在输入端,模型支持常见的场景图像和文档风格图像(切片模式和整页模式)。在输出端,GOT可以通过简单的提示生成普通文本或格式化结果(如markdown、tikz、smiles、kern格式)。此外,该模型还具有交互式OCR功能,即通过坐标或颜色指导的区域级识别。为了提升实用性,我们还对GOT适配了动态分辨率和多页OCR技术。在实验中,我们提供了充足的结果以证明该模型的优越性。

 

1 引言

        光学字符识别(OCR)是一种广泛使用的技术,用于将光学图像中的字符提取为可编辑格式。在OCR-1.0时代,典型的OCR系统[10]主要基于多模块流水线设计,通常包括元素检测、区域裁剪和字符识别等模块。然而,由于每个模块容易陷入局部最优问题,使得整个系统的维护成本很高。此外,传统OCR方法的泛化能力不足,通常表现为不同的OCR-1.0网络针对不同的子任务专门设计。这种情况下,用户在众多OCR模型中选择适合特定任务的一个模型总是显得很不方便。

        近年来,大型视觉语言模型(Large Vision Language Models, LVLMs)[5, 9, 24, 27, 36, 46, 49]发展迅速,并展现出了令人印象深刻的性能。OCR作为一种备受期待的能力,当前LVLMs的OCR性能也在不断提升。例如,基于CLIP[37]的LLaVA[24]在指令微调阶段自然获得了英文OCR的能力。为了提高OCR精度并支持其他语言(如中文),Qwen-VL[5]解冻了其图像编码器(CLIP-G),并在第二阶段训练中使用了大量OCR数据。Vary[46]则创新性地生成了与CLIP分支并行的新高分辨率OCR视觉词汇,用于处理文档级密集OCR。相比之下,InternVL-1.5[9]及其他模型[27, 50]采用滑动窗口方式,将整个图像裁剪为多个子图块以实现高分辨率OCR。因此,一个共识是,光学字符感知与识别是文本驱动图像理解的基础,这也吸引了许多研究者关注LVLMs对OCR性能的增强。

然而,当前LVLMs的流行设计可能并不适合多样化的OCR任务,原因如下:

  1. 感知与推理之间的冲突:LVLMs主要专注于视觉推理性能,例如视觉问答(VQA)[33, 42],因为这正是大语言模型(LLM)的强项。为了快速从LLMs中获得问答性能增益,大多数LVLMs[15, 24, 49]通过对齐图像token与文本token的方式进行优化。然而,对于纯感知类的OCR任务,尤其是高密度文本场景,这种方法并不合理。每个对齐的视觉token(偏向文本token)无法压缩足够多的字符。例如,将数千个图像token(如图像裁剪方式[9, 23])用于编码仅包含A4-PDF页面的文本显得非常浪费。

  2. 高迭代和部署成本:LVLM通常拥有数十亿参数,这导致后续的训练和部署成本过高。一般来说,当我们希望添加一种新OCR模式(如一种新语言)时,仅通过微调并不足够,而需要足够的GPU资源进行预训练。然而,仅为了引入一个新的OCR功能而重新运行数十亿参数的预训练同样是极大的浪费。

        通过这些挑战可以看出,虽然LVLMs在某些方面增强了OCR能力,但它们在多样化和高效性方面还有待改进。因此,我们提出了通用OCR理论,即OCR-2.0,以突破传统方法和LVLM方法在OCR任务中的瓶颈。我们认为OCR-2.0模型应该具备以下关键特性:

  • 端到端架构:与OCR-1.0模型中复杂的多步骤流程相比,OCR-2.0模型应该采用统一的端到端架构,以降低维护成本。这使得即使是初学者也能在2.0时代快速掌握整个OCR系统。

  • 低训练与推理成本:OCR-2.0模型不应像LVLM那样专注于推理任务的“聊天机器人”。它的核心应该是对光学字符的强感知和识别能力,因此模型的参数数量应合理,以换取较低的训练与推理成本。

  • 多功能性:OCR-2.0模型还需具备多功能性,包括识别更广泛的人工光学“字符”,如乐谱、图表、几何图形等。此外,模型应支持具有更强可读性的输出格式,例如用于公式和表格的LaTeX/Markdown格式。

        基于上述通用OCR理论,我们提出了一个初步的OCR-2.0模型——GOT,旨在弥合OCR-1.0模型与人们更高光学字符处理需求之间的差距。在架构上,我们采用了简洁的编码器-解码器框架。具体而言,GOT包含一个高压缩率的编码器,用于将光学图像转化为token,以及一个长上下文的解码器,用于输出相应的OCR结果。编码器拥有约8000万参数,支持1024×1024的输入大小,足以处理常见的照片或文档风格输入图像。每个输入图像将被压缩为256×1024维度的token。解码器拥有约5亿参数,支持最长8K长度的token,以确保能够处理长上下文场景。我们为GOT设计了一种高效的训练策略,可分为三个步骤:即编码器的独立预训练、编码器与新解码器的联合训练以及解码器的后续训练。此外,为了进一步提升GOT的实用性,我们还适配了以下功能:细粒度OCR特性以增强交互性、动态分辨率策略以处理超高分辨率图像(例如超过2K的图像),以及多页OCR技术以缓解PDF图文对中难以分页的问题(例如.tex文件中的分页问题)。为支持每个训练阶段,我们开发了多种用于生成合成数据的数据引擎,这是GOT成功的关键之一,本文将对此进行详细描述。我们模型支持的主要输入数据格式见下面的图1

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第1张图片

        图1:在输入端,GOT支持多种光学图像类型,例如常用的照片和文档。此外,作为一个通用的OCR-2.0模型,GOT可以处理更多任务,例如乐谱、分子公式、简单几何形状、图表等。此外,该模型可以适应区域聚焦OCR、高分辨率OCR以及多页OCR。GOT主要支持英文和中文,并可以通过提示控制结构化结果(Mathpix markdown/tikz/smiles/kern)。 

        作为一个面向OCR-2.0的模型,GOT在我们的实验中在各种OCR任务中表现出了良好的性能。我们希望提出的这一简单而优雅的GOT能够吸引更多研究者投身于OCR-2.0的研究。当然,迈向OCR-2.0的道路依然漫长,GOT也有许多改进空间,例如支持更多语言、更通用的人工信号以及更复杂的几何形状。在这个由LVLMs引领的新时代,我们相信纯OCR模型并未结束,反而可能是一个新的开始。

 

2 相关工作

2.1 传统OCR

        光学字符识别(OCR)是一个经典的研究主题,旨在将图像中的光学内容转换为可编辑格式,以进行进一步的下游处理。传统OCR系统,也称为OCR-1.0,通常使用由多个专家模块组成的框架。例如,为处理多样化的光学字符,OCR系统[10]通常通过集成多个领域专家网络开发而成,如布局分析[54]、文本检测[18, 19, 26, 30, 43, 45, 52, 55]、区域提取和内容识别[11, 14, 16]。采用这种流水线方案的原因是文本识别模块(OCR部分)未能成功扩展,只能处理小切片格式的图像,导致整个OCR流程需要先检测文本/裁剪区域,再识别切片内的结果。然而,一个具有复杂流程的系统可能会遭受潜在的系统性错误和高昂的维护成本。尽管一些OCR-1.0模型(例如Nougat[6])可以直接在整页级别上处理文档,它们通常是为特定子任务设计和训练的,这导致其泛化能力不理想。在OCR-1.0时代,一个不便之处在于,我们通常需要根据各种OCR需求切换不同的模型

2.2 基于LVLM的OCR

        大型视觉语言模型(LVLMs)[5, 9, 20, 24, 27, 46, 49]由于其强大的泛化能力,在AI社区中备受关注。对于当前具备感知与推理综合能力的LVLMs,随着对文本驱动视觉理解需求的增加,OCR能力成为了一个热点。大多数LVLMs的OCR能力来自现成的CLIP[37],特别是那些通过冻结CLIP编码器[24]完成整个LVLM训练的模型。对于此类模型,主要以英文场景文本知识为主的原始CLIP成为其OCR性能在域外任务(如其他语言或文档)中的瓶颈。一些其他的LVLMs[5, 49]选择解冻编码器并冻结LLM进行训练,以增强CLIP编码器并将图像token对齐到文本token。然而,这些模型将面临低光学字符压缩率的问题,因为冻结的LLM难以从对齐的图像token中解码过多文本。为缓解这一问题,一些模型[9, 27, 50]采用滑动窗口方法,将输入图像分解为更小的块。虽然这种动态分辨率方法在处理高分辨率输入图像(例如PDF)时非常有效,但会导致过多的图像token,并在一定程度上限制生成的OCR结果的最大长度。

 

3 通用OCR理论

        在这项工作中,我们提出了通用OCR理论,即OCR-2.0(如第1节所述),以促进OCR领域的发展。基于这一新理论,我们提出了一种新颖的OCR模型(GOT)。在本节中,我们将介绍我们模型的技术细节,包括框架、多阶段训练策略以及相应的数据引擎

3.1 框架

        如图2所示,GOT由三个模块组成:图像编码器、线性层输出解码器。线性层作为连接器,用于映射视觉编码器与语言解码器之间的通道维度。我们通过三个主要步骤来优化整个GOT模型。首先,我们进行纯文本识别任务以预训练视觉编码器。为了提高训练效率并节省GPU资源,我们选择了一个较小的解码器来将梯度传递给编码器。在这一阶段,我们将包含场景文本的图像和包含文档级字符的手工图像输入到模型中,以使编码器能够学习到两种最常用字符的编码能力。在下一阶段,我们通过将已训练的视觉编码器连接到一个新的更大的解码器来构建GOT的架构。我们为此阶段准备了大量更通用的OCR数据(例如乐谱、数学/分子公式和几何图形),以扩展OCR-2.0知识的范围。在最后阶段,我们旨在进一步提升GOT的泛化能力和适用性。具体来说,我们生成了细粒度和多裁剪/多页的合成数据,并将其加入到GOT中,以支持区域提示OCR[20]、超大图像OCR以及批量PDF OCR功能。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第2张图片

        图2:所提出的GOT框架。第1阶段:我们使用一个小型OPT-125M预训练视觉编码器,以高效适配OCR任务。第2阶段:通过将视觉编码器连接到Qwen-0.5B来构建GOT,并在该阶段使用更通用的光学字符的充足OCR-2.0知识。第3阶段:无需修改视觉编码器,GOT被定制为支持新的字符识别功能。

3.2 预训练OCR专用视觉编码器

        如前所述,GOT采用了编码器-解码器结构。受LVLMs设计的启发,解码器可以通过一个训练良好的语言模型初始化。然而,我们并未找到适合OCR-2.0模型的预训练编码器,因此必须自行训练一个。我们希望新的OCR编码器能够在各种输入形状(包括切片和整页)中,在常用的场景和文档文本识别中表现良好。

3.2.1 视觉编码器的生成

        我们选择VitDet[17](基础版本,约8000万参数)作为编码器结构,因为它的局部注意力机制可以大幅降低高分辨率图像的计算成本。我们按照Vary-tiny设置[46]设计了编码器的最后两层,这些层可以将1024×1024×3的输入图像转化为256×1024的图像tokens。随后,这些图像tokens通过一个1024×768的线性层投射到语言模型(OPT-125M[53])的维度。与Vary编码器仅关注单一文档任务并适配相对单一的输入形状不同,我们在预训练中结合了自然场景和裁剪切片。在预处理阶段,各种形状的图像都被直接调整为1024×1024的正方形,因为正方形形状可以在各种宽高比图像中提供一定的适应性。

3.2.2 编码器预训练的数据引擎

        在编码器的预训练阶段,我们使用了大约500万对图像-文本数据,包括300万场景文本OCR数据和200万文档OCR数据。这些数据的获取方式如下。

        自然场景数据:英文图像从Laion-2B[40]数据集中抽取,中文图像从Wukong[12]数据集中抽取。随后,使用PaddleOCR[10]工具从这些多样化的真实场景中获取伪真值文本。总体上,我们获得了200万条数据,其中中英文各占一半。对于文本真值,我们进行了两种处理:移除边界框,并按照从上到下、从左到右的顺序组合每段文本内容;根据边界框从原始图像裁剪文本区域,保存为图像切片。第二种方法使我们额外获得了100万条切片类型的图像-文本数据对。

        文档级数据:我们首先从Common Crawl中收集开源的PDF样式文件,并使用Fitz Python工具包提取相应的密集文本内容。在此过程中,我们获得了120万条整页PDF样式的图像-文本数据对和80万条切片数据。切片数据包括行级和段落级,是通过解析边界框从PDF图像中裁剪获得的。

3.3 通过多任务联合训练扩展OCR-2.0知识

3.3.1 GOT的最终架构

        在完成视觉编码器的预训练步骤后,我们将其连接到一个功能更强大的语言模型,构建GOT的最终架构。在此,我们采用了Qwen[4]作为解码器,其参数量为5亿,参数量相对较小,同时还融合了多语言的先验知识。连接器(即线性嵌入层)的维度被调整为1024×1024,以与Qwen-0.5B的输入通道对齐。因此,GOT形成了一个无缝的编码器-解码器架构,总参数量约为5.8亿,更加节省计算资源,也更易于部署在4G内存的消费级GPU上。编码器的高压缩率(从1024×1024的光学像素压缩为256个图像token)为解码器生成新token节省了大量空间。同时,解码器满意的解码上下文长度(最大支持约8K长度)确保了GOT在密集场景下能够有效输出OCR结果。

3.3.2 用于联合训练的数据引擎

        为了将充足的OCR-2.0知识注入GOT,在这一阶段我们并未局限于前述的普通OCR数据,而是精心探索了多种合成方法和数据引擎,如图3所示。以下段落详细说明每种合成数据的来源。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第3张图片

        图3:我们使用六种渲染工具运行数据引擎,以使GOT能够在多样化的OCR任务中表现良好。具体而言,我们使用LATEX渲染表格,Mathpix-markdown-it渲染数学/分子公式,TikZ渲染简单几何图形,Verovio渲染乐谱,Matplotlib和Pyecharts渲染图表。 

普通OCR数据
        我们使用第3.2.2节中提到的数据的80%作为普通OCR数据。为了进一步增强GOT的鲁棒性,我们还增加了手写文本识别子任务,该任务涉及各种风格的手写体文字(来自不同语言的信件和日记)。我们收集了中文的CASIA-HWDB2[1]、英文的IAM[2]和挪威的NorHand-v3[3]数据集。对于行级切片格式的原始图像-文本对,我们将6至8对组合并随机粘贴到空白文档页面中,以实现长文本手写体的识别并提高训练效率。

Mathpix-markdown格式数据
        为了在输出结果中保持光学内容格式的强可读性,特别是数学公式和表格,我们通过多种方式收集尽可能多的格式化数据。

        数学公式:我们从Arxiv爬取大量LATEX源文件(.tex),并提取约100万公式片段。接着,我们将公式源转化为Mathpix格式,并使用Chrome-driver调用Mathpix-markdown-it工具,将源文件渲染为HTML格式。随后,将HTML文件转换为SVG并保存为PNG图像。我们发现这种渲染方法比直接使用LATEX快20倍以上。

        分子公式:我们下载了包含200万SMILES源文件的ChEMBL_25文件,然后使用Mathpix-markdown-it工具和rdkit.Chem包,收集了约100万分子公式图像-文本对。

        表格:从爬取的.tex文件中提取约30万表格源文件,并将其渲染为图像。由于LATEX在高级表格的渲染效果更好,因此直接使用LATEX作为渲染工具,而非Mathpix-markdown-it。

        整页数据:使用Nougat[6]方法,我们获得了约50万对英文markdown PDF文本对。此外,参考Vary[46, 47],我们收集了另外50万对中文markdown对,并将其内容转化为Mathpix格式。我们还额外添加了约20万条内部数据,包括图书、论文和财务报告,这些数据是直接用Mathpix标注的。

更通用的OCR数据
        为了使GOT能够处理更通用的人工光学“字符”,我们收集了三个相关的挑战性任务并生成了对应的数据:乐谱、几何图形和图表。

        乐谱:乐谱是文化遗产的重要组成部分,光学乐谱识别在实现乐谱的自动识别和转录中发挥重要作用[7, 38]。我们选择了GrandStaff[39]数据集作为来源来渲染。这些多声部音乐得分提供了Humdrum **kern转录格式。除了现有的约10万图像-文本样本外,我们还提取了一些文本样本,通过Verovio Python包重新渲染,并随机添加标题和作者信息。最终,我们收集了约50万样本。

        几何图形:几何是LVLMs的关键能力之一,也是迈向AGI的重要一步。GOT被期望能够将光学几何元素转化为TikZ[34]文本格式。我们使用TikZ风格的点和线,以及最简单的点线空间关系,构造了基础几何图形(如圆形、矩形、三角形、组合形状)以及简单的函数曲线(如直线、抛物线、椭圆、双曲线等)。通过这种方法,我们获得了约100万条几何TikZ数据。

        图表:图表在多个研究领域的数据可视化和分析中至关重要。我们参考OneChart[8],通过Matplotlib和Pyecharts工具渲染图表图像-文本对。由于GOT仅是OCR模型,无需图表元素在语义上相关。因此,我们从开放访问的NLP语料库中随机提取实体文本(如标题、来源、x轴标题、y轴标题等),并从受控分布中生成随机数值。通过此方法,我们获得了200万条图表数据,其中一半来自Matplotlib,另一半来自Pyecharts。

3.4 通过解码器后训练定制新的OCR功能

        在通过前两个步骤压缩多样化OCR-2.0光学信号的通用视觉信息后,GOT已经准备好在各种场景下执行图像级OCR任务。基于这种感知能力强的视觉编码器,GOT可以轻松调整以满足用户对输入和输出的需求。我们通过仅对解码器部分进行后续训练,为GOT定制了三个新功能:细粒度、多页和动态分辨率OCR

3.4.1 细粒度数据引擎用于交互式OCR

        作为一种高交互性功能,细粒度OCR[20]是一种由空间坐标或颜色控制的区域级视觉感知功能。用户可以在问题提示中添加框坐标(框引导OCR)或彩色文本(颜色引导OCR),以请求对感兴趣区域(RoI)的识别,从而避免输出其他无关字符。对于自然场景的细粒度OCR,源图像和注释来自开源数据集,包括RCTW[41]、ReCTS[25]、ShopSign[51]和COCO-Text[44]数据集。这些数据集提供文本边界框,因此我们可以直接用它们生成细粒度(区域/颜色提示)OCR数据。对于文档级的细粒度OCR,参考Fox[20]方法,我们从下载的PDF文件中筛选出扫描格式的文件,并使用Python包(Fitz/PDFminer)解析剩余部分。我们记录页面级图像、每行/段的边界框以及对应的文本,以生成框引导OCR子任务的真值数据。对于这种任务,每个坐标值先被归一化,然后放大1000倍。对于颜色引导任务,我们选择最常用的颜色(红、绿和蓝)作为框颜色,并通过对应的边界框在原始图像上绘制。总体上,我们收集了约60万条样本。

3.4.2 多裁剪数据引擎用于超大图像OCR

        GOT支持1024×1024的输入分辨率,足以应对常见的OCR任务,例如场景OCR或A4页面的PDF OCR。然而,对于某些场景下的超大图像(例如两页PDF水平拼接,常见于阅读论文时),需要动态分辨率。得益于我们高压缩率的编码器,GOT在一个大滑动窗口(1024×1024)下实现了动态分辨率功能,确保模型能够以可接受的图像token数量完成超高分辨率的OCR任务。我们采用InternVL-1.5[9]的裁剪方法,平铺的最大裁剪数为12。超分辨率图像通过上述单页PDF数据合成,包括水平和垂直拼接。通过这种方法,我们共获得了50万条图像-文本对数据。

3.4.3 多页数据引擎用于批量PDF文件OCR

        对于OCR任务,多页处理通常使用“for循环”。由于某些格式化PDF数据使得分页困难(例如Arxiv中的.tex文件),我们为GOT引入了多页OCR功能(无需“for循环”),以便进一步扩展。这种功能旨在解决PDF真值分页问题(例如Nougat[6]),使研究人员可以直接在多页上进行训练。为实现这一功能,我们从Mathpix格式的PDF数据中随机抽取2至8页,将其拼接在一起,形成一个单轮OCR任务。每页文本包含的token数少于650,以确保总长度不超过8K。我们共生成了约20万条多页OCR数据,其中大部分是中英文页面交替的内容。

 

4 实验

4.1 实现细节

        我们使用8×8 L40s GPU对GOT进行训练。在预训练阶段,我们以全局批量大小128优化所有模型参数,训练3个epoch。我们采用AdamW[29]优化器,并使用余弦退火调度器[28],初始学习率为1e-4。在此阶段,最大token长度设置为4096。在联合训练阶段,我们将最大token长度设为6000,使用与第一阶段相同的优化器设置,训练1个epoch。在最后的后训练阶段,我们将最大token长度扩展到8192,以使模型支持多块/多页OCR功能。在此阶段,初始学习率为2e-5,训练1个epoch。

        在每个训练数据处理过程中,从上一阶段的数据中采样80%用于下一阶段训练,以确保在添加新功能时基本能力不会退化。

4.2 主要结果

        在本节中,我们验证了GOT在五种不同OCR任务中的性能,包括1)普通文档OCR;2)场景文本OCR;3)细粒度文档OCR;4)格式化(Mathpix markdown)文档OCR;5)更通用字符OCR。需要注意的是,每个基准测试的数据在测试前都经过严格的文本相似性过滤,以确保其未包含在训练数据中。以下是每个测试基准的数据来源及模型性能分析。

4.2.1 普通文档OCR性能

        我们使用开源的Fox[20]基准测试来评估GOT在中文和英文PDF OCR中的性能。所用的指标是OCR任务中常用的,包括编辑距离、F1-score、精确率、召回率、BLEU和METEOR。由于文档的文本较长,我们采用了词级分割来计算各项指标。如表1所示,GOT仅凭580M参数,在文档中的纯文本OCR任务中达到了先进的性能,证明了其卓越的PDF文本感知和识别能力。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第4张图片

        表1:文档级页面中密集英文(en)和中文(zh)OCR性能比较。其他模型的结果来源于之前的研究[20]。

4.2.2 场景文本OCR性能

        我们收集了400张自然场景图像,其中一半为中文,一半为英文,作为场景文本OCR的基准测试。该基准测试中的所有真值均经过人工校正。由于场景图像中的文本相对较短,我们采用字符级分割来计算各项指标。如表2所示,GOT在自然场景图像上的表现也非常优秀,展示了模型在大多数基础OCR任务(包括文档和场景文本)中的卓越性能。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第5张图片

         表2:场景文本中英文(en)和中文(zh)OCR性能比较。

4.2.3 格式化文档OCR性能

        将光学PDF图像转换为类似markdown的格式是OCR模型的一项重要功能。为了验证GOT的这一能力,我们精心准备了90页样本作为高质量的基准测试。这些基准数据包含中英文文档页面,首先通过Mathpix生成伪标签,然后进行人工校正以修正错误。如表3所示,单尺度(1024×1024)下的GOT能够产生令人满意的结果。当我们使用多裁剪推理时,GOT的性能进一步提升,尤其是在包含小文本的公式和表格上。这些结果证明了GOT在格式化输出文档上的有效性。此外,在处理高分辨率图像时,动态分辨率方案是一个不错的选择。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第6张图片

表3:格式化文档(中文/英文)和更通用OCR的性能比较。单一(Single)表示输入为原始图像,多裁剪(Multi-crop)表示使用动态分辨率策略

4.2.4 细粒度OCR性能

        我们报告了GOT的细粒度OCR指标。如表4所示,GOT在基于边界框和基于颜色的参考OCR任务上总体表现优于Fox[20],表明我们的模型具有出色的交互式OCR能力。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第7张图片

表4:细粒度文档OCR性能比较。 

4.2.5 更通用OCR性能

        我们利用乐谱、几何图形和图表基准测试来验证GOT在更通用OCR任务中的性能。对于前两个任务,我们分别渲染了100个和180个额外样本作为基准测试。如表3所示,GOT在这些新OCR任务中仍然表现良好。对于图表OCR,我们使用了结构提取版本的ChartQA[32]和PlotQA[35]作为基准测试。如表5所示,GOT在图表OCR能力上甚至远超专门的图表模型和流行的LVLMs。所有结果均表明,我们的模型在更通用OCR任务上的有效性。

【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model_第8张图片

 表5:以数字为中心的图表OCR性能比较。

5 结论

        本文提出了一种初步的OCR-2.0模型,其结构比OCR-1.0系统更简单,比LVLMs更专注于纯OCR任务,同时具有更优异的性能。OCR-2.0将各种泛OCR任务集成到一个模型中,是模型设计、数据工程和应用场景中一个具有重要价值的研究方向。我们希望这个简单、优雅、高效且前景广阔的GOT OCR-2.0模型能够吸引更多人关注这一任务。

6 附录

        (附录记载了一些具体的测试图片结果,详情可参看原文)

 

你可能感兴趣的:(论文翻译,ocr,论文阅读,论文翻译)