Nougat: Neural Optical Understanding for Academic Documents

本文是LLM系列文章,针对《Nougat: Neural Optical Understanding for Academic Documents》的翻译。

Nougat:学术文献的神经光学理解

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 模型
  • 4 数据集
  • 5 结果与验证
    • 5.5 局限性与未来工作
  • 6 结论

摘要

科学知识主要以PDF的形式存储在书籍和科学期刊中。然而,PDF格式会导致语义信息的丢失,尤其是数学表达式。我们提出了Nougat(学术文献的神经光学理解),这是一个视觉转换器模型,它执行光学字符识别(OCR)任务,将科学文献处理成标记语言,并在新的科学文献数据集上证明了我们的模型的有效性。所提出的方法通过弥合人类可读文件和机器可读文本之间的差距,为在数字时代提高科学知识的可及性提供了一个有希望的解决方案。我们发布了模型和代码,以加速未来科学文本识别的工作。

1 引言

2 相关工作

3 模型

4 数据集

5 结果与验证

5.5 局限性与未来工作

实用
新型的实用性受到许多因素的限制。首先,第5.4节中概述的重复问题。该模型是在研究论文上训练的,这意味着它在具有类似结构的文档上尤其有效。但是,它仍然可以准确地转换其他类型的文档。
几乎每个数据集样本都是英文的。对一个小样本的初步测试表明,该模型与其他基于拉丁语的语言的性能是令人满意的,尽管这些语言中的任何特殊字符都将被拉丁字母表中最接近的对等字符所取代。非拉丁文字语言会导致即时重复。
生成速度
在配备NVIDIA A10G显卡和24GB VRAM的机器上,我们可以并行处理6页。生成速度在很大程度上取决于任何给定页面上的文本量。当token的平均数量≈1400时,我们在没有任何推理优化的情况下,获得了基本模型每批19.5s的平均生成时间。与经典方法(GROBID 10.6 PDF/s)相比,这是非常慢的,但它不限于数字生成的PDF,并且可以正确解析数学表达式。
未来的工作
模型一次在一个页面上进行训练,而不了解文档中的其他页面。这导致整个文档不一致。最值得注意的是,在参考书目中,模型被训练成不同的风格或章节标题,有时数字会被跳过或产生幻觉。尽管单独处理每个页面显著提高了并行性和可扩展性,但可能会降低合并文档文本的质量。
要解决的主要挑战是模型有崩溃成重复循环的趋势,这将留给未来的工作。

6 结论

在这项工作中,我们提出了Nougat,一个基于端到端可训练编码器-解码器转换器的模型,用于将文档页面转换为标记。我们将视觉文档理解的最新进展应用于一项新颖的OCR任务。与相关方法不同,我们的方法不依赖于OCR或嵌入的文本表示,而是仅依赖于光栅化的文档页面。此外,我们还展示了一个自动和无监督的数据集生成过程,我们使用该过程成功地训练了科学文档到标记转换的模型。总的来说,我们的方法不仅在从数字生成的PDF中提取文本方面,而且在转换扫描论文和教科书方面都显示出了巨大的潜力。我们希望这项工作能够成为未来相关领域研究的起点。
所有用于模型评估、训练和数据集生成的代码都可以访问https://github.com/facebookresearch/nougat。

你可能感兴趣的:(LLM,人工智能,机器学习,算法)