TrOCR – 基于 Transformer 的 OCR 入门

一、TrOCR 架构

        近些年,光学字符识别 (OCR) 出现了多项创新。它对零售、医疗保健、银行和许多其他行业的影响是巨大的。与深度学习的许多其他领域一样,OCR领域也看到了Transformer 神经网络的重要性和影响。如今,出现了像TrOCR(Transformer OCR)这样的模型,它在准确性方面真正超越了以前的技术。

        在论文 TrOCR:基于 Transformer 的光学字符识别与预训练模型中。

        作者提出了一种不同于传统CNN和RNN架构的方法。相反,他们使用视觉和语言转换器模型来构建 TrOCR 架构。

        TrOCR 模型由两个阶段组成:

  • 编码器阶段由预训练的视觉变换器模型组成。
  • 解码器阶段由预训练的语言转换器模型组成。

你可能感兴趣的:(深度学习从入门到精通,数字图像处理从入门到精通,ocr,TrOCR,Transformer,深度学习,神经网络)