基于中文预训练模型和FasterTransformer的光学字符识别: Faster TrOCR

    不久前,微软亚洲研究院的研究员们提出了首个利用预训练模型的端到端基于 Transformer 的文本识别 OCR 模型:TrOCR。该模型简单有效,可以使用大规模合成数据进行预训练,并且能够在人工标注的数据上进行微调。实验证明,TrOCR在打印数据和手写数据上均超过了当前最先进的模型。如图1。

基于中文预训练模型和FasterTransformer的光学字符识别: Faster TrOCR_第1张图片

图1 TrOCR 模型结构示意图

    我认为这种不以RNN参与图像特征提取的模型结构会有广泛的场景应用潜力,并用paddle对其做了实现。此外,与原方法主要有四点不同:

  1. 使用了Swin Transformer及其变体等作为图像部分的编码器;
  2. 使用ERNIE3.0、GPT等基于TansformerEncoder/Decoder的中文预训练模型作为TrOCR文本部分的解码器以适用于中文OCR识别任务;
  3. 集成了 NVIDIA FasterTransformer 和改良的BeamSearch用于预测加速,以解决当模型解码器的维度、束搜索空间、层数,较高、大、深时可能出现的推断效率问题。
  4. 在训练阶段,在Encoder部分添加一个CTCLoss。推断阶段,也可以使用CTC BeamSearch结合Attention Rescoring的方式进行序列预测。

代码/模型:​​​​​​https://github.com/janelu9/TrOCR

你可能感兴趣的:(paddle,transformer,nlp,图像处理)