文字识别：关键信息提取的3种探索方法

摘要：如何通过深度学习模型来从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战，受到学术界和工业界的广泛关注。

本文分享自华为云社区《技术综述十：文字识别之关键信息提取》，原文作者：小菜鸟chg 。

深度学习模型已经在OCR领域，包括文本检测和文本识别任务，获得了巨大的成功。而从文档中提取关键信息（如图1所示），其作为OCR的下游任务，存在非常多的实际应用场景。使用人力来从这些文档中提取信息是重复且费时费力的。如何通过深度学习模型来从文档图片中自动化地提取出关键信息成为一项亟待解决的挑战，受到学术界和工业界的广泛关注。下面将对近期几篇相关文章进行简要介绍，并将其分为三个类别：基于栅格（grid-based）、基于图结构（graph-based）和端到端（end-to-end）。

(a)火车票

（b）购物收据

图1 从文档图片中提取关键信息

1. 基于栅格的文档图片关键信息提取技术

该类方法基于图片像素点将图片转换为栅格表示向量，输入到深度学习网络中以学习提取关键信息。

1.1 Chargrid[1]

这篇文章指出文档中的文本间关系不仅受文本的序列顺序影响，还与文档中各文本的版式分布有关。为解决上述问题，作者提出chargrid方法，其将文档图片映射为一个字符级别的2D栅格表示，如图2所示。对于每一个字符栅格采用one-hot编码表示，整个图片的向量表示为tilde{g} in mathbb{R}^{H×W×N_{c}}_g_~∈R_H_×_W_×_Nc_，其中H_H_和W_W_是图片的长和宽，N_{c}_Nc_是字符类别数。

图2 chargrid的文档表示

随后该向量表示作为chargrid-net的输入，基于encoder-decoder的CNN网络结构（如图3所示）进行关键信息的文本框检测和语义分割。整个网络由分割损失、边框分类和边框坐标回归三个部分组成的损失函数优化学习：{mathcal{L}}_{total}={mathcal{L}}_{seg}+{mathcal{L}}_{boxmask}+{mathcal{L}}_{boxcoord}L_total_=L_seg_+L_boxmask_+L_boxcoord_。关键信息内容通过将分割类别属于同一类别的字符整合得到。

图3 chargrid模型架构

1.2 CUTIE[2]

这篇文章同样指出仅利用NLP技术是无法处理文档中各文本间的布局信息。因此作者设计了CUTIE方法，如图4所示，将文档图片映射为保留各文本空间位置关系的栅格向量表示，然后设计了两类CNN模型来进行关键信息题：CUTIE-A，采用高分辨率网络HRNet作为骨干网络；CUTIE-B，采用空洞卷积的CNN网络。整个模型由每个box的预测类别和真实类别间的交叉熵损失优化学习。

图4 CUTIE模型架构

2. 基于图结构的文档图片关键信息提取技术

基于图结构的方法是将文档图片看作是由文本切片（text segment）组成的图结构，并利用神经网络模型来学习出各文本切片间的关系来提取出文档的关键信息内容。

2.1 GC-BiLSTM-CRF[3]

这篇文章指出传统NER方法BiLSTM-CRF无法利用文档图片中各文本切片间的布局信息。为解决上述问题，作者提出利用图卷积神经网络来学习文本切片的语义信息和布局信息。

图5 图卷积神经网络学习文本切片的图向量表示

具体地，将文本切片看做点，将文本间关系看做边，来构造一个全连接图结构。利用图卷积神经网络来学习得到每个文本切片的图向量表示，如图5所示。

图6 引入图向量表示的BiLSTM-CRF

在得到文本切片的图向量表示后，将其与文本切片中每个文本token的Word2Vec向量拼接，输入到BiLSTM-CRF网络中进行文档图片的关键信息提取。整个模型由文本切片分类任务和IOB序列分类任务联合优化学习。

2.2 LayoutLM[4]

这篇文章指出预训练模型已经在NLP领域获得了巨大的成功，但是其缺乏对布局和版式信息的利用，从而不适用于文档图片关键信息提取任务。为解决上述问题，作者提出LayoutLM模型。

图7 LayoutLM模型架构

该模型以BERT（NLP领域非常强大的预训练模型）为骨干网络，为了利用布局和版式信息，引入了2D位置向量表示，即各文本切片的两点标注（左上角的横纵坐标和右下角的横纵坐标）分别通过横纵两个方向上的索引表得到的向量。同时可以选择性地加入切片的视觉向量表示以补充更多的信息。由于BERT本质上可被看做是一个全连接的图网络，因此我们将LayoutLM也归类于基于图结构的技术。后续出现了类似于LayoutLM的预训练模型如Lambert[5]等，在文档图片关键信息提取任务上都取得了SOTA结构，证明了深度学习模型基于大语料和大模型的强大能力。

3.端到端的文档图片关键信息提取技术

端到端的方法，顾名思义，就是直接以原始图片作为输入得到文档的关键信息内容。

3.1 EATEN[6]

这篇文章指出，基于检测识别流程的信息提取技术会受到如轻微的位置偏移等带来的影响。为解决上述问题，作者提出EATEN方法，其直接从原始图片输入中提取出文档关键信息内容。

图8 EATEN模型架构

具体地，如图8的网络结构所示，EATAN采用CNN骨干网络来提取得到文档图片的高层视觉信息，然后利用实体类别感知的注意力网络来学习实体布局信息，最后利用基于LSTM的解码器解码得到预设的实体内容。该模型由于直接从图片中得到文档关键信息，易于加速优化，便于边缘部署。

3.2 TRIE[7]

这篇文章指出，现有方法对关键信息提取都是将其作为多个独立的任务进行，即文字检测、文字识别和信息提取，彼此之间无法进行相互监督学习，因此作者提出一个端到端的网络模型TRIE，同时对上述三个任务进行模型学习。

图9 TRIE模型架构

具体地，利用ResNet+FPN作为骨干网络，进行文字检测，然后利用检测网络+ROIAlign的结果进行attention+encoder-decoder的文字识别，最后将文本位置信息、视觉信息、语义信息进行融合，通过BiLSTM来进行IOB标签分类得到文档关键信息。整个TRIE模型对三个任务（即文本检测、文本识别和信息提取）进行共同优化学习：

小结：

本文对OCR领域中文档图片的关键信息提取技术进行了简要介绍，将近期技术按模型分为基于栅格、基于图和端到端三种类别，对每个类别筛选了两篇论文进行了阐述。总的来说，基于大语料的预训练图模型展现出了巨大的实力，而端到端模型也存在不小的潜力。

参考文献：

[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, Łukasz, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.

点击关注，第一时间了解华为云新鲜技术~