OCR之表格结构识别综述

引言

  • 因为最近在做表格识别这块,顺道整理了一下都有哪些方法。

特定数据集上效果排行榜

ICDAR 2021 Task B

团队 算法介绍 TEDS all 开源地址
海康威视 Davar-Lab LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment 96.36 LGPMA
平安科技 PingAn-VCGroup’s Solution for ICDAR 2021Competition on Scientific Literature Parsing Task B:Table Recognition to HTML 96.32 TableMASTER

综述文章

  • 【2022-04-11】中国图像图形学报-表格识别技术研究综述
  • ICDAR 2021 Competition on Scientific Literature Parsing
  • ICDAR 2019表格识别论文与竞赛综述(上)
  • ICDAR 2019表格识别论文与竞赛综述(下)

传统方法

自顶向下(先检测表格区域,再不断对表格区域进行切割拆分得到单元格区域)
  • OpenCV检测并提取表格:图像二值化→霍夫变换,检测直线→找到表格
自底向上(先检测文本块,找到可能的表格线以及这些线的交点,确定单元格后还原出表格区域)
  • pdfplumber解析表格
  • camelot表格抽取
  • T-recs 对文本块进行聚类

深度学习方法

语义分割
  • (2019 ICDAR)Rethinking Semantic Segmentation for Table Structure Recognition in Documents
  • 走进AI时代的表格图像识别技术 | 鹅厂实战
目标检测
  • (海康ICDAR2021 Table Recognition赛道冠军 ) LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment
    • 官方源码
    • 论文阅读: (ICDAR2021 海康威视)LGPMA(表格识别算法)及官方源码对应解读
    • 整理的仅有推理代码的版本:LGPMA_Infer
  • (2021 基于CenterNet的端到端表格识别方案) Parsing Table Structures in the Wild
  • (2019 角点表格检测法) Faster R-CNN based table detection combining corner locating
序列预测
  • (2022-03-11 IBM) TableFormer: Table Structure Understanding with Transformers)
  • (2021 平安 ICDAR2021 亚军) PingAn-VCGroup’s Solution for ICDAR 2021Competition on Scientific Literature Parsing Task B:Table Recognition to HTML
    • 参与的是将表格转为对应的HTML实现,该赛道的冠军是海康的LGPMA
  • (2020 Latex标签序列预测) Tablebank: Table benchmark for image-based table detection and recognition
  • (2020 HTML标签序列预测,提出了PubTabNet) Image-based table recognition: data, model, and evaluation
图神经
  • ( 2022-03-10 腾讯优图) Neural Collaborative Graph Machines for Table Structure Recognition
  • (2021) GFTE: graph-based financial table extraction
  • (2019) Rethinking table recognition using graph neural networks

参考资料

  • 葫芦哥-2021表格识别综述(一)
  • 合合信息:表格识别与内容提炼技术理解及研发趋势
  • 表格识别方法综述
  • 三篇论文,纵览深度学习在表格识别中的最新应用

你可能感兴趣的:(深度学习,表格结构识别,OCR)