目前正在作的内容,属于现状调研阶段。
目录
ICDAR2019竞赛
ICDAR2021竞赛
icdar 2021有这方面的比赛,贴几个论文:
Table Structure Recognition using Top-Down.pdf
Global Table Extractor (GTE)-号称打败下面.pdf
Robust table recognition for printed document images.txt
ReS2TIM Reconstruct Syntactic Structures from Table Images-19ICDAR-13F1=74.txt
Table Structure Extraction with Bi-directional-19ICDAR-13f1=93.pdf
TableNet Deep Learning model for end-to-end-19ICDAR-13F1=91.pdf
ICDAR_Table_Str_Det-19.pdf
Rethinking Table Recognition using-19-ICDAR.pdf
后缀是19的,表示 19年icdar的会议论文。其中 我主要看了最上面的两篇文章。再贴几个数据集 连接:
TableBank Dataset
IBM Developer
SciTSR dataset (这个数据集是在谷歌云上,最好能,才能下载。)
暂时写到这,后面有感悟,再写。
**************************************************************************************************************
2022.07.08
表格方面的综述2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析_郑建宇Jy的博客-CSDN博客
**************************************************************************************************************
2022.09.14
另一篇表格识别综述,看起来讲的更好一点。
表格识别技术综述_CharlesWu123的博客-CSDN博客
**************************************************************************************************************
下面都是比较新的并且在公开数据集PubTabnet数据集上有良好表现。
干货丨小米表格识别技术揭秘
Table master训练测试流程_CV-deeplearning的博客-CSDN博客.
PaddleOCR/PP-Structurev2_introduction.md at dygraph · PaddlePaddle/PaddleOCR · GitHub
**************************************************************************************************************
表格结构识别的方案梳理:
1. 基于传统算法提取表格线,再由表格线推导行、列、合并单元格的信息;
2. 基于目标检测,检测出单元格,再用后处理方法组织单元格还原表格结构;
3. 基于语义分割,分割出表格线,然后对分割结果进行后处理还原表格结构;
4. 目前主流的方法是将表格用HTML 的超文本表示,然后对HTML 进行编码,预测HTML 序列和对应的坐标信息。该方法在开源数据集上取得了不错的效果,中国平安科技和百度也采用了这种方案,但是HTML 的标签过多导致表格结构识别容易出错。(百度的Paddle和中国平安的table master)
5. 其他。
标注格式PubTabNet:
这里要区分两个概念:a单元格的绝对坐标,b单元格内文本块(可能多行)的绝对坐标。PubTabNet的标注格式是 b种格式,相应的百度的Paddle和中国平安的table master也是用的这种格式,所以都是用序列化模型(GRU、transformer)建模来预测html结构,同时预测单元格内文本块的坐标。得到了逻辑结构html、文本块坐标后,也应该都需要准确OCR信息(文本行坐标和字符)进行后处理还原完整的表格信息。