文章目录
此文章主要介绍DocumentAI表格识别的V1版本,通过DocumentAI表格识别实现表格检测并实现表格还原结构
- 表格检测:检测表格在图片中所处的区域
- 表格还原结构:通过表格图片还原表格的结构信息,主要包括(行数,列数,合并单元格数)
目前DocumentAI表格识别已实现V2版本,大幅提升标准表格的识别准确率,具体信息会在下一篇blog中再具体说明
在现实生活中,表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,它们的文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。
DocumentAI表格识别将表格分为两类,一种为标准表格,另一种为非标准表格:
标准表格图片
非标准图片
DocumentAI通过结合AI与传统算法实现表格识别,主要用到的AI能力与算法有:
通过以上的AI与算法再结合一些表格识别算法即可实现通用表格识别,同时支持识别标准表格与非标准表格
图像处理的大致流程为:
通过输出表格的html格式更方便用户的结果可视化与调试
通过json格式更方便的在各语言之间传输表格数据
原图
html展示结果
{
“type”: “table_with_line”, //表格类型
“angle”: 0, //表格倾斜角度
“width”: 572, //表格宽度
“height”: 93, //表格高度
“rows”: 3, //表格行数
“cols”: 3, //表格列数
“position”: [111, 266, 683, 266, 683, 359, 111, 359], //表格位置
“height_of_rows”: [32, 30, 31], //表格每一行的高度
“width_of_cols”: [190, 190, 191], //表格每一列的宽度
“table_cells”: [ //表格内所有单元格的信息
{
“start_row”: 1, //单元格所在开始行号
“end_row”: 1, //单元格所在结束行号
“start_col”: 1, //单元格所在开始列号
“end_col”: 1, //单元格所在结束列号
“text”: “”, //单元格文本内容
“position”: [0, 0, 190, 0, 190, 32, 0, 32], //单元格位置
“lines”: [] //单元格文本行信息
},
…, // 其余单元格
{
“start_row”: 3,
“end_row”: 3,
“start_col”: 3,
“end_col”: 3,
“text”: “23%”,
“position”: [380, 62, 571, 62, 571, 93, 380, 93],
“lines”: [
{
“text”: “23%”,
“score”: 1,
“position”: [458, 70, 491, 70, 491, 93, 458, 93]
}
]
}
]
}
表格json结果