表格数据的识别与提取

(1)在数字科学文章中,表格是以结构化方式呈现信息的常见形式。然而,表格布局的大变化和数字文档格式中缺乏结构信息对信息检索和相关任务提出了重大挑战。下文中,提出了两种基于无监督学习技术和启发式的表格识别方法,它们可以自动检测存储为PDF的文章中表格的位置和结构。对于两种算法,表区域检测算法首先从一组标记的文本块中识别各个表的边界框。在第二步中,两个不同的表格结构检测方法从包含在这些表区域中的一组单词中提取表格单元的矩形网格。
参考:http://www.dlib.org/dlib/november14/klampfl/11klampfl.html

(2)
表格数据的识别与提取_第1张图片

参考:https://roundtrippdf.com/en/

(3)信息提取 - 利用表格模式
参考:http://ieg.ifs.tuwien.ac.at/projects/pdf2table/

你可能感兴趣的:(自然语言处理)