PDF信息抽取工具(PDFConverter)

简介

目前,PDF已成为电子文档发行和数字化信息传播的一个标 准,其广泛应用于学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的一大 挑战。本项目利用Adobe公司开发的 Acrobat DC SDK对PDF进行格式 转换,从半结构化的中间文件进行信息抽取。相比已有方法, Acrobat导出的中间文件保存了更完整更准确的表格和文本段落信 息,能应用于不同需求的信息抽取任务。项目开源地址: PDFConverter,欢迎Start。

项目架构

PDF信息抽取工具(PDFConverter)_第1张图片

特性

可根据需要,将PDF转换为xml,doc(docx),html,excel,jpg,txt。xml,html,doc(docx)会保留表格信息,可直接抽取。html尽可能保留PDF文档的layout信息。控制器能支持批量处理,注意是单进程的,因为Adobe Acrobat DC不支持多进程,想要多进程或者多线程,需要使用他们公司另外的包 Adobe PDF Library。小规模数据,几万个PDF(平均一个文档12页),大概15-20个小时能处理完了。

对比

Comparison

Format Convert speed Extract table Complete Analyze
XML Fast Yes Good Easy
Word Slow Yes Good General
Excel General Yes Great Hard
TXT Fatest No General Hardest
HTML Fast Yes Best Easy

你可能感兴趣的:(Tools,数据挖掘)