基于pyqt5实现PDF文档解析工具

为了更深入的学习和了解PDF文档,计划利用pyqt5实现一个PDF文档解析工具,具体的功能如下:

(a)PDF转图片(已实现)

(b)图片转PDF(已实现)

(b)PDF文本提取(已实现)

(d)图片文本提取(已实现)

(e)PDF表格抽取及结构化解析(计划中)

主要实现技术:pymupdf + ocr

一、UI界面如下

基于pyqt5实现PDF文档解析工具_第1张图片

                                                                                                        图(1)

1.1 PDF转图片

基于pyqt5实现PDF文档解析工具_第2张图片

                                                                                                        图(2)

基于pyqt5实现PDF文档解析工具_第3张图片

                                                                                                       图(3)

步骤4,选择保存路径,即可将PDF转换为图片。

1.2 图片转PDF

基于pyqt5实现PDF文档解析工具_第4张图片

                                                                                                      图(4)

将所选目录中的图片转换成一个PDF文件。

 

1.3 文本提取

工具支持选择一个区域,提取区域内的所有文本,支持的文件格式为pdf和图片,具体如下:

(1)导入文件

         如图(1)所示,可以导入pdf或者图片,后续开发考虑支持更多文件格式

(2)选择区域

  基于pyqt5实现PDF文档解析工具_第5张图片

                                                                                           图(5)

(3)文本解析

通过图(5)步骤4,得到解析结果为:

基于pyqt5实现PDF文档解析工具_第6张图片

 

想体验软件功能或想获取源码,请点击下面的链接关注:

https://pan.baidu.com/s/1jhtIwPQA0hjtSoKj87dsUg

后续文章,将更新软件代码思路和实现。

 

 

你可能感兴趣的:(PDF解析工具开发)