python处理pdf文件的包分析

需要处理pdf文件,因此使用pip search pdf搜索了一下,将相关包的功能做了一下了解。

查看类型的包

包名 简述 项目地址
tc-pdf 查看给定pdf url 的第一页图像 https://pypi.org/project/tc-pdf/
     

页面拆分类型的包

包名 简述 项目地址
pdf-splitter pdf分页 https://pypi.org/project/pdf-splitter/
PyPDF2 页面处理(合并/分解),基本信息获得 https://pypi.org/project/pyPdf/
     

内容处理的包

包名 简述 项目地址

PDF-Layout-Scanner
pdf解析工具 https://pypi.org/project/PDF-Layout-Scanner/
pdfmajor pdf解析工具 https://pypi.org/project/pdfmajor/
pdfminer pdf解析工具 https://pypi.org/project/pdfminer/
pdfminer.six 从pdf中获取信息,主要是文字,也可以用于pdf文档转换为其他文字格式,比如html https://pypi.org/project/pdfminer.six/
pdfmajor pdf解析工具,是对pdfminer.six的封装 https://pypi.org/project/pdfmajor/
yapdfminer 对pdfminer的个人延展  
pdfparser  pdf parsing tools https://pypi.org/project/pdfparser/

其它

包名 简述 项目地址

pdf-shuffle

A PDF page/image randomizer, or flashcard quiz from a PDF. Or randomize files from a folder. https://pypi.org/project/pdf-shuffle/
PDF-Bookmark a tool for import and export pdf bookmark with the bmk format. https://pypi.org/project/pdf-bookmark/
bericht  HTML to PDF streaming  

pdf_hunter

Search for and download PDF file links from a webpage. https://pypi.org/project/pdf-hunter/
     

因为本次主要查找内容处理的包,所以对这部分比较着重,其他的类型会滤掉的 多一些,如果有其它优秀的包,也欢迎留言共享。

你可能感兴趣的:(编程语言)