pdf 改变页面大小 python_在Python中使用PDF:阅读和拆分

Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发。

PDF 文档格式

今天,可移植文档格式(PDF)属于最常用的数据格式。 1990年,Adobe定义了PDF文档格式。 PDF格式背后的想法是传输的数据/文档对于通信过程中涉及的双方——创建者,作者或发送者和接收者来说看起来完全相同。 PDF是PostScript格式的后续版本,标准化为ISO 32000-2:2017。

处理PDF文档

对于Linux,有很多可用的命令行工具,如pdftk和pdfgrep来操作pdf。 作为开发人员,您可以构建自己的基于Python的软件,并使用免费提供的PDF库。

本文是一个小系列的开头,将介绍这些有用的Python库。 在第一部分中,我们将重点介绍现有PDF的操作。 您将学习如何阅读和提取内容(文本和图像),旋转单个页面以及将文档拆分为单独的页面。 第二部分将介绍如何根据叠加层添加水印。 第三部分将专注于编写/创建PDF,还将包括删除和重新组合单个页面到新文档。

工具和库

与Python相关的PDF工具,模块和库的可用解决方案范围有点令人困惑,需要花一点时间来弄清楚什么是什么,以及哪些项目是持续维护的。 根据我们的研究,这些是目前最新的方案:

PyPDF2:这是一个Python库,用于提取文档信息和内容,逐页拆分文档,合并文档,裁剪页面和添加水印。 PyPDF2支持未加密和加密的文档。

PDFMiner:完全用Python编写,适用于Python 2.4。对于Python 3,请使用克隆包PDFMiner.six。这两个包都允

你可能感兴趣的:(pdf,改变页面大小,python)