python自动化系列之操作pdf的库PyPDF2

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便

使用PyPDF2

PyPdf2中有两个模块,分别是:

  • 读取库 PDFFileReader
  • 操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation =

你可能感兴趣的:(python实用,python,自动化,开发语言)