用python处理PDF

文章目录

  • PDF的页操作
    • PdfFileReader
      • 读取PDF
      • 一些方法
    • PdfFileWriter
      • 写入PDF
      • 一些方法
    • PdfFileMerger
    • 样例
      • 删除指定页
      • 合并多个PDF
  • PDF内容的提取
    • 读取PDF
    • 查看page信息
    • 内容的提取

PDF的页操作

这里主要用的是pypdf4。虽然pypdf2更加热门,但是它已经停止了维护。目前最新的版本是pypdf4,希望作者可以一直维护下去。
安装:pip install PyPDF4
github:https://github.com/claird/PyPDF4
pypi:https://www.cnpython.com/pypi/pypdf4
目前的版本是1.27.0,与pypdf2基本一致。
pypdf2文档:https://pythonhosted.org/PyPDF2/

pypdf4有两大类,分别是PdfFileReaderPdfFileWriter。顾名思义,前者用来读取PDF,后者用来写入PDF

PdfFileReader

读取PDF

import os
from PyPDF4 import PdfFileReader

pdf_path = os.path(r"F:\test.pdf")
pdf = PdfFileReader(pdf_path, 'rb')

一些方法

pdf.getDocumentInfo()  # 获取文件信息
pdf.getIsEncrypted()   # 是否加密
pdf.getNumPages()      # 获取页数
pdf.getPage(index)     # 获取该页
pdf.getOutlines()      # 获取大纲

PdfFileWriter

写入PDF

from PyPDF4 import PdfFileWriter
output = PdfFileWriter()
with open(r'F:\output.pdf','wb') as f:
	output.write(f)

一些方法

output.addpage(Page)                 # 追加Page页
output.addBlankPage()                # 追加一张空白页
output.addBookmark(title, pagenum)   # 添加书签,pagenum从0开始计数
output.cloneDocumentFromReader(PdfFileReader)   # 深拷贝
output.insertBlankPage(index=pos)    # 在pos处插入空白页
output.insertPage(page, pos)         # 在pos处插入page页

output.getNumPages()                 # 获取页数
output.getPage(index)                # 获取该页
output.getOutlines()                 # 获取大纲
output.encrypt(user_pwd)             # 加密

PdfFileMerger

可以用来合并多个PDF文件的类,主要方法是mergeappend。目前还没看明白。

样例

删除指定页

import os
from PyPDF4 import PdfFileWriter, PdfFileReader

path = r"F:"
index = 1
infile = PdfFileReader(os.path.join(path,'test.pdf'),'rb')
output = PdfFileWriter()

for i in range(infile.getNumPages()):
    if i != index:
        p = infile.getPage(i)
        output.addPage(p)

with open(os.path.join(path,'new_test.pdf'),'wb') as f:
    output.write(f)

合并多个PDF

import os
from PyPDF4 import PdfFileWriter, PdfFileReader

path = r"F:"
pdf_list = os.listdir(path)

output = PdfFileWriter()

for pdf in pdf_list:
    infile = PdfFileReader(os.path.join(path,pdf),'rb')
    # output.cloneDocumentFromReader(infile)  # 没有测试合并顺序
    for i in range(infile.getNumPages()):
        p = infile.getPage(i)
        output.addPage(p)

with open(os.path.join(path,'new.pdf'),'wb') as f:
    output.write(f)

PDF内容的提取

这里主要用的是pdfplumber。其他包虽然也有提取的功能,但大多都不尽人意。这个效果稍好一点,而且还在维护中。
安装pip install pdfplumber

读取PDF

import pdfplumber
pdf = pdfplumber.open(r"F:\test.pdf")
pdf.metadata    # 返回基础信息
pdf.pages       # list, pdf各页

查看page信息

page = pdf.pages[0]
page.page_number # 页码:1
page.width       # 页宽
page.height      # 页高

内容的提取

page.extract_text()   # 提取文字,返回str
page.extract_words()  # 提取文字,返回list,元素为dict包含x0,x1,top,bottom,text字段
page.extract_table()  # 提取表格,返回迭代器,可逐行读取
page.extract_tables() # 提取表格,返回list->row->cel

你可能感兴趣的:(python)