这里主要用的是pypdf4。虽然pypdf2更加热门,但是它已经停止了维护。目前最新的版本是pypdf4,希望作者可以一直维护下去。
安装:pip install PyPDF4
github:https://github.com/claird/PyPDF4
pypi:https://www.cnpython.com/pypi/pypdf4
目前的版本是1.27.0,与pypdf2基本一致。
pypdf2文档:https://pythonhosted.org/PyPDF2/
pypdf4有两大类,分别是PdfFileReader
和PdfFileWriter
。顾名思义,前者用来读取PDF,后者用来写入PDF
import os
from PyPDF4 import PdfFileReader
pdf_path = os.path(r"F:\test.pdf")
pdf = PdfFileReader(pdf_path, 'rb')
pdf.getDocumentInfo() # 获取文件信息
pdf.getIsEncrypted() # 是否加密
pdf.getNumPages() # 获取页数
pdf.getPage(index) # 获取该页
pdf.getOutlines() # 获取大纲
from PyPDF4 import PdfFileWriter
output = PdfFileWriter()
with open(r'F:\output.pdf','wb') as f:
output.write(f)
output.addpage(Page) # 追加Page页
output.addBlankPage() # 追加一张空白页
output.addBookmark(title, pagenum) # 添加书签,pagenum从0开始计数
output.cloneDocumentFromReader(PdfFileReader) # 深拷贝
output.insertBlankPage(index=pos) # 在pos处插入空白页
output.insertPage(page, pos) # 在pos处插入page页
output.getNumPages() # 获取页数
output.getPage(index) # 获取该页
output.getOutlines() # 获取大纲
output.encrypt(user_pwd) # 加密
可以用来合并多个PDF文件的类,主要方法是merge
和append
。目前还没看明白。
import os
from PyPDF4 import PdfFileWriter, PdfFileReader
path = r"F:"
index = 1
infile = PdfFileReader(os.path.join(path,'test.pdf'),'rb')
output = PdfFileWriter()
for i in range(infile.getNumPages()):
if i != index:
p = infile.getPage(i)
output.addPage(p)
with open(os.path.join(path,'new_test.pdf'),'wb') as f:
output.write(f)
import os
from PyPDF4 import PdfFileWriter, PdfFileReader
path = r"F:"
pdf_list = os.listdir(path)
output = PdfFileWriter()
for pdf in pdf_list:
infile = PdfFileReader(os.path.join(path,pdf),'rb')
# output.cloneDocumentFromReader(infile) # 没有测试合并顺序
for i in range(infile.getNumPages()):
p = infile.getPage(i)
output.addPage(p)
with open(os.path.join(path,'new.pdf'),'wb') as f:
output.write(f)
这里主要用的是pdfplumber。其他包虽然也有提取的功能,但大多都不尽人意。这个效果稍好一点,而且还在维护中。
安装pip install pdfplumber
import pdfplumber
pdf = pdfplumber.open(r"F:\test.pdf")
pdf.metadata # 返回基础信息
pdf.pages # list, pdf各页
page = pdf.pages[0]
page.page_number # 页码:1
page.width # 页宽
page.height # 页高
page.extract_text() # 提取文字,返回str
page.extract_words() # 提取文字,返回list,元素为dict包含x0,x1,top,bottom,text字段
page.extract_table() # 提取表格,返回迭代器,可逐行读取
page.extract_tables() # 提取表格,返回list->row->cel