Python中的库PyPDF2
以实现任意选定页面的合并。通过文件夹遍历,可以将不同文件夹下的PDF按选定的页面合并在一起,方便快捷。比如,可以指定把除了目录页的其他页面合并在一起批量打印。
%%time
import PyPDF2 #可从PDF文档提取信息
import os #用于获取需要合并的PDF文件所在路径
path="data/" # 文件夹路径
#1.获取需要用于合并的文件名及路径
files=[]
for file in os.listdir(path):
if file.endswith(".pdf"): #排除文件夹内的其它干扰文件,只获取PDF文件
files.append(path+file)
#2.获取每个PDF文件里面需要的信息并添加到写入文件
pdf_writer=PyPDF2.PdfFileWriter()
for file in files:
pdf_obj=open(file,'rb')# 以二进制读取,将保留PDF中的所有信息
pdf_reader=PyPDF2.PdfFileReader(pdf_obj)
for page_num in range(1,pdf_reader.numPages): #不要第一页的封面,从第2页开始获取
page_obj=pdf_reader.getPage(page_num)
pdf_writer.addPage(page_obj)
#3.写入并保存汇总PDF文件
pdf_output_file=open("data\combined_inv.pdf",'wb') #以二进制写入,将保留源PDF中的所有信息
pdf_writer.write(pdf_output_file)
pdf_output_file.close()