pdf合并工具

最近需要合并大量的pdf, 找了几个工具,要么收费,要么不好用,然后就自己写了简单功能的小工具.
特点就是把当前目录及子目录下的所有pdf文件合并成一个merged.pdf (比如你直接放在D盘根目录会把你D盘里面的所有pdf全部合并成一个, 会很占内存和时间)
除了方便打印我也不知道有什么其他的作用, 反正我就是拿来打印的

已知BUG

  1. 某些特殊编码的pdf合并会失败(没找到解决办法), 而且也无法确定是哪一个文件---整个文件保存失败也就是完全无法合并
  2. 某些pdf会因为不知道什么原因无法读取xref,无法打开 --- 解决办法 : 使用浏览器或者其他什么可以打开pdf的程序确定程序可以打开, 然后点击打印, 通过虚拟打印机再保存出来, 就可以修复了.

如果你嫌弃他会输出很多警告信息的话可以去pypdf4包的源码中把那些警告输出注释掉, 具体方法就不讲了, 如果有需要可以私信我

提供天翼网盘连接:https://cloud.189.cn/t/A73QzqmQRjMz (访问码:kpo0)

写的很简单, 高手勿喷

为大佬提供源码:

import re
from PyPDF4.pdf import PdfFileReader as pr, PdfFileWriter as pw
 
 
def MergePDF(dir_path):
    pdf_files = list()
    merged_file = pw()
    for path, _, files in os.walk(dir_path):
        pdf_files.extend([os.path.join(path, f)
                          for f in files if f.lower().endswith('.pdf')])  # 遍历当前文件夹下所有pdf文件并组合成相对路径
 
    pdf_files.sort(key=lambda i: int(re.findall(r'(\d+).*?', i)
                                     [0]) if re.findall(r'(\d+).*?', i) else -1)  # 按照路径排序(没有数字的在前面, 有数字的从小到大排序)
 
    for pdf_file in pdf_files:
        print(pdf_file)
        try:
            pdf = pr(open(pdf_file, "rb"))
        except:
            print(f'{pdf_file}无法解析')
            continue
        if pdf.isEncrypted:
            print(f'{pdf_file} 是加密文件')
            res = input('输入密码(回车键跳过)')
            while res:
                try:
                    pdf.decrypt(res)  # pdf 解密
                    break
                except:
                    print('密码错误')
                res = input('输入密码(回车键跳过)')
            if not res:
                continue
        pageCount = pdf.getNumPages()
        # 分别将page添加到输出output中
        for iPage in range(pageCount):
            merged_file.addPage(pdf.getPage(iPage))
    with open('merged.pdf', "wb") as outputfile:
        # 注意这里的写法和正常的上下文文件写入是相反的
        merged_file.write(outputfile)
    print('Done')
    input()
 
 
if __name__ == '__main__':
    # 设置存放多个pdf文件的文件夹
    dir_path = r'.'
    MergePDF(dir_path)

你可能感兴趣的:(pdf合并工具)