使用python去除pdf水印

以下方法主要是处理在页眉页脚处的水印,其他情况未测试。
安装pypdf2

pip install pypdf2

主要步骤:
1.读取pdf文件;
2.遍历pdf文件;
3.分析文件结构,找到水印图片,删除;页面元素不会太多,多试两次就能找到对应元素;
4.输出到新文件;

from PyPDF2 import PdfFileReader,PdfFileWriter

output = PdfFileWriter()
with open("XXXX/xxxx.pdf",'rb') as pf:
    pin = PdfFileReader(pf)
    for i in range(pin.getNumPages()):       
        page = pin.getPage(i)
        page['/Resources']['/XObject']['/QQAPXO65685fd8'].clear()
        page['/Resources']['/XObject']['/QQAPXO49127425'].clear()    
        output.addPage(page)
    with open("XXXX/out.pdf",'wb') as ouf:
        output.write(ouf)

page['/Resources']即为页面结构,分析结构,找出其中需要删除的元素即可。

你可能感兴趣的:(使用python去除pdf水印)