python操作pdf做文档的分割、合并,内容提取

Python 操作 PDF 会用的库:PyPDF2pdfplumber

PyPDF2 可以更好的读取、写入、分割、合并PDF文件;
pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格。

对应的官网分别是:

PyPDF2:https://pythonhosted.org/PyPDF2/

pdfplumber:https://github.com/jsvine/pdfplumber

输入如下命令在conda种进行安装:

pip install PyPDF2

pip install pdfplumber

一、 批量拆分

#拆分pdf
from PyPDF2 import PdfFileReader 
from PyPDF2 import PdfFileWriter
def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF为多个小的PDF文件,
    @param filename:文件名
    @param filepath:文件路径
    @param save_dirpath:保存小的PDF的文件路径
    @param step: 每step间隔的页面生成一个文件,例如step=5,表示0-4页、5-9页...为一个文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 读取每一页的数据
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf,每 step 页的拆分为一个文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
                 # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)
        print("文件已成功拆分,保存路径为:"+save_dirpath)

split_pdf('易方达','D:/易方达.pdf','D:\\test')

可以生成第一个文档,但后面的生成不了。

使用anaconda,修改对应的文件路径应该为:anaconda\Lib\site-packages\PyPDF2\utils.py,进行同样的修改操作即可

点击 utils.py 文件,定位到第 238 行原文

r = s.encode('latin-1')
 if len(s) < 2:
   		bc[s] = r
 return r

修改为

try:
    r = s.encode('latin-1')
    if len(s) < 2:
        bc[s] = r
    return r
except Exception as e:
    r = s.encode('utf-8')
    if len(s) < 2:
        bc[s] = r
    return r

也还是没用

出现错误:
UnicodeEncodeError: ‘latin-1’ codec can’t encode characters in position 8-9: ordinal not in range(256)

解决的两个链接:
1.https://www.cnblogs.com/lansan0701/p/8029171.html
2.https://blog.csdn.net/weixin_44573410/article/details/97617850
但都没啥用
最后换成VCode,成功了。
二、批量合并

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多个PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目录
    @param save_filepath:合并后的PDF文件路径
    @return:
    """
    pdf_writer = PdfFileWriter()
    # 对文件名进行排序
    list_filename = os.listdir(read_dirpath)
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        print(filename)
        filepath = os.path.join(read_dirpath, filename)
        # 读取文件并获取文件的页数
        pdf_reader = PdfFileReader(filepath)
        pages = pdf_reader.getNumPages()
        # 逐页添加
        for page in range(pages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    # 保存合并后的文件
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
    print("文件已成功合并,保存路径为:" + filename)

concat_pdf(
    "test.pdf",
"D:\\test",
"D:\\test"
)

遇到的问题:
报错:ValueError: invalid literal for int() with base 10: ‘yfd01’

三、提取文字内容

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多个PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目录
    @param save_filepath:合并后的PDF文件路径
    @return:
    """
    pdf_writer = PdfFileWriter()
    # 对文件名进行排序
    list_filename = os.listdir(read_dirpath)
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        print(filename)
        filepath = os.path.join(read_dirpath, filename)
        # 读取文件并获取文件的页数
        pdf_reader = PdfFileReader(filepath)
        pages = pdf_reader.getNumPages()
        # 逐页添加
        for page in range(pages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    # 保存合并后的文件
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
    print("文件已成功合并,保存路径为:"+save_filepath)

concat_pdf(
    "test.pdf",
"D:\\test",
"D:\\test"
)

四、提取表格内容

import pdfplumber
def extract_text_info(filepath):
    """
    提取PDF中的文字
    @param filepath:文件路径
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第2页数据
        page = pdf.pages[1]
        print(page.extract_text())

extract_text_info(D:\\test)

提取所有页的文字,需要改成:

import pdfplumber

filepath = "D:\\yfd.pdf"

with pdfplumber.open(filepath) as pdf:
	# 获取全部数据
    for page in pdf.pages:
        print(page.extract_text())

提取表格内容:

def extract_table_info(filepath):
    """
    提取PDF中的图表数据
    @param filepath:
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第18页数据
        page = pdf.pages[17]
        # 如果一页有一个表格,设置表格的第一行为表头,其余为数据
        table_info = page.extract_table()
        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
        df_table.to_csv('dmeo.csv', index=False, encoding='gbk')
        

当遇到多个表格时:

import pandas as pd
# 如果一页有多个表格,对应的数据是一个三维数组
tables_info = page.extract_tables()
for index in range(len(tables_info)):
    # 设置表格的第一行为表头,其余为数据
    df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])
    print(df_table)
    df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

五、提取图片内容
提取 PDF 中的图片和将 PDF 转存为图片是不一样。

提取图片:将内容中的图片都提取出来;转存为图片:
转存是将每一页的 PDF 内容存成一页一页的图片。转存为图片中,需要用到一个模块叫 fitz,非最新版的在部分函数名称上存在差异,代码中会标记出来、。使用 fitz 需要先安装 PyMuPDF 模块,安装方式如下:

pip install PyMuPDF

提取图片的整体逻辑如下:

  • 使用 fitz 打开文档,获取文档详细数据
  • 遍历每一个元素,通过正则找到图片的索引位置
  • 使用 Pixmap 将索引对应的元素生成图片
  • 通过 size 函数过滤较小的图片
import fitz
import re

pic_dirpath = "D:\\test"

filepath = "D:\\yfd.pdf"

if not os.path.exists(pic_dirpath):
    os.makedirs(pic_dirpath)
# 使用正则表达式来查找图片
check_XObject = r"/Type(?= */XObject)"
check_Image = r"/Subtype(?= */Image)"
img_count = 0

"""1. 打开pdf,打印相关信息"""
pdf_info = fitz.open(filepath)
# 1.16.8版本用法 xref_len = doc._getXrefLength()
# 最新版本写法
xref_len = pdf_info.xref_length()
# 打印PDF的信息
print("文件名:{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))

"""2. 遍历PDF中的对象,遇到是图像才进行下一步,不然就continue"""
for index in range(1, xref_len):
    # 1.16.8版本用法 text = doc._getXrefString(index)
    # 最新版本
    text = pdf_info.xref_object(index)
    
    is_XObject = re.search(check_XObject, text)
    is_Image = re.search(check_Image, text)
    # 如果不是对象也不是图片,则不操作
    if is_XObject or is_Image:
        img_count += 1
        # 根据索引生成图像
        pix = fitz.Pixmap(pdf_info, index)
        pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
        """pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""
        # if pix.size < 10000:
        #     continue
        
        """三、 将图像存为png格式"""
        if pix.n >= 5:
            # 先转换CMYK
            pix = fitz.Pixmap(fitz.csRGB, pix)
        # 存为PNG
        pix.writePNG(pic_filepath)

六、 转换为图片
安装pdf2image
pip install pdf2image
注:
对于 windows 用户需要安装 poppler for Windows,安装链接是:http://blog.alivate.com.au/poppler-windows/
另外,还需要添加环境变量, 将 bin 文件夹的路径添加到环境变量 PATH 中
注意这里配置之后需要重启一下电脑才会生效,不然会报错


if not os.path.exists(pic_dirpath):
    os.makedirs(pic_dirpath)

images = convert_from_bytes(open(filepath, 'rb').read())
# images = convert_from_path(filepath, dpi=200)
for image in images:
    # 保存图片
    pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')
    image.save(pic_filepath, 'PNG')

七、添加水印
PDF 中添加水印,首先需要一个水印PDF文件,然后依次通过mergePage 操作将每一页的 PDF 文件合并到水印文件上,据此,每一页的 PDF 文件将是一个带有水印的 PDF 文件。最后,将每一页的水印 PDF 合并成一个 PDF 文件即可生成水印。生成水印的方式比较多,例如在图片添加水印,然后将图片插入到 word 中,最后将 word 保存成 PDF 文件即可。
生成一张 A4 纸大小的空白图片,参考这篇文章:https://mp.weixin.qq.com/s/_oJA6lbsdMlRRsBf6DPxsg
然后将图片插入到 word 中并最终生成一个水印 PDF 文档

from PyPDF2 import PdfFileReader, PdfFileWriter
from copy import copy


watermark_filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\watermark.pdf"

filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\yfd.pdf"

save_filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\watermark.pdf"

watermark = PdfFileReader(watermark_filepath)
watermark_page = watermark.getPage(0)

pdf_reader = PdfFileReader(filepath)
pdf_writer = PdfFileWriter()

for page_index in range(pdf_reader.getNumPages()):
    current_page = pdf_reader.getPage(page_index)
    # 封面页不添加水印
    if page_index == 0:
        new_page = current_page
    else:
        new_page = copy(watermark_page)
        new_page.mergePage(current_page)
    pdf_writer.addPage(new_page)
# 保存水印后的文件
with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

八、文档加密与解密
基于 PDF 文档的加密解密,不是所谓的 PDF 密码破解。在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单。针对已经加密的 PDF 文件,也可以使用 decrypt 函数进行解密操作。

pdf_reader = PdfFileReader(filepath)
pdf_writer = PdfFileWriter()

for page_index in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(page_index))

# 添加密码
passwd = "123"
save_filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\pwd.pdf"
pdf_writer.encrypt(passwd)
with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

解密代码:

filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\pwd.pdf"

pdf_reader = PdfFileReader(filepath)
# PDF文档解密
pdf_reader.decrypt(passwd)
save_filepath = "C:\\Users\\cxhhg\\Documents\\github\\datawhale\\26\\OfficeAutomation\\decrypt.pdf"
pdf_writer = PdfFileWriter()
for page_index in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(page_index))

with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

你可能感兴趣的:(Python学习)