Python笔记九:用三方库pdfplumber批量提取PDF表格并存入Excel

想要提取PDF的数据,保存到Excel中。这个功能在WPS中是收费的,且将大量PDF转Excel,手动去输出非常耗时。可以利用Python第三方库pdfplumber快速完成这个功能。

一、pdfplumber库

pdfplumber是一个开源Python工具库,可以方便的获取PDF各种信息,包括文本、表格、图表。主要使用pdfplumber提取PDF中表格数据。

安装命令

pip install pdfplumber

二、代码实现

导入相关包:

import pdfplumber
import pandas as pd

读取PDF文档,获取PDF页数:

pdf = pdfplumber.open('//home//lijiang//享学课堂Python文档//软件常用词汇.pdf')
pages = pdf.pages

提取PDF文档,保存为Excel:

if len(pages) > 1:
    tables = []
    for each in pages:
        table = each.extract_table()
        tables.extend(table)
else:
    tables = each.extract_table()

data = pd.DataFrame(tables[1:], columns=tables[0])
data.to_excel('//home//lijiang//享学课堂Python文档//软件常用词汇.xlsx', index=False)

三、总结

Python还有不少库可以处理pdf,如PyPDF2、pdfminer,选择pdfplumber的原因在于可以轻松访问PDF的详细信息。且用于提取文本与表格的方法灵活可定制。

你可能感兴趣的:(pdf,excel)