前两天有朋友问我,你能不能帮我把pdf中的表格数据抓出来,输出到excel中,我说我试试。
最近看资料发现python有很多库都可以完成pdf中的表格数据抓取,选择其中一种尝试:pdfplumber。
在使用之前我们简单了解一下:
pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。
pip install pdfplumber
# 导入必要的库
import pdfplumber
import pandas as pd
def read_pdf_to_excel(read_path, save_path, header_index):
# 读取文件内容,如果有多个表格,会读取到多个表格页
pdf_2020 = pdfplumber.open(read_path)
# 创建结果数据集
result_df = pd.DataFrame()
for page in pdf_2020.pages:
# 读取表格内容
table = page.extract_table()
# print(table)
# 进行表格数据格式化
df_detail = pd.DataFrame(table[(header_index+1):], columns=table[header_index])
# 合并表格数据到结果数据集
result_df = pd.concat([df_detail, result_df], ignore_index=True)
result_df.to_excel(excel_writer=save_path, index=False)
read_path = r'/***/**.pdf'
save_path = r'/***/**.xlsx'
# 这里的1是申明表格表头的数据下标是几
read_pdf_to_excel(read_path, save_path, 1)
Python提取pdf中的表格数据输出到excel的功能就实现了。如果和你需要抓去的表格不太相符合,可以自己调整参数。