一 读取pdf中的表格转换为excel格式
import pdfplumber
import pandas as pd
def extract_table_from_pdf(pdf_path):
# 打开 PDF 文件
with pdfplumber.open(pdf_path) as pdf:
# 提取所有页面中的表格数据
all_tables = []
for page in pdf.pages:
tables = page.extract_tables()
all_tables.extend(tables)
# 如果有多个表格,选择你需要的表格
selected_table = all_tables[0] # 根据实际情况选择索引
# 将表格数据转换为 DataFrame
df = pd.DataFrame(selected_table[1:], columns=selected_table[0])
return df
def save_to_excel(df, excel_path):
# 将数据保存为 Excel 文件
df.to_excel(excel_path, index=False)
print(f"Excel文件已保存至: {excel_path}")
if __name__ == "__main__":
import glob
# 获取当前文件夹中所有的 PDF 文件
pdf_files = glob.glob("*.pdf")
# 打印找到的 PDF 文件列表
for pdf_path in pdf_files:
print("PDF 文件列表:", pdf_path)
# 替换为你的 PDF 文件路径
# 从 PDF 中提取表格数据
extracted_df = extract_table_from_pdf(pdf_path)
# 保存为 Excel 文件
excel_path = pdf_path.split('.pdf')[0] + ".xlsx"
save_to_excel(extracted_df, excel_path)