读取pdf中的表格转换为excel格式 (python)

一 读取pdf中的表格转换为excel格式

import pdfplumber
import pandas as pd


def extract_table_from_pdf(pdf_path):
    # 打开 PDF 文件
    with pdfplumber.open(pdf_path) as pdf:
        # 提取所有页面中的表格数据
        all_tables = []
        for page in pdf.pages:
            tables = page.extract_tables()
            all_tables.extend(tables)

        # 如果有多个表格,选择你需要的表格
        selected_table = all_tables[0]  # 根据实际情况选择索引

        # 将表格数据转换为 DataFrame
        df = pd.DataFrame(selected_table[1:], columns=selected_table[0])

        return df


def save_to_excel(df, excel_path):
    # 将数据保存为 Excel 文件
    df.to_excel(excel_path, index=False)
    print(f"Excel文件已保存至: {excel_path}")


if __name__ == "__main__":

    import glob

    # 获取当前文件夹中所有的 PDF 文件
    pdf_files = glob.glob("*.pdf")

    # 打印找到的 PDF 文件列表

    for pdf_path in pdf_files:

        print("PDF 文件列表:", pdf_path)
        # 替换为你的 PDF 文件路径

        # 从 PDF 中提取表格数据
        extracted_df = extract_table_from_pdf(pdf_path)

        # 保存为 Excel 文件
        excel_path = pdf_path.split('.pdf')[0] + ".xlsx"
        save_to_excel(extracted_df, excel_path)

你可能感兴趣的:(python,pdf,excel)