20211110业务总结-快速将pdf中的表格提取成excel

import pdfplumber
import pandas as pd

with pdfplumber.open(r'H:\学位论文相关\数据\中国开发区(2018).pdf') as pdf:
    for i in range(0,53):
        page = pdf.pages[i]
        for row in page.extract_tables():
            print(row)
            list = pd.DataFrame(data=row)
            list.to_csv(r'H:\学位论文相关\数据\中国开发区(2018).csv',mode='a',encoding='utf_8_sig',index=False,header=False)

在使用之前需要pip install pdfplumber,这是个github上的开源项目。

数据来源是由多个部委共同发布的开发区名录,如图所示。原文链接:《中国开发区审核公告目录》(2018年版)_其他_中国政府网

20211110业务总结-快速将pdf中的表格提取成excel_第1张图片

你可能感兴趣的:(业务总结,python,开发语言,后端)