python实现pdf到excel的自动批量转换(附 完整代码)

python实现pdf到excel的自动批量转换

做的一个法拍房源地图可视化项目,获取的房源都是Pdf格式,需要转换成excel格式进行再进行处理,先把转换代码分享一下。
pdf格式如下:
python实现pdf到excel的自动批量转换(附 完整代码)_第1张图片
转换后的excel:
转换后的excel
备注:需要pip 安装pdfplumber库,试了其它的库还是这个最好用。
转换的完整代码如下:

import os
import pandas as pd
import sys
import importlib
import math
import csv
import pdfplumber
importlib.reload(sys)
dir = '/Users/awesomeo/map/foreclosure' #存放pdf的文件夹
def pdf_to_excel(dir):
    """
    将房源pdf转换为excel,自动批量转换

    Returns
    -------
    None.

    """
    for root, dirs, files in os.walk(r'' + dir):
        for file in files:
            # print(file)
            if file.endswith('.pdf'):
                file_name = os.path.join(dir, file)
                # print(file_name)
                excel_name = os.path.splitext(file_name)[0] + ".xlsx"
                pdf = pdfplumber.open(file_name)
                total_pd = pd.DataFrame()
                for page in range(len(pdf.pages)):
                    # print(page)
                    # print(len(pdf.pages))
                    if len(pdf.pages) > 0:
                        temp_table = pdf.pages[page].extract_table()
                        temp_df = pd.DataFrame(temp_table)
                   
                        temp_df.replace(to_replace = r'\n', value = '', regex = True, inplace = True)
                        total_pd = pd.concat([total_pd, temp_df], ignore_index = True)
                
                total_pd.to_excel(excel_name, index=False, header=False, encoding='gb2312')
                
    print('All pdf to excel completed')

python新手 欢迎大家评论交流。

你可能感兴趣的:(数据可视化,python,excel,html5)