python 批量从PDF中提取表格(使用yield语法迭代数据)

很多时候,在处理各种数据业务时候,会受到到PDF格式的文件,需要提取并分析里面的数据。本文利用pdfplumber,pandas 提取保存表格。同时学习利用yield语法,形成迭代器,输出每页数据。避免使用列表的办法输出,提升性能,简化代码。
代码如下

import gc
import pdfplumber
import pandas as pd
import time
from time import  ctime
import openpyxl
pdf = pdfplumber.open(r"E:\python项目\python\小阳工程\提取pdf表格,筛选表格数据\条件筛选表格输出\1032+第三册+第二分册+路基路面.pdf")
N=len(pdf.pages)
print('总共有',N,'页')

def yieldlist( ):
    for i in range(249,N):
        
        print('********************************************************************************************************************************************************')
        print('正在搜寻第',str(i+1),'页表格')
        print('***************************************************************

你可能感兴趣的:(表格处理,python制作生活小工具,python,pdf,pandas)