活动地址:CSDN21天学习挑战赛
如有错误,欢迎指正,感谢!
**
**
pdf文件是一种便携式文档格式,不受操作系统的限制。python提供了许多模块操作pdf文件,本文是关于pdfplumber模块对PDF文档内容的提取操作,比如文本、形状和表格解析等。
pdfplumber模块有以下功能:
使用如下命令安装pdfplumber模块
pip install pdfplumber
在安装pdfplumber模块后,导入模块,运行文件会提示模块pdfplumber不存在,应该是没有安装成功;
看输出的日志,建议更新pip安装命令,就更新了下pip;
更新pip后安装pdfplumber模块,此时再运行导入pdfplumber模块的文件提示typing_extensions这个模块不存在,安装该模块后再运行文件就没有问题了。
python中使用pdfplumber模块时需要导入
import pdfplumber
读取PDF文档使用pdfplumber.open()方法,函数声明:
pdfplumber.open(path,password="",laparams={}
参数 password:要加载的pdf受密码保护时,传递该关键字;
参数 laparams:要将布局分析参数设置为pdfplumber.six的布局引擎,传递该参数;
查看pdfplumber.open()函数原型可以发现该函数使用的是pdfplumber.pdf.open()方法。
pdfplumber.pdf类表示单个pdf,有两个主要的属性:
import pdfplumber
with pdfplumber.open("产品统计表.pdf") as pdf:
print(pdf)
print(pdf.metadata) # 读取文档信息
print(len(pdf.pages)) # 输出总页数
使用时出现的问题及解决方案:pdfplumber打开文件提示文件不存在。
pdfplumber.Page类是pdfplumber模块的核心,很多操作围绕该类进行,该类有以下属性:
常用的方法如下
import pdfplumber
with pdfplumber.open("产品统计表.pdf") as pdf:
print(pdf)
print(pdf.metadata) # 读取文档信息
print(len(pdf.pages)) # 输出总页数
# 读取第一页的宽度、高度等信息
first_page = pdf.pages[0]
print("页码:",first_page.page_number)
print("页面大小:%d * %d" %(first_page.width,first_page.height))
# 读取文本第一页内容
text = first_page.extract_text()
print(text)
import pdfplumber
import xlwt
with pdfplumber.open("1.pdf") as pdf:
page_one = pdf.pages[0] # 获取pdf第一页
table_1 = page_one.extract_table() # 获取表格
print(type(table_1))
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet("Sheet1")
col1 = table_1[0]
print(col1)
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
for i in range(len(table_1[1:])):
data = table_1[1:][i]
print(data)
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
workbook.save("test.xls")
import pdfplumber
import xlwt
with pdfplumber.open("产品统计表.pdf") as pdf:
item = [] # pdf中的所有内容都保存到该列表中
for page in pdf.pages:
table = page.extract_table() # 提取表格,返回列表,嵌套列表,是每一行的内容
for i in table:
item.append(i)
workbook = xlwt.Workbook(encoding='utf-8')
worksheet = workbook.add_sheet("Sheet1")
col1 = item[0]
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
for i in range(len(item[1:])):
data = item[1:][i]
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
workbook.save("2.xls")
总结:先把pdf表格中的所有内容存储到列表中,然后使用xlwt模块把列表中的内容写入Excel中。
提取多个pdf文件中的表格内容和提取单个文件的表格类似,不同在于要遍历多个pdf文件。
使用示例:
from tkinter import filedialog
import pdfplumber
import xlwt
import os
# 获取文件下所有pdf文件路径
file_dir = os.getcwd()
file_list = []
for files in os.walk(file_dir):
for file in files[2]:
if file.split(".")[1] == "pdf" or file.split(".")[1] == "PDF":
file_list.append(file_dir + "\\" + file)
# 把所有pdf文件的所有页数据存在一个临时列表中
item = []
for file_path in file_list:
with pdfplumber.open(file_path) as pdf:
for page in pdf.pages:
text = page.extract_table()
if text is not None:
for i in text:
item.append(i)
# 创建表格对象
workbook = xlwt.Workbook(encoding="utf-8")
# 创建sheet表
worksheet = workbook.add_sheet("Sheet1")
# 自定义列明
col1 = item[0]
# 把列名写入到表单中的第一行
for i in range(len(col1)):
worksheet.write(0,i,col1[i])
# 将剩下的数据写入到表单中
for i in range(len(item[1:])):
data = item[1:][i]
for j in range(len(col1)):
worksheet.write(i+1,j,data[j])
# 保存文件
workbook.save("test2.xls")
全文参考:
https://blog.csdn.net/yuan2019035055/article/details/125243424