pip install --upgrade pip
此时怀疑了一下是否由于win11用户权限导致上述错误,找到保姆教程看了一下,发现大佬的环境变量在系统变量,而我的环境变量在用户变量。犹豫了一下是否需要将系统变量path配一下,突然想到用管理员运行cmd试试
pip install xlwt
copy一下大佬代https://blog.csdn.net/LHJCSDNYL/article/details/124207996
eg1
import pdfplumber
# 打开pdf文件,有密码加入password参数
pdf_info =pdfplumber.open(r'test.pdf')
meta_data = pdf_info.metadata # pdf的基础信息
page_con = len(pdf_info.pages) # 获取pdf的总页数
print('pdf文件的基础信息:\n', meta_data)
print('pdf共%s页' % page_con)
打印出文件的基础信息
eg2
import pdfplumber
# extract_table()用法
with pdfplumber.open(r'test.pdf') as pdf_info: # 打开pdf文件
for page in pdf_info.pages:
page_one_table = page.extract_table()
print(page_one_table)
if (page_one_table is not None):
for row in page_one_table:
print(row)
打印出表格数据
import pdfplumber
import xlwt
#from openpyxl import Workbook
# 1. 把所有页的数据存在一个临时列表中
with pdfplumber.open(r'test.pdf') as pdf_info: # 打开pdf文件
item = []
for page in pdf_info.pages:
page_one_table = page.extract_table()
if (page_one_table is not None):
for row in page_one_table:
item.append(row)
# 2. 创建Excel表对象
# 调用xlwt模块中的Workbook方法来创建一个excel表格类型文件,其中的第一个参数是设置数据的编码格式,这里是’utf-8’的形式,style_compression设置是否压缩,不是很常用,赋值为0表示不压缩。
workbook = xlwt.Workbook(encoding='utf-8',style_compression=0)
# 3. 新建sheet表
#用book对象调用add_sheet方法来建立一张sheet表,这里面的第一个参数很明显就是设置sheet表格的名称,第二个参数cell_overwrite_ok用于确认同一个cell单元是否可以重设值,这里赋值为True就表示可重设值。
worksheet = workbook.add_sheet('sheet1',cell_overwrite_ok=False)
for i in range(0, len(item[0:])):
data = item[0:][i]
for j in range(0, len(data)):
worksheet.write(i, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')