在做pdf文字抽取时,pdfplumber会与pdfminer3k有版本冲突,而且接口的封装性、抽取效果也没有pdfplumber好,所以强烈建议使用pdfplumber,抛弃pdfminer3k。
pdfplumber
pip install pdfplumber
extract_tables():将表格输出为json格式,默认为一个表格整体
import pdfplumber
with pdfplumber.open('xxxx.pdf') as pdf:
page=pdf.pages[16] #提取pdf第17页中的表格
for row in page.extract_tables():
print(row)
效果:
extract_table():将表格的每一行默认为一个独立表格
import pdfplumber
with pdfplumber.open('xxxx.pdf') as pdf:
page=pdf.pages[16] #提取pdf第17页中的表格
for row in page.extract_table():
print(row)
提取效果:
还可以将提取的Excel保存为csv文件