python提取pdf文件中的表格

在做pdf文字抽取时,pdfplumber会与pdfminer3k有版本冲突,而且接口的封装性、抽取效果也没有pdfplumber好,所以强烈建议使用pdfplumber,抛弃pdfminer3k。

1、工具

pdfplumber

pip install pdfplumber

2、调用方法

  1. extract_tables()
  2. extract_table()

3、详细使用

extract_tables():将表格输出为json格式,默认为一个表格整体

import pdfplumber

with pdfplumber.open('xxxx.pdf') as pdf:
    page=pdf.pages[16] #提取pdf第17页中的表格
    for row in page.extract_tables():
        print(row)

效果:

extract_table():将表格的每一行默认为一个独立表格

import pdfplumber

with pdfplumber.open('xxxx.pdf') as pdf:
    page=pdf.pages[16] #提取pdf第17页中的表格
    for row in page.extract_table():
        print(row)

提取效果:

python提取pdf文件中的表格_第1张图片

 

拓展:

还可以将提取的Excel保存为csv文件

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Python)