python 解析PDF--相关组件

使用pdfplumber框架解析pdf,具备提取表格的功能

PDF详细资料
https://smallpdf.com

pdfplumber

对应的github地址:
https://github.com/jsvine/pdfplumber

pdfplumber是在pdfminer的基础上构建的

pdfminer

对应的github地址:
https://github.com/euske/pdfminer
对应文档:
https://euske.github.io/pdfminer/

遇到一个需求:需要将pdf中的表格数据剔除掉,获取到纯文本。

使用pdfplumber可以直接获取到表格中的数据,对应文档具有详细的介绍。
对这需求有一个解决思路,可以使用pdfplumber获取文本所在区域和表格所在区域比较,检查文本所在区域是否在表格区域内来排除表格数据,剩下的就是剔除的数据了

  # 获取所有字符数组,带有位置坐标信息,空格或换行分割成不同的数组
  words = page.extract_words()
  # 获取所有表格数组,带有位置坐标信息
  tabs = page.find_tables()

你可能感兴趣的:(python 解析PDF--相关组件)