pdf文档提取信息

目录

  • 一、前言
  • 二、核心代码说明
    • 1、PyPDF2提取文本
    • 2、pdfplumber提取文本和表格
    • 3、fitz提取文本和图片
    • 4、fitz按页提取图片

一、前言

    本博客文章介绍pdf的文本、图片、表格等信息提取的技术方案对比。目前比较熟知的是pdfplumber 、PyPDF2 、fitz(PyMuPDF)。
它们之间对比如下
pdf文档提取信息_第1张图片
pdfplumber 的说明
优点
· 结构化文本解析(如报告、合同等)。
· 表格提取(尤其是规则清晰的表格)。
· 带有复杂布局的 PDF。
· 提供丰富的布局信息(如每个字符的位置、字体等)。
· 提取表格和多列文本时表现优异。

缺点
· 图片处理能力较弱。
· 速度较慢,尤其是大文件。

二、核心代码说明

1、PyPDF2提取文本

def extract_page_content<

你可能感兴趣的:(知识图谱,pdf,python)