使用NLTK,Natural Language Toolkit(Python自然语言工具包)对“PyMuPDF、Pillow和pytesseract实现PDF文件中文OCR识别”的改进

文章目录

  • 一、“PyMuPDF、Pillow和pytesseract实现PDF文件中文OCR识别”存在的问题及改进方向
    • 1.1 存在问题
    • 1.2 改进方向
      • 1.2.1 使用PyMuPdf识别文字元素
      • 1.2.2 使用NLTK对两次识别的结果进行相似度比对
  • 二、NLTK的安装
    • 2.1 NLTK简介
    • 2.2 pip安装
    • 2.3 下载nltk_data
    • 2.4 解压到 C:/Users/Administrator/AppData/Roaming/nltk_data
  • 三、代码实现
  • 四、省流模式(最优选择)

一、“PyMuPDF、Pillow和pytesseract实现PDF文件中文OCR识别”存在的问题及改进方向

上一版的OCR识别博文在这:
https://blog.csdn.net/yuetaope/article/details/139642133

1.1 存在问题

上一版的方法是将页面整体转换为图片,然后整体识别图片,未区分原PDF中的文字元素和图片元素。这样做的结果是,原本不需要OCR识别的文字元素也转换成了图片,造成运行速度和识别率的降低。

1.2 改进方向

浏览pymupdf官网
https://pymupdf.readthedocs.io/en/latest/the-basics.html#supported-file-types

你可能感兴趣的:(Dash,python,pillow,pdf)