使用NLTK,Natural Language Toolkit(Python自然语言工具包)对“PyMuPDF、Pillow和pytesseract实现PDF文件中文OCR识别”的改进
文章目录一、“PyMuPDF、Pillow和pytesseract实现PDF文件中文OCR识别”存在的问题及改进方向1.1存在问题1.2改进方向1.2.1使用PyMuPdf识别文字元素1.2.2使用NLTK对两次识别的结果进行相似度比对二、NLTK的安装2.1NLTK简介2.2pip安装2.3下载nltk_data2.4解压到C:/Users/Administrator/AppData/Roami