python pytesseract 中文文字批量识别

用pytesseract 来批量把图片转成文字
1、安装好 pytesseract 包

2、下载安装OCR

https://download.csdn.net/download/m0_37622302/88348824icon-default.png?t=N7T8https://download.csdn.net/download/m0_37622302/88348824

Index of /tesseracticon-default.png?t=N7T8https://digi.bib.uni-mannheim.de/tesseract/

我是win10 64位,所以下载了 tesseract-ocr-w64-setup-v5.3.0.20221214.exe

python pytesseract 中文文字批量识别_第1张图片

python pytesseract 中文文字批量识别_第2张图片

安装软件目录在D:\Program Files\ocr\

下载 chi_sim.traineddata

放在 D:\Program Files\ocr\tessdata

3、编辑环境变量

python pytesseract 中文文字批量识别_第3张图片

TESSDATA_PREFIX

D:\Program Files\ocr\tessdata

python pytesseract 中文文字批量识别_第4张图片

4、测试环境一切就绪

tesseract -v 测 试一下,成功

python pytesseract 中文文字批量识别_第5张图片

5、pytesseract 编码
import os
import pytesseract
from PIL import Image


def jpg_to_text(input_folder, output_folder):
    # 遍历输入文件夹中的所有JPG图片
    for filename in os.listdir(input_folder):
        if filename.endswith(".png"):
            # 构造输入和输出文件的路径
            input_path = os.path.join(input_folder, filename)
            output_path = os.path.join(output_folder, f"{filename}.txt")

            # 打开图片文件并进行文字识别
            image = Image.open(input_path)
            text = pytesseract.image_to_string(image, 'chi_sim')

            # 将识别结果写入输出文件
            with open(output_path, "w") as file:
                file.write(text)


if __name__ == '__main__':
    jpg_to_text("F:/table/cc", "F:/table/aa")

识别中文一定需要这个参数,不然会出现乱码

python pytesseract 中文文字批量识别_第6张图片

最后就可以见证奇迹了

你可能感兴趣的:(python,python,pytesseract,图片文字识别)