python用pytesseract与PIL进行中文识别

import 
from PIL import Image 


def cleanFile(filePath,newFilePath):
    image = Image.open(filePath)

    # 对图片进行阈值过滤(低于143的置为黑色,否则为白色)
    #相当于对电脑显卡调节对比度(电脑显卡对比度默认为50,我比较习惯于调成53)
    image = image.point(lambda x: 0 if x < 143 else 255)
    # 重新保存图片
    image.save(newFilePath)

    image = Image.open(newFilePath)
    text = pytesseract.image_to_string(image,lang='chi_sim')
    print(text) 

if __name__ == "__main__":
    cleanFile(r'D:\ocr\test01.png',r"D:\ocr\newtest01.png")

原图:
python用pytesseract与PIL进行中文识别_第1张图片
图片处理后:
python用pytesseract与PIL进行中文识别_第2张图片
识别结果:

python用pytesseract与PIL进行中文识别_第3张图片

你可能感兴趣的:(ocr)