python利用pytesseract识别图片验证码

1.pytesseract是什么

pytesseract是python的一个光学字符识别模块。可用来做图片文字识别。

2.什么是光学字符识别

光学字符识别即Optical Character Recognition,简称OCR,是指通过扫描字符,通过其形状将其翻译成电子文本的过程,对于图像验证码来说,它们都是一些不规则的字符,这些字符是由字符稍加扭曲变换得到的内容,我们可以使用OCR技术将其转化为电子文本,然后将记过提交给服务器,以达到自动识别验证码的过程。

详细安装及使用见:https://www.cnblogs.com/zhangxinqi/p/9297292.html

3.识别验证码code.jpg

python利用pytesseract识别图片验证码_第1张图片

3.1直接识别

import pytesseract
from PIL import Image

image = Image.open("code.jpg")
result = pytesseract.image_to_string(image)
print(result)  # 1346

识别结果错误

3.2二值化处理

图像二值化( Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,二值图像占有非常重要的地位,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓 (百度百科)

# 先将图片灰度化,再二值化图像,  区别为:https://blog.csdn.net/qq_33264811/article/details/85280983
# 传入参数为图像和阈值
def erzhihua(image,threshold):
    # 变为灰色,模式L为灰色模式,它的每个相似用8个bit表示,0表示黑,255表示白,其他数字表示不同的灰度
    image=image.convert('L')  #灰色模式
    #image.show()
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    return image.point(table,"1")


raw_image = Image.open("code.jpg")
image = erzhihua(raw_image,127)
#image.show()
result = pytesseract.image_to_string(image,lang='eng')
print("result:" + result)   # 识别错误,识别度依然不高

以上两种方式识别此图片不正确,先了解基本使用情况,待后续进一步研究

 

参考资料:

https://blog.csdn.net/dcba2014/article/details/78969658

https://blog.csdn.net/Akino_Rito/article/details/79353882
https://blog.csdn.net/icamera0/article/details/50843172

你可能感兴趣的:(python)