验证码是最简单有效防止恶意登录的方法,但是验证码对于我们自动化控制又带来了挑战,对于验证码的识别除了调用网上的OCR API,有没有一个不花钱的方法?
有,本文就来介绍一下,我们如何在本地进行验证码的识别,尤其是数字验证码的识别。
提示:以下是本篇文章正文内容,下面案例可供参考
pytesseract是Google做的OCR库,可以识别图片中的文字。pytesseract需要安装并配置好Tesseract OCR引擎才能正常工作。如果没有安装,可以参考官方文档进行安装和配置:https://github.com/tesseract-ocr/tesseract。或者参考其它博主的文章:
pytesseract安装和基本使用_吨吨不打野的博客-CSDN博客 https://blog.csdn.net/Castlehe/article/details/118751833
import pytesseract
from PIL import Image
# 读取验证码图片
image = Image.open('captcha.png')
# 将图片转为灰度图像
image = image.convert('L')
# 对图像进行二值化处理
threshold = 127
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table, '1')
# 使用pytesseract进行识别
code = pytesseract.image_to_string(image)
print(code)
在以上示例中,我们首先使用PIL库打开验证码图片,然后将其转换为灰度图像,并进行二值化处理。然后,我们再使用pytesseract库对图像进行识别,并将结果打印出来。
能做到这步,说明pytesseract环境已配置OK,并且已经就别基本的识别功能,但要准确的识别数字验证码。建议您往下看。
import pytesseract
def captcha_recognize(img_path):
# --psm 7 单行识别 , --oem 3 使用 LSTM OCR 引擎 , -c tessedit_char_whitelist=0123456789 只识别数字字符,也可以设置英文字母哦。
num = pytesseract.image_to_string(img_path,lang='eng', \
config='--psm 7 --oem 3 -c tessedit_char_whitelist=0123456789')
return num
if __name__ == '__main__':
# 测试
num = captcha_recognize(r'C:\yzm.png')
print(num)
注:tesseract提供了OCR引擎模式。有如下四种:
- 0 = 仅限原始Tesseract
- 1 = 只有神经网络LSTM
- 2 = Tesseract LSTM
- 3 = 基于可用的默认值
目前LSTM是无法支持白名单的
注:如下设置可聚焦识别数字和大小写字母:tessedit_char_whitelist=0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
本文的目的,旨在高效的识别数字验证码,当然pytesseract还有更多用途,感兴趣的朋友可以试试。
在调用 tessarct 时,我们需要提供许多标志。三个最重要的是 -l 、 --oem 和 --psm 。
-l 参数控制输入文本的语言。我们将在此示例中使用 eng(英语),但您可以在此处查看 Tesseract 支持的所有语言:tesseract --list-langs
–oem 参数或 OCR 引擎模式控制 Tesseract 使用的算法类型。 您可以通过执行以下命令查看可用的 OCR 引擎模式:tesseract --help-oem
OCR Engine modes:
0 Legacy engine only.
1 Neural nets LSTM engine only.
2 Legacy + LSTM engines.
3 Default, based on what is available.
我们将使用 --oem 1 表示我们希望仅使用深度学习 LSTM 引擎。
Page segmentation modes:
0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR.
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
8 Treat the image as a single word.
9 Treat the image as a single word in a circle.
10 Treat the image as a single character.
11 Sparse text. Find as much text as possible in no particular order.
12 Sparse text with OSD.
13 Raw line. Treat the image as a single text line,
bypassing hacks that are Tesseract-specific.
对于 OCR 文本,模式 6 和 7 运行良好,但如果需要 OCR 处理大块文本,可尝试 3,默认模式。 每当您发现自己获得不正确的 OCR 结果时,强烈建议您调整 --psm,因为它会对您的输出 OCR 结果产生巨大影响。