[验证码识别]图形验证码识别01

废话

目前许多网站出于安全和反爬的目的，在登录界面，或一些关键操作的地方都设置了验证码，这些验证码的形式也是多种多样的，有普通图形验证码、滑动验证码、点触验证码、宫格验证码等，这些验证码给爬虫开发增加了难度，但也不是没有办法，这篇文章将介绍图片验证码的识别。

库的安装

图形验证码的识别需要安装tesserocr。tesserocr是python的一个OCR识别库。

什么是OCR

光学字符识别（英语：Optical Character Recognition，OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。
———— 维基百科

说白了就是将图片中的字符根据其形状翻译成电子文本的过程

环境配置

tesserocr其实是对tesseract（google开源的OCR）做了一层PythonAPI封装，核心还是tesseract，所以在安装tesserocr之前，需要先安装tesseract 也叫tesseract-ocr

sudo apt-get install -y tesseract-ocr libtesseract-dev libleptionica-dev

sudo pip3 install tesserocr pillow

使用方法

import tesserocr
from PIL import Image

# 方法1
image = Image.open('/home/yhch/Pictures/yzmtest.jpg')
result = tesserocr.image_to_text(image)
print('[method 1] 识别结果:',result)

# 方法2
result = tesserocr.file_to_text('/home/yhch/Pictures/yzmtest.jpg')
print('[method 2] 识别结果:',result)

识别的图片yzmtest.jpg如下图所示，是我从google首页截的图，看程序能否识别出单词

yzmtest

识别结果如下:

iamge

1.方法1

通过PIL库，创建image对象，调用tesserocr的 image_to_text的方法，将图片的内容转化为文字。

2.方法2

方法2是直接访问文件对象。方法也较为简单。

验证码处理(转灰度，二值化)

大多数验证码都会做一些防破解的处理，就像下面的图片，验证码上面有很多干扰的线条。

image

image = Image.open('/home/yhch/Pictures/test.aspx')
image.show()
result = tesserocr.image_to_text(image)
print('识别结果:',result)

>>>
/usr/bin/python3 /home/yhch/PycharmProjects/python爬虫/untitled/yanzhma.py
识别结果:

识别不出来，有的时候是识别不准确，这时候我们需要对验证码图片进一些处理。

灰度图

灰度图，Gray Scale Image 或是Grey Scale Image，又称灰阶图。把白色与黑色之间按对数关系分为若干等级，称为灰度。灰度分为256阶。转灰度说白了就是将彩色图转为灰度图。给image对象调用convert方法，传入参数L，即可将图片转为灰度图。

image = Image.open('/home/yhch/Pictures/test.aspx')
image.show()
image = image.convert('L')  
image.show()

image

二值化

图像二值化（ Image Binarization）就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。
在数字图像处理中，二值图像占有非常重要的地位，图像的二值化使图像中数据量大为减少，从而能凸显出目标的轮廓。

前面我们已经转化为灰度图，通过二值化将灰度的数值是在0～256之间调节（根据实际情况）。

import tesserocr
from PIL import Image

image = Image.open('/home/yhch/Pictures/test.aspx')
image.show()
image = image.convert('L')
image.show()
threshold = 80
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table,'1')
image.show()
result = tesserocr.image_to_text(image)
print('[优化]识别结果:',result)

通过表格转换成二进制图片,append(0),绘制黑色，threshold 设置了一个临界值，80是调出的合适值。

image

识别结果是准确的，看图可能你会感觉到，进行处理完之后反倒不好识别，但对于计算机而言，如果你不进行这样的处理，是识别不出来的。

如果你对灰度图尤其是二值化的阀值还是不太清楚，看下面

原图

image

from PIL import Image

image = Image.open('/home/yhch/Pictures/test.jpg')
image = image.convert('L')
image.show()


threshold = 40
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
image = image.point(table,'1')
image.show()

image

就这里的代码而言，阀值越小，append 1就越多，白色区域就越多；阀值越大，append 0就越多，黑色区域就越多。你只有找到一个准确的值，才能人物轮廓清晰，计算机更好识别。

小结

通过对验证码图片进行转灰度处理，再通过合适的二值化阀值进行二值化处理，得到字符轮廓清晰，易于识别的验证码，再通过tesserocr包进行OCR识别，后期配合爬虫将识别出的验证码提交到服务器，就可以对需要图形验证后的才能进入的页面爬取了。

关于作者

个人博客 https://yhch.xyz；微信公众号：杨浩成。

[验证码识别]图形验证码识别01

废话

库的安装

什么是OCR

环境配置

使用方法

1.方法1

2.方法2

验证码处理(转灰度，二值化)

灰度图

二值化

如果你对灰度图尤其是二值化的阀值还是不太清楚，看下面

小结

关于作者

你可能感兴趣的:([验证码识别]图形验证码识别01)