高效简单解决滑动验证码

前言

做爬虫总会遇到各种各样的反爬限制,其中移动验证码是很重要且常见的一环,今天总结下如何高效破解他的方法,例如下图:
高效简单解决滑动验证码_第1张图片

解决思路与方法

首先先来分析下,核心问题其实是要怎么样找到目标缺口的位置,一旦知道了位置,我们就可以借用selenium等工具完成拖动的操作。
高效简单解决滑动验证码_第2张图片

opencv 是什么?
OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及图像处理、计算机视觉和机器学习相关方法,可用于开发实时的图像处理、计算机视觉以及模式识别程序。

直接安装

pip install opencv-python

首先将图片进行高斯模糊处理,高斯模糊的主要作用是减少图像的噪声,用于预处理阶段。

代码如下:

import cv2 as cv
image = cv.imread(image_path)
blurred = cv.GaussianBlur(image, (5, 5), 0)
cv.imshow("blurred", blurred)

处理后的效果
高效简单解决滑动验证码_第3张图片
接着用 Canny 边缘检测到得到一个包含“窄边界”的二值图像。所谓二值图像就是黑白图,只有黑色和白色。
高效简单解决滑动验证码_第4张图片
轮廓检测

contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE)
for i, contour in enumerate(contours):  # 所有轮廓
    x, y, w, h = cv.boundingRect(contour)  # 外接矩形
    cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
cv.imshow('image', image)

此时,已经找出所有的轮廓,并用红色线框将其绘制标识出来了
高效简单解决滑动验证码_第5张图片
剩下的问题就好办了,我们只需要对轮廓的面积或者周长范围做限制,就能过滤出目标轮廓的位置, 前提是我们对目标位置的轮廓大小是预先确定的。

for i, contour in enumerate(contours):  # 所有轮廓
    if 6000 < cv.contourArea(contour) <= 8000 and 300 < cv.arcLength(contour, True) < 500:
        x, y, w, h = cv.boundingRect(contour)  # 外接矩形
        print(x, y, w, h)
        cv.rectangle(image, (x, y), (x + w, y + h), (0, 0, 255), 2)
        cv.imshow('image', image)
        # 找目标缺口,第一个可能是滑块
        if x <= 200:
            continue
        return x + int(w / 2), 675

轮廓的面积大概是 6000 到 8000 之间,周长在 300 到 500 之间, 最后用外接矩形获取该轮廓图的坐标位置和宽高大小。
高效简单解决滑动验证码_第6张图片
如上就找到了目标位置,剩下的工作就是将滑块移动到指定位置即可。

你可能感兴趣的:(python-爬虫,学习,python)