郭洪源

python破解滑块验证码

前言

验证码样本

破解思路

完整代码如下：

运行截图

截屏异常修正

模拟人拖到路径优化

拖动距离优化

前言

这里所讲述的技能借鉴了崔庆才《python3网络爬虫开发一书》，但又有些许不同，因为爬虫具有时效性，感谢崔提供的技术指导。

验证码样本

本次实验的对象是极验验证，连接如下 https://account.geetest.com/login

极验验证点击按钮，就会有一点概率进入验证码，这个按钮也是智能的，原理不甚了解，如果能一次性进去更好，不过我们的目的就是破解验证码吗，点击中间那里，进入概率大一些。如果出现的是文字验证码，那么连续点击下面的刷新即可。一般代码模拟点击会一次性出现滑块验证码。

破解思路

第一步：使用selenium加载，输入账号，密码，点击验证，出现滑块验证码。

第二步：我们人眼可以直接找到缺口，但这个过程是复杂的，大致如下，看到图片--看到滑块--看到缺口--寻找按钮--拖动按钮--刚刚开始快速逼近--接近时减速逼近--划过了可以左右调整。事实上人脑是在不断计算的，人眼的信号传输是非连续的，这个过程是一个高速的调整逼近过程，只不过我们司空见惯而已。

电脑就不一样的，电脑没有人眼这样的传感器，也不能动态调整，只能按照规定的计划执行任务。

说回来，这个验证码本身时有两张图片的，我们滑动滑块，最后两张图片做对比，相似度大于某个阈值，即可通过，所以我们非常需要获得这两张图片，然后找出缺口的位置。

第三步：获得两张图片，进入浏览器开发者模式，查看验证码元素。我们可以看到这是一个画布元素，那么可以通过截图来获取图片。但问题是只有一张图片，不急，我们看查看器，不难看到有三个canvas元素，重叠在一起了。前面两个是显示的，第三个隐藏了，那么前两个就是这个滑块和带缺口的图片了，第三个就是完整图片。依次设置前面两个隐藏，第三个显示即可

右键第一个canvas，添加属性style="display: none; opacity: 1;"，可以看到消失的是缺口图片，所以第一个canvas就是缺口图片

递推，隐藏第二个canvas,滑块消失了。

继续，删除第三个canvas的style属性，直接双击backspace即可，就此三个canvas身份确认。

第四步：我们要获得两张截图并将一切还原，顺序如下：

隐藏滑块
对canvas对象截图，获得缺口图片
隐藏缺口图片
显示完整图片
对canvas对象截图，获得完整图片
隐藏完整图片
显示缺口图片
显示滑块

第五步：对比两张图片的像素值，找出差距过大的位置，这里选择的是60，然后校准滑块和缺口间距离

第六步：拖动滑块完成验证，失败再次尝试。

完整代码如下：

import time
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import random
class SVC:

    def __init__(self):
        self.url = 'https://account.geetest.com/login'
        self.driver = webdriver.Chrome()
        self.driver.maximize_window()
        self.driverwait = WebDriverWait(self.driver, 20)
        self.email = 'EMAIL'
        self.password = 'PASSWORD'
        self.location = {}
        self.size = {'width':260,'height':160}
        self.BORDER = 40

    def __del__(self):
        self.driver.close()

    def setAttribute(self,elementObj, attributeName, value):
        # 封装设置页面对象的属性值的方法
        # 调用JavaScript代码修改页面元素的属性值，arguments[0]－［2］分别会用后面的
        # element、attributeName和value参数值进行替换，并执行该JavaScript代码
        self.driver.execute_script("arguments[0].setAttribute (arguments[1],arguments[2])", elementObj, attributeName, value)

    def removeAttribute(self, elementObj, attributeName):
        # 封装删除页面元素属性的方法
        # 调用JavaScript代码删除页面元素的指定的属性，arguments[0]－［1］分别会用后面的
        # element、attributeName参数值进行替换，并执行该JavaScript代码
        self.driver.execute_script("arguments[0].removeAttribute(arguments[1])", elementObj, attributeName)

    def get_geetest_button(self):
        """
        获取初始验证按钮
        :return:
        """
        #button = self.driver.find_element_by_xpath('//*[@id="captcha"]/div/div[2]/div[1]/div[3]')
        button = self.driverwait.until(EC.element_to_be_clickable((By.CLASS_NAME,'geetest_radar_tip')))
        return button

    def get_slider(self):
        """
        获取滑块
        :return: 滑块对象
        """
        slider = self.driverwait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_slider_button')))
        return slider

    def open(self):
        """
        打开网页输入用户名密码
        :return: None
        """
        self.driver.get(self.url)
        email = self.driver.find_element_by_xpath('//*[@id="email"]')
        password = self.driver.find_element_by_xpath('//*[@id="password"]')
        #email = self.driverwait.until(EC.presence_of_element_located((By.ID, 'email')))
        #password = self.driverwait.until(EC.presence_of_element_located((By.ID, 'password')))
        email.send_keys(self.email)
        password.send_keys(self.password)

    def get_screenshot(self):
        """
        获取网页截图
        :return: 截图对象
        """
        screenshot = self.driver.get_screenshot_as_png()
        screenshot = Image.open(BytesIO(screenshot))
        return screenshot

    def get_geetest_image(self, name):
        """
        获取验证码图片 captcha.png
        :return: 图片对象
        """
        left, top, right, bottom = (self.location['x']+177,self.location['y']+44,self.location['x']+self.size['width']+235,self.location['y']+self.size['height']+80)
        print('验证码位置', left, top, right, bottom)
        screenshot = self.get_screenshot()
        captcha = screenshot.crop((left, top, right, bottom))
        captcha.save(name)
        return captcha

    def getImg(self):
        time.sleep(3)
        ele = self.driver.find_elements_by_tag_name('canvas')
        self.location = ele[0].location
        self.setAttribute(ele[1],'style','display: none;') #移除小方框
        self.get_geetest_image('captcha_up.png')
        self.setAttribute(ele[0],'style','display: none;') #移除上面图片
        self.removeAttribute(ele[2],'style')               #移除隐藏属性以显示地面图片
        self.get_geetest_image('captcha_down.png')
        self.removeAttribute(ele[0], 'style')
        time.sleep(0.5)
        self.removeAttribute(ele[1], 'style')
        time.sleep(0.5)
        self.setAttribute(ele[2], 'style', 'display: none;')

    def get_gap(self, image1,image2):
        """
        获取缺口偏移量
        :param image1: 不带缺口图片
        :param image2: 带缺口图片
        :return:
        """
        left = 0
        for i in range(left, image1.size[0]):
            for j in range(image1.size[1]):
                if not self.is_pixel_equal(image1, image2, i, j):
                    left = i
                    return left
        return left

    def is_pixel_equal(self, image1, image2, x, y):
        """
        判断两个像素是否相同
        :param image1: 图片1
        :param image2: 图片2
        :param x: 位置x
        :param y: 位置y
        :return: 像素是否相同
        """
        # 取两个图片的像素点
        pixel1 = image1.load()[x, y]
        pixel2 = image2.load()[x, y]
        threshold = 60
        if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(
                pixel1[2] - pixel2[2]) < threshold:

            return True
        else:
            print(pixel1, pixel2)
            return False

    def get_track(self, distance):
        """
        根据偏移量获取移动轨迹
        :param distance: 偏移量
        :return: 移动轨迹
        """
        # 移动轨迹
        list1 = []
        list2 = []
        list3 = []
        # 当前位移
        for i in range(round(distance/4)):
            list1.append(1)
            list2.append(2)
            list2.append(1)
        return list1+list2

    def move_to_gap(self, slider, track):
        """
        拖动滑块到缺口处
        :param slider: 滑块
        :param track: 轨迹
        :return:
        """
        ActionChains(self.driver).click_and_hold(slider).perform()
        for x in track:
            ActionChains(self.driver).move_by_offset(xoffset=x, yoffset=0).perform()
        time.sleep(0.5)
        ActionChains(self.driver).release().perform()

    def start(self):
        # 输入用户名密码
        self.open()
        # 点击验证按钮
        button = self.get_geetest_button()
        button.click()


    def crack(self):
        self.getImg()
        Image2 = Image.open('captcha_down.png')
        Image1 = Image.open('captcha_up.png')
        gap = self.get_gap(Image1, Image2)
        print('缺口位置', gap)
        # 减去缺口位移
        if gap<45:
            gap -= 5
        elif gap<55:
            gap -= 15
        elif gap<125:
            gap -= 25
        elif gap<165:
            gap -= 35
        elif gap <185:
            gap -= 40
        else:
            gap -= 45
        track = self.get_track(gap)
        print('滑动轨迹', track)
        slider = self.get_slider()
        self.move_to_gap(slider, track)
        time.sleep(1)
        success = False
        try:
            success = self.driverwait.until(EC.text_to_be_present_in_element((By.CLASS_NAME, 'geetest_success_radar_tip_content'), '验证成功'))
        except:
            print('失败')
        # 失败后重试
        if not success:
            time.sleep(0.1)
            self.crack()
        else:
            print('成功')
            self.login()

    def login(self):
        """
        登录
        :return: None
        """
        submit = self.driverwait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'login-btn')))
        submit.click()
        print('登录成功')


if __name__ == '__main__':
    svc = SVC()
    svc.start()
    svc.crack()

运行截图

截屏异常修正

最开始，我是按照书上的方法，先获取canvas的坐标Z(x,y)，然后截取z(x,y)到m(x+宽,y+高)的屏幕截图，但是浏览器不知道发了什么疯，截到的图片都是像下面的图片那样，后来我以为坐标位置有误，亲自安装了坐标插件，将图片的左上角坐标替换Z，得到的结果依旧和下面一样，索性手动修正，试了好久最终确定可通过如下坐标获得完整截图。

点（z['x']+177 , z['y']+44）到点（z['x']+width+235 , z['y']+height+80) 即可获得完整截图。

模拟人拖到路径优化

在原书在作者说明，如果匀速，匀加速，匀减速拖动，都不能通过，这个我也试过，但是拿到代码，总是有一些偏差，不能准确对其，作者使用了物理模型，先加速后减速就能通过，代码如下。在最后那里使用了track.append(round(move))添加位移路径，

    def get_track(self, distance):
        """
        根据偏移量获取移动轨迹
        :param distance: 偏移量
        :return: 移动轨迹
        """
        # 移动轨迹
        track = []
        # 当前位移
        current = 0
        # 减速阈值
        mid = distance * 4 / 5
        # 计算间隔
        t = 0.2
        # 初速度
        v = 0
        
        while current < distance:
            if current < mid:
                # 加速度为正2
                a = 2
            else:
                # 加速度为负3
                a = -3
            # 初速度v0
            v0 = v
            # 当前速度v = v0 + at
            v = v0 + a * t
            # 移动距离x = v0t + 1/2 * a * t^2
            move = v0 * t + 1 / 2 * a * t * t
            # 当前位移
            current += move
            # 加入轨迹
            track.append(round(move))
        return track

但是有一个问题，当你的move较小时，就会变成0，move较大，就会变成1，积累下来，就会难以对其，所以我换了一种简易算法。将路径分为四分，第一份和最后一份以1像素速度拖动，中间以2像素速度拖动。亦能模仿先加速后减速。

    def get_track(self, distance):
        """
        根据偏移量获取移动轨迹
        :param distance: 偏移量
        :return: 移动轨迹
        """
        # 移动轨迹
        list1 = []
        list2 = []
        list3 = []
        # 当前位移
        for i in range(round(distance/4)):
            list1.append(1)
            list2.append(2)
            list3.append(1)
        return list1+list2+list3

拖动距离优化

先前截图失败，就觉得这次破解不会太顺利，拖动验证码，距离短的会不到位，距离远的又会超出，所以在最后计算距离时，再次手动修订了一次，下面的判断点，都是正好镶嵌的点。

        if gap<45:
            gap -= 5
        elif gap<55:
            gap -= 15
        elif gap<125:
            gap -= 25
        elif gap<165:
            gap -= 35
        elif gap <185:
            gap -= 40
        else:
            gap -= 45

你可能感兴趣的:(爬虫项目及相关技能)

Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后