selenium+python破解滑动验证码

selenium+python破解滑动验证码_第1张图片
破解滑动验证码动态图片.gif

最近在参与公司大数据项目的测试,其中部分数据来源于网络爬虫,想用selenium辅助测试,无奈有验证码(滑动验证码),于是就想着怎么破解,参考了网上的一些破解的方法,发现有一定的失败的概率,自己加以改进后,最终破解成功达到了100%,程序执行破解的过程见如上动图所示:


破解的原理大概是这样的:使用selenium拖动滑块,识别图片中的缺口,然后将滑块拖动至缺口处,完成拼图。整个过程看似简单,但程序处理起来并不简单:1、怎么判断缺口的位置,这个要对比图片背景的色差,2、怎么模拟人类拖动滑块的操作,匀速滑动或者一次性滑动到位都会被判定为程序行为而非人工操作,从而被禁止,这个可以通过随机函数进行随机滑动,3、操作的时候可能会失败,这个可以递归调用滑动操作,失败后重新刷新验证码并再一次进行滑动操作,直至成功。


找到了两种破解方法,方法一单次破解的成功率在20%左右,通常需要递归调用4到5次就能破解成功,方法二单次破解成功率在90%左右,通常只用调用1次就能破解成功,最多不超过2次。

以下是方法一和方法二的源代码:

方法一


from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.action_chains import ActionChains
import PIL.Image as image
import time,re, random
import requests
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO

#爬虫模拟的浏览器头部信息
agent = 'Mozilla/5.0 (Windows NT 5.1; rv:33.0) Gecko/20100101 Firefox/33.0'
headers = {
        'User-Agent': agent
        }

# 根据位置对图片进行合并还原
# filename:图片
# location_list:图片位置
#内部两个图片处理函数的介绍
#crop函数带的参数为(起始点的横坐标,起始点的纵坐标,宽度,高度)
#paste函数的参数为(需要修改的图片,粘贴的起始点的横坐标,粘贴的起始点的纵坐标)
def get_merge_image(filename,location_list):
    #打开图片文件
    im = image.open(filename)
    #创建新的图片,大小为260*116
    new_im = image.new('RGB', (260,116))
    im_list_upper=[]
    im_list_down=[]
    # 拷贝图片
    for location in location_list:
        #上面的图片
        if location['y']==-58:
            im_list_upper.append(im.crop((abs(location['x']),58,abs(location['x'])+10,166)))
        #下面的图片
        if location['y']==0:
            im_list_down.append(im.crop((abs(location['x']),0,abs(location['x'])+10,58)))
    new_im = image.new('RGB', (260,116))
    x_offset = 0
    #黏贴图片
    for im in im_list_upper:
        new_im.paste(im, (x_offset,0))
        x_offset += im.size[0]
    x_offset = 0
    for im in im_list_down:
        new_im.paste(im, (x_offset,58))
        x_offset += im.size[0]
    return new_im

#下载并还原图片
# driver:webdriver
# div:图片的div
def get_image(driver,div):
    #找到图片所在的div
    background_images=driver.find_elements_by_xpath(div)
    location_list=[]
    imageurl=''
    #图片是被CSS按照位移的方式打乱的,我们需要找出这些位移,为后续还原做好准备
    for background_image in background_images:
        location={}
        #在html里面解析出小图片的url地址,还有长高的数值
        location['x']=int(re.findall("background-image: url\(\"(.*)\"\); background-position: (.*)px (.*)px;",background_image.get_attribute('style'))[0][1])
        location['y']=int(re.findall("background-image: url\(\"(.*)\"\); background-position: (.*)px (.*)px;",background_image.get_attribute('style'))[0][2])
        imageurl=re.findall("background-image: url\(\"(.*)\"\); background-position: (.*)px (.*)px;",background_image.get_attribute('style'))[0][0]
        location_list.append(location)
    #替换图片的后缀,获得图片的URL
    imageurl=imageurl.replace("webp","jpg")
    #获得图片的名字
    # imageName = imageurl.split('/')[-1]
    imageName = '77777777'
    #获得图片
    session = requests.session()
    r = session.get(imageurl, headers = headers, verify = False)
    #下载图片
    with open(imageName, 'wb') as f:
        f.write(r.content)
        f.close()
    #重新合并还原图片
    image=get_merge_image(imageName, location_list)
    return image

#对比RGB值
def is_similar(image1,image2,x,y):
    pass
    #获取指定位置的RGB值
    pixel1=image1.getpixel((x,y))
    pixel2=image2.getpixel((x,y))
    for i in range(0,3):
        # 如果相差超过50则就认为找到了缺口的位置
        if abs(pixel1[i]-pixel2[i])>=50:
            return False
    return True

#计算缺口的位置
def get_diff_location(image1,image2):
    i=0
    # 两张原始图的大小都是相同的260*116
    # 那就通过两个for循环依次对比每个像素点的RGB值
    # 如果相差超过50则就认为找到了缺口的位置
    for i in range(0,260):
        for j in range(0,116):
            if is_similar(image1,image2,i,j)==False:
                return  i

#根据缺口的位置模拟x轴移动的轨迹
def get_track(length):
    pass
    list=[]
    #间隔通过随机范围函数来获得,每次移动一步或者两步
    x=random.randint(1,3)
    #生成轨迹并保存到list内
    while length-x>=5:
        list.append(x)
        length=length-x
        x=random.randint(1,3)
    #最后五步都是一步步移动
    for i in range(length):
        list.append(1)
    return list

def slide(driver):
     # 等待页面的上元素刷新出来
     WebDriverWait(driver, 30).until(
         lambda the_driver: the_driver.find_element_by_xpath('//a[@class="gt_refresh_button"]').is_displayed())
     element = driver.find_element_by_xpath('//a[@class="gt_refresh_button"]')
     element.click()
     time.sleep(1)
     WebDriverWait(driver, 30).until(
        lambda the_driver: the_driver.find_element_by_xpath("//div[@class='gt_slider_knob gt_show']").is_displayed())
     # driver.find_element_by_css_selector("/html/body/div[4]/div[2]/div[2]/div[2]/div[2]']").click()
     WebDriverWait(driver, 30).until(
        lambda the_driver: the_driver.find_element_by_xpath("//div[@class='gt_cut_bg gt_show']").is_displayed())
     WebDriverWait(driver, 30).until(
        lambda the_driver: the_driver.find_element_by_xpath("//div[@class='gt_cut_fullbg gt_show']").is_displayed())
     element = driver.find_element_by_xpath('//a[@class="gt_refresh_button"]')
     element.click()
     time.sleep(1)
     # 下载图片
     image1 = get_image(driver, "//div[@class='gt_cut_bg gt_show']/div")
     image2 = get_image(driver, "//div[@class='gt_cut_fullbg gt_show']/div")
     # 计算缺口位置
     loc=get_diff_location(image1, image2)
     #生成x的移动轨迹点
     track_list=get_track(loc)
     #找到滑动的圆球
     element=driver.find_element_by_xpath("//div[@class='gt_slider_knob gt_show']")
     location=element.location
     #获得滑动圆球的高度
     y=location['y']
     #鼠标点击元素并按住不放
     print ("第一步,点击元素")
     ActionChains(driver).click_and_hold(on_element=element).perform()
     time.sleep(0.15)
     print ("第二步,拖动元素")
     track_string = ""
     for track in track_list:
        #不能移动太快,否则会被认为是程序执行
        track_string = track_string + "{%d,%d}," % (track, y - 445)
        #xoffset=track+22:这里的移动位置的值是相对于滑动圆球左上角的相对值,而轨迹变量里的是圆球的中心点,所以要加上圆球长度的一半。
        #yoffset=y-445:这里也是一样的。不过要注意的是不同的浏览器渲染出来的结果是不一样的,要保证最终的计算后的值是22,也就是圆球高度的一半
        ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=track+22, yoffset=y-445).perform()
        #间隔时间也通过随机函数来获得,间隔不能太快,否则会被认为是程序执行
        time.sleep(random.randint(10,50)/100)
     print (track_string)
     #xoffset=21,本质就是向后退一格。这里退了5格是因为圆球的位置和滑动条的左边缘有5格的距离
     ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=21, yoffset=y-445).perform()
     time.sleep(0.1)
     ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=21, yoffset=y-445).perform()
     time.sleep(0.1)
     ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=21, yoffset=y-445).perform()
     time.sleep(0.1)
     ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=21, yoffset=y-445).perform()
     time.sleep(0.1)
     ActionChains(driver).move_to_element_with_offset(to_element=element, xoffset=21, yoffset=y-445).perform()
     print ("第三步,释放鼠标")
     #释放鼠标
     ActionChains(driver).release(on_element=element).perform()
     time.sleep(3)
     s = driver.find_elements_by_xpath('//*[@id="wrap1"]/div[3]/div/div/p')
     if len(s) == 0:
         print("滑动解锁失败")
         slide(driver)
     else:
         print("滑动解锁成功")

#滑动验证码破解程序
def main():
    #打开火狐浏览器
    driver=webdriver.Chrome("D:\Google\Chrome\Application\chromedriver.exe")
    #用火狐浏览器打开网页
    driver.get("http://www.sgs.gov.cn/notice/")
    driver.find_element_by_id("keyword").send_keys('中国长城工业上海有限公司')
    driver.find_element_by_id("buttonSearch").click()



    slide(driver)



    #点击验证
    # submit = driver.find_element_by_xpath("//div[@class='gt_ajax_tip success']")
    # print(submit.location)
    # time.sleep(5)
    #关闭浏览器,为了演示方便,暂时注释掉.
    #driver.quit()

#主函数入口
if __name__ == '__main__':
    pass
    main()

方法二


# -*- coding: utf-8 -*-
import random
import time, re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from PIL import Image
import requests
from io import BytesIO


class Vincent(object):
    def __init__(self):
        chrome_option = webdriver.ChromeOptions()
        # chrome_option.set_headless()

        self.driver = webdriver.Chrome(executable_path=r"D:\Google\Chrome\Application\chromedriver.exe", chrome_options=chrome_option)
        # self.driver =webdriver.Chrome("D:\Google\Chrome\Application\chromedriver.exe")
        self.driver.set_window_size(1440, 900)

    def visit_index(self):
        # self.driver.get("https://www.Vincent.com/")
        self.driver.get("http://www.sgs.gov.cn/notice/")

        self.driver.find_element_by_id("keyword").send_keys('中国长城工业上海有限公司')
        WebDriverWait(self.driver, 10, 0.5).until(EC.element_to_be_clickable((By.ID, 'buttonSearch')))
        reg_element = self.driver.find_element_by_id("buttonSearch")
        reg_element.click()

        WebDriverWait(self.driver, 10, 0.5).until(
            EC.element_to_be_clickable((By.XPATH, '//div[@class="gt_slider_knob gt_show"]')))

        # 进入模拟拖动流程
        self.analog_drag()

    def analog_drag(self):
        # 鼠标移动到拖动按钮,显示出拖动图片
        element = self.driver.find_element_by_xpath('//div[@class="gt_slider_knob gt_show"]')
        ActionChains(self.driver).move_to_element(element).perform()
        time.sleep(3)

        # 刷新一下极验图片
        element = self.driver.find_element_by_xpath('//a[@class="gt_refresh_button"]')
        element.click()
        time.sleep(1)

        # 获取图片地址和位置坐标列表
        cut_image_url, cut_location = self.get_image_url('//div[@class="gt_cut_bg_slice"]')
        full_image_url, full_location = self.get_image_url('//div[@class="gt_cut_fullbg_slice"]')

        # 根据坐标拼接图片
        cut_image = self.mosaic_image(cut_image_url, cut_location)
        full_image = self.mosaic_image(full_image_url, full_location)

        # 保存图片方便查看
        cut_image.save("cut.jpg")
        full_image.save("full.jpg")

        # 根据两个图片计算距离
        distance = self.get_offset_distance(cut_image, full_image)

        # 开始移动
        self.start_move(distance)

        # 如果出现error
        try:
            WebDriverWait(self.driver, 5, 0.5).until(
                EC.element_to_be_clickable((By.XPATH, '//div[@class="gt_ajax_tip gt_error"]')))
            print("验证失败")
            return
        except TimeoutException as e:
            pass

        # 判断是否验证成功
        s = self.driver.find_elements_by_xpath('//*[@id="wrap1"]/div[3]/div/div/p')
        if len(s) == 0:
            print("滑动解锁失败,继续尝试")
            self.analog_drag()
        else:
            print("滑动解锁成功")
            time.sleep(1)
            ss=self.driver.find_element_by_xpath('//*[@id="wrap1"]/div[3]/div/div/div[2]').get_attribute("onclick")
            print(ss)
            ss=self.driver.find_element_by_xpath('//*[@id="wrap1"]/div[3]/div/div/div[2]').click()



    # 获取图片和位置列表
    def get_image_url(self, xpath):
        link = re.compile('background-image: url\("(.*?)"\); background-position: (.*?)px (.*?)px;')
        elements = self.driver.find_elements_by_xpath(xpath)
        image_url = None
        location = list()
        for element in elements:
            style = element.get_attribute("style")
            groups = link.search(style)
            url = groups[1]
            x_pos = groups[2]
            y_pos = groups[3]
            location.append((int(x_pos), int(y_pos)))
            image_url = url
        return image_url, location

    # 拼接图片
    def mosaic_image(self, image_url, location):
        resq = requests.get(image_url)
        file = BytesIO(resq.content)
        img = Image.open(file)
        image_upper_lst = []
        image_down_lst = []
        for pos in location:
            if pos[1] == 0:
                # y值==0的图片属于上半部分,高度58
                image_upper_lst.append(img.crop((abs(pos[0]), 0, abs(pos[0]) + 10, 58)))
            else:
                # y值==58的图片属于下半部分
                image_down_lst.append(img.crop((abs(pos[0]), 58, abs(pos[0]) + 10, img.height)))

        x_offset = 0
        # 创建一张画布,x_offset主要为新画布使用
        new_img = Image.new("RGB", (260, img.height))
        for img in image_upper_lst:
            new_img.paste(img, (x_offset, 58))
            x_offset += img.width

        x_offset = 0
        for img in image_down_lst:
            new_img.paste(img, (x_offset, 0))
            x_offset += img.width

        return new_img

    # 判断颜色是否相近
    def is_similar_color(self, x_pixel, y_pixel):
        for i, pixel in enumerate(x_pixel):
            if abs(y_pixel[i] - pixel) > 50:
                return False
        return True

    # 计算距离
    def get_offset_distance(self, cut_image, full_image):
        for x in range(cut_image.width):
            for y in range(cut_image.height):
                cpx = cut_image.getpixel((x, y))
                fpx = full_image.getpixel((x, y))
                if not self.is_similar_color(cpx, fpx):
                    img = cut_image.crop((x, y, x + 50, y + 40))
                    # 保存一下计算出来位置图片,看看是不是缺口部分
                    img.save("1.jpg")
                    return x

    # 开始移动
    def start_move(self, distance):
        element = self.driver.find_element_by_xpath('//div[@class="gt_slider_knob gt_show"]')

        # 这里就是根据移动进行调试,计算出来的位置不是百分百正确的,加上一点偏移
        distance -= element.size.get('width') / 2
        distance += 15

        # 按下鼠标左键
        ActionChains(self.driver).click_and_hold(element).perform()
        time.sleep(0.5)
        while distance > 0:
            if distance > 10:
                # 如果距离大于10,就让他移动快一点
                span = random.randint(5, 8)
            else:
                # 快到缺口了,就移动慢一点
                span = random.randint(2, 3)
            ActionChains(self.driver).move_by_offset(span, 0).perform()
            distance -= span
            time.sleep(random.randint(10, 50) / 100)

        ActionChains(self.driver).move_by_offset(distance, 1).perform()
        ActionChains(self.driver).release(on_element=element).perform()

if __name__ == "__main__":
    h = Vincent()
    h.visit_index()

你可能感兴趣的:(selenium+python破解滑动验证码)