Python爬虫实战:Selenium+超级鹰实现12306网站模拟登录

    • 一、准备
    • 二、完整代码
    • 三、代码分析

 

一、准备

爬取之前咋们先来看看12306的验证码是个啥样的

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!
QQ群:101677771

在这里插入图片描述
看到这验证码,有木有很慌,这tm也能破解???
答案:当然能。

话不多说,想要破解得先来认识认识一个验证码识别平台——超级鹰。
在这里插入图片描述
在这里插入图片描述
没有注册的小伙伴可以注册一个,亲测这个平台还是蛮好用的,价格也不贵。

注册成功后,来到用户中心
在这里插入图片描述

温馨提示:初次绑定微信可领取1000题分,毕竟,我可是白嫖崽,嘿嘿。

进入软件id,然后生成一个软件id,之后我们需要用到的也只是软件ID而已。
在这里插入图片描述

然后点击开发文档,点击python,点击下载。

在这里插入图片描述
在这里插入图片描述

下载完毕,得到以下这些玩意。
在这里插入图片描述

二、完整代码

至此,基本准备完成,话不多说——上代码。

打开chaojiying.py文件将其内容复制到准备写的python文件中

先给大家完整代码,然后咋们逐步分析

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password = password.encode('utf8')

        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
                          headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

=========================================================================================
# chaojiying = Chaojiying_Client('ppx666', '07244058664', '906006')  # 用户中心>>软件ID 生成一个替换 96001
# im = open('a.jpg', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
# print(chaojiying.PostPic(im, 9004)['pic_str'])  # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

from selenium import webdriver
from PIL import Image
import time
from selenium.webdriver import ActionChains


bro = webdriver.Chrome()
#全屏
bro.maximize_window()

bro.get("https://kyfw.12306.cn/otn/resources/login.html")
time.sleep(2)
bro.find_element_by_class_name("login-hd-account").click()


# save_screenshot 就是将当前页面进行截图且保存
bro.save_screenshot('aa.png')

# 确定验证码图片对应的左上角和右下角的坐标
code_img_ele = bro.find_element_by_id("J-loginImg")
location = code_img_ele.location  #验证码图片左上角的坐标 x,y
size = code_img_ele.size  # 验证码的标签对应的长和宽
# 左上角和右下角的坐标
rangle = (
    int(location['x']),int(location['y']),int(location['x'] + size['width']),int(location['y'] + size['height'])
)

i = Image.open("./aa.png")
code_img_name = './code.png'
# crop裁剪
frame = i.crop(rangle)
frame.save(code_img_name)

chaojiying = Chaojiying_Client('超级鹰账号', '超级鹰密码', '之前让大家准备的软件ID')  # 用户中心>>软件ID 生成一个替换 96001
im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print(chaojiying.PostPic(im, 9004)['pic_str'])  # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

========================================================================================

result = chaojiying.PostPic(im, 9004)['pic_str']
all_list = []  # 存储即将被点击的坐标
if '|' in result:
    list_1 = result.split("|")
    count_1 = len(list_1)
    for i in range(count_1):
        xy_list = []
        x = int(list_1[i].split(",")[0])
        y = int(list_1[i].split(",")[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(",")[0])
    y = int(result.split(",")[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)
print(all_list)
# 遍历列表,使用动作链对每一个列表元素对应的x,y指定的位置进行点击操作
for l in all_list:
    x = l[0]
    print(x)
    y = l[1]
    print(y)
    ActionChains(bro).move_to_element_with_offset(code_img_ele,x,y).click().perform()   # move_to_element_with_offset   移动到距某个元素(左上角坐标)多少距离的位置
    time.sleep(0.5)

========================================================================================

bro.find_element_by_id("J-userName").send_keys("填自己的12306账号")
time.sleep(1)
bro.find_element_by_id("J-password").send_keys("填自己的12306密码")
time.sleep(1)
bro.find_element_by_id("J-login").click()
time.sleep(1)

三、代码分析

OKOK,开始分析!!!一共分成4部分我用"==="分隔开了

一、第一部分
第一部分的话就是让大家下载的python文件,别问,问就是不知道(●ˇ∀ˇ●),毕竟我也没研究过,有兴趣的小伙伴可以去研究研究。

二、第二部分

# chaojiying = Chaojiying_Client('ppx666', '07244058664', '906006')  # 用户中心>>软件ID 生成一个替换 96001
# im = open('a.jpg', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
# print(chaojiying.PostPic(im, 9004)['pic_str'])  # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

from selenium import webdriver
from PIL import Image
import time
from selenium.webdriver import ActionChains


bro = webdriver.Chrome()
#全屏
bro.maximize_window()

bro.get("https://kyfw.12306.cn/otn/resources/login.html")
time.sleep(2)
bro.find_element_by_class_name("login-hd-account").click()


# save_screenshot 就是将当前页面进行截图且保存
bro.save_screenshot('aa.png')

# 确定验证码图片对应的左上角和右下角的坐标
code_img_ele = bro.find_element_by_id("J-loginImg")
location = code_img_ele.location  #验证码图片左上角的坐标 x,y
size = code_img_ele.size  # 验证码的标签对应的长和宽
# 左上角和右下角的坐标
rangle = (
    int(location['x']),int(location['y']),int(location['x'] + size['width']),int(location['y'] + size['height'])
)

i = Image.open("./aa.png")
code_img_name = './code.png'
# crop裁剪
frame = i.crop(rangle)
frame.save(code_img_name)

chaojiying = Chaojiying_Client('超级鹰账号', '超级鹰密码', '之前让大家准备的软件ID')  # 用户中心>>软件ID 生成一个替换 96001
im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print(chaojiying.PostPic(im, 9004)['pic_str'])  # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

开头的导包我就不说了
selenium相信大家也都学过了吧,没学过的也没关系,给大家来一手开发文档Selenium中文文档

bro = webdriver.Chrome()  使用Chrome浏览器驱动

bro.maximize_window() 设置全屏打开,因为我发现,我要是不设置的话他不会全屏打开,不知道各位是不是的


bro.get("https://kyfw.12306.cn/otn/resources/login.html")  这就是get到12306的登录网址
time.sleep(2)		睡上两秒钟不要太快了
bro.find_element_by_class_name("login-hd-account").click()  以为打开登陆网址默认是扫码登录,所以我们根据class的名称进行点击实现账号登录

在这里插入图片描述


bro.save_screenshot('aa.png')		save_screenshot 就是将当前页面进行截图且保存

code_img_ele = bro.find_element_by_id("J-loginImg")  根据id找到验证码图片
location = code_img_ele.location  #验证码图片左上角的坐标 x,y(location属性可以返回该图片对象(既这张图片)在浏览器中的位置,以字典的形式返回)
size = code_img_ele.size  # 验证码的标签对应的长和宽 (size返回图片width和height)

rangle = (
    int(location['x']),int(location['y']),int(location['x'] + size['width']),int(location['y'] + size['height'])
)   左上角和右下角的坐标


i = Image.open("./aa.png")   打开截到的图
code_img_name = './code.png'
# crop裁剪
frame = i.crop(rangle)  根据上面得到的坐标进行裁剪
frame.save(code_img_name)  保存

chaojiying = Chaojiying_Client('超级鹰账号', '超级鹰密码', '之前让大家准备的软件ID')  # 用户中心>>软件ID 生成一个替换 96001
im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print(chaojiying.PostPic(im, 9004)['pic_str'])  # 9004 验证码类型 

在这里插入图片描述

12306验证码一般最多有四张图片所以使用9004

OK,第二部分分析完毕。

三、第三部分

result = chaojiying.PostPic(im, 9004)['pic_str']    得到超级鹰返回的坐标
all_list = []  # 存储即将被点击的坐标

坐标格式为:  x,x|x,x   (x表示多位数)

if '|' in result:		如果坐标为多个则有“|”,单个没有“|”
    list_1 = result.split("|")    根据“|”分割
    count_1 = len(list_1)		  得到分割后的数量
    for i in range(count_1):
    	以下应该都能看懂,我就不分析了,根据坐标格式分拆解
        xy_list = []
        x = int(list_1[i].split(",")[0])
        y = int(list_1[i].split(",")[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(",")[0])
    y = int(result.split(",")[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)
print(all_list)
# 遍历列表,使用动作链对每一个列表元素对应的x,y指定的位置进行点击操作
for l in all_list:
    x = l[0]
    print(x)
    y = l[1]
    print(y)
    ActionChains(bro).move_to_element_with_offset(code_img_ele,x,y).click().perform()   # move_to_element_with_offset   移动到距某个元素(左上角坐标)多少距离的位置
    time.sleep(0.5)

四、第四部分


这也没啥说的,就是根据id找到账号和密码填写框赋值,最后点击登录按钮。
	中间稍微休息下不要太快

bro.find_element_by_id("J-userName").send_keys("填自己的12306账号")
time.sleep(1)
bro.find_element_by_id("J-password").send_keys("填自己的12306密码")
time.sleep(1)
bro.find_element_by_id("J-login").click()
time.sleep(1)

在这里插入图片描述

你可能感兴趣的:(python,selenium)