爬虫游戏第五关

接上篇,来到第五关,地址:http://www.heibanke.com/lesson/crawler_ex04/
界面依旧熟悉,不过多了个验证码

爬虫游戏第五关_第1张图片
image.png

很明显,这关主要在考如何过验证码,先随便填几个字符点击提交,结果提示密码错误,F12看看请求:
image.png

可以看到提交了5个参数,多了captcha_0和captcha_1,captcha_1就是我刚刚填入的验证码,那么captcha_0是个什么东西?看看源码
爬虫游戏第五关_第2张图片
image.png

看来这个captcha_0是后台动态生成的一个值,猜测是后台用来匹配验证码的,不过这对我们没影响,直接取这个值提交就行了。
整个页面非常简单,重点在怎样识别验证码,能识别出验证码的话,密码一个个试就行了(作者已经提示密码全部都是数字)。识别验证码我使用了pillow+pytesseract,结果发现识别效率非常低,我也不知道为啥,可能我使用姿势不对?考虑到作者不会搞太难的密码,我干脆手动输入算了(考虑个屁,没办法的办法了)。
代码如下:

# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
import urllib.request as urllib
from io import BytesIO
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup

def get_page(url, params):
    print('get url %s' % url)
    data = parse.urlencode(params).encode('utf-8')
    header = {
        'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Connection': 'keep-alive',
        'Cookie':r'Hm_lvt_74e694103cf02b31b28db0a346da0b6b=1514366315; csrftoken=1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH; sessionid=m4paft1uuvhm3thrwvdgwut2rvu8uz8d; Hm_lpvt_74e694103cf02b31b28db0a346da0b6b=1514428404',
        'Refer':'http://www.heibanke.com/lesson/crawler_ex02/'
    }
    req  = request.Request(url, data, headers=header)
    page = request.urlopen(req).read()
    page = page.decode('utf-8')
    return page
count = 0
url = "http://www.heibanke.com/lesson/crawler_ex04/"
token = '1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH'
username = 'pkxutao'
# 构造post参数
data = {
    'csrfmiddlewaretoken': token,
    'username': 'pkxutao',
    'password': -1
}
# result = get_page(url, data)
h3 = ''
# 这里的恭喜判断其实多余,因为里面有对是否正确的判断
while "恭喜" not in h3:
    data['password'] = count
    result = get_page(url, data)
    soup = BeautifulSoup(result, "html.parser")
    # 先获取到captcha_0
    temp = soup.find_all('input', id='id_captcha_0')
    if len(temp) == 0:
        # 说明密码正确
        break
    captcha_0=temp[0]['value']
    data['captcha_0'] = captcha_0
    # 再获取captcha_1,就是验证码
    captcha=soup.find_all('img', class_='captcha')[0]['src']
    resp = urllib.urlopen('http://www.heibanke.com'+captcha)
    img = Image.open(BytesIO(resp.read()))
    # 展示验证码
    img.show()
    code = input()
    print('输入的验证码为 %s' % code)
    # 这里准备用pytesseract自动识别,但识别率实在太低,改为手动
    # img=img.convert('L')
    # img.show()
    # code = pytesseract.image_to_string(img)
    # print('识别的验证码为 %s' % code)
    data['captcha_1']=code
    # result = get_page(url, data)
    # soup = BeautifulSoup(result, "html.parser")
    h3 = soup.find_all("h3")[0].text
    print(h3)
    if h3 not in '验证码输入错误':
        count += 1
print("闯关成功,密码为%s" % count)

pytesseract识别验证码的代码被我注释了,想玩的话可以试试,最后爬到的密码是22,到页面登录,bingo!但是。。。。发现这是最后一关了,可惜了,这游戏还挺好玩的。

你可能感兴趣的:(爬虫游戏第五关)