接上篇,来到第五关,地址:http://www.heibanke.com/lesson/crawler_ex04/
界面依旧熟悉,不过多了个验证码
很明显,这关主要在考如何过验证码,先随便填几个字符点击提交,结果提示密码错误,F12看看请求:
可以看到提交了5个参数,多了captcha_0和captcha_1,captcha_1就是我刚刚填入的验证码,那么captcha_0是个什么东西?看看源码
看来这个captcha_0是后台动态生成的一个值,猜测是后台用来匹配验证码的,不过这对我们没影响,直接取这个值提交就行了。
整个页面非常简单,重点在怎样识别验证码,能识别出验证码的话,密码一个个试就行了(作者已经提示密码全部都是数字)。识别验证码我使用了pillow+pytesseract,结果发现识别效率非常低,我也不知道为啥,可能我使用姿势不对?考虑到作者不会搞太难的密码,我干脆手动输入算了(考虑个屁,没办法的办法了)。
代码如下:
# -*- coding: utf-8 -*-
import pytesseract
from PIL import Image
import urllib.request as urllib
from io import BytesIO
from urllib import request
from urllib import parse
from bs4 import BeautifulSoup
def get_page(url, params):
print('get url %s' % url)
data = parse.urlencode(params).encode('utf-8')
header = {
'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Connection': 'keep-alive',
'Cookie':r'Hm_lvt_74e694103cf02b31b28db0a346da0b6b=1514366315; csrftoken=1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH; sessionid=m4paft1uuvhm3thrwvdgwut2rvu8uz8d; Hm_lpvt_74e694103cf02b31b28db0a346da0b6b=1514428404',
'Refer':'http://www.heibanke.com/lesson/crawler_ex02/'
}
req = request.Request(url, data, headers=header)
page = request.urlopen(req).read()
page = page.decode('utf-8')
return page
count = 0
url = "http://www.heibanke.com/lesson/crawler_ex04/"
token = '1yFgXVZtw2rACmTYDGABYKs9VWLWqbeH'
username = 'pkxutao'
# 构造post参数
data = {
'csrfmiddlewaretoken': token,
'username': 'pkxutao',
'password': -1
}
# result = get_page(url, data)
h3 = ''
# 这里的恭喜判断其实多余,因为里面有对是否正确的判断
while "恭喜" not in h3:
data['password'] = count
result = get_page(url, data)
soup = BeautifulSoup(result, "html.parser")
# 先获取到captcha_0
temp = soup.find_all('input', id='id_captcha_0')
if len(temp) == 0:
# 说明密码正确
break
captcha_0=temp[0]['value']
data['captcha_0'] = captcha_0
# 再获取captcha_1,就是验证码
captcha=soup.find_all('img', class_='captcha')[0]['src']
resp = urllib.urlopen('http://www.heibanke.com'+captcha)
img = Image.open(BytesIO(resp.read()))
# 展示验证码
img.show()
code = input()
print('输入的验证码为 %s' % code)
# 这里准备用pytesseract自动识别,但识别率实在太低,改为手动
# img=img.convert('L')
# img.show()
# code = pytesseract.image_to_string(img)
# print('识别的验证码为 %s' % code)
data['captcha_1']=code
# result = get_page(url, data)
# soup = BeautifulSoup(result, "html.parser")
h3 = soup.find_all("h3")[0].text
print(h3)
if h3 not in '验证码输入错误':
count += 1
print("闯关成功,密码为%s" % count)
pytesseract识别验证码的代码被我注释了,想玩的话可以试试,最后爬到的密码是22,到页面登录,bingo!但是。。。。发现这是最后一关了,可惜了,这游戏还挺好玩的。