本文解析了知乎倒立文字验证码的原理,人工识别倒立文字所在位置后组织报文成功登录。
关于登录的基本原理可参考Python爬虫之模拟知乎登录,只不过这篇文章中登录的验证码为“数字英文”模式,而当前登录时是“点击倒立文字”模式,所以主要记录这部分。
先故意选错验证码,如图,选中第三个和第五个汉字,点击登录
在开发者模式中观察浏览器是如何发送请求的
如图所示captcha即为验证码信息:其中”img_size”字段每次都是[200,44],应该表示图片大小。后面的”input_points”是你点击验证码中倒立文字的坐标,服务端应该是判断输入的坐标在匹配的一定范围内即判断验证码正确。
由于验证码中七个文字位置是固定的,只需要提前确定每个字所在坐标并放入列表中,然后人工确定倒立文字的文字序号,将列表中序号对应的坐标加入input_points字段。
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)中获取了这七个文字坐标依次如下:[22.796875,22],[42.796875,22],[63.796875,21],[84.796875,20],[107.796875,20],[129.796875,22],[150.796875,22]。
# encoding: utf-8
# !/usr/bin/env python
import time
from http import cookiejar
import json
import requests
from bs4 import BeautifulSoup
headers = {
"Host": "www.zhihu.com",
"Referer": "https://www.zhihu.com/",
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}
# 使用登录cookie信息
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
print(session.cookies)
session.cookies.load(ignore_discard=True)
except:
print("还没有cookie信息")
def get_xsrf():
response = session.get("https://www.zhihu.com", headers=headers, verify=False)
soup = BeautifulSoup(response.content, "html.parser")
xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
return xsrf
def get_captcha():
"""
把验证码图片保存到当前目录,手动识别验证码
"""
t = str(int(time.time() * 1000))#验证码是按时间戳命名
captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login&lang=cn"
print(captcha_url)
r = session.get(captcha_url, headers=headers)
with open('captcha.gif', 'wb') as f:
f.write(r.content)
f.close()
# 自动打开刚获取的验证码
from PIL import Image
try:
img = Image.open('captcha.gif')
img.show()
img.close()
except:
pass
captcha = {
'img_size': [200, 44],
'input_points': [],
}
points = [[22.796875, 22], [42.796875, 22], [63.796875, 21], [84.796875, 20], [107.796875, 20],
[129.796875, 22], [150.796875, 22]]
seq = input('请输入倒立字的位置\n>')
for i in seq:
captcha['input_points'].append(points[int(i) - 1])
return json.dumps(captcha)
def login(email, password):
login_url = 'https://www.zhihu.com/login/email'
data = {
'email': email,
'password': password,
'_xsrf': get_xsrf(),
"captcha": get_captcha(),
'captcha_type': 'cn',}
print(session.cookies)
response = session.post(login_url, data=data, headers=headers)
login_code = response.json()
print(login_code['msg'])
print(session.cookies)
r = session.get("https://www.zhihu.com/settings/profile", headers=headers)
print(r.status_code)
print(r.text)
with open("xx.html", "wb") as f:
f.write(r.content)
if __name__ == '__main__':
email = "xxxxxx"
password = "xxxxxx"
login(email, password)
Python爬虫之模拟知乎登录
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)