Python爬虫倒立文字验证码登录知乎

引言

本文解析了知乎倒立文字验证码的原理,人工识别倒立文字所在位置后组织报文成功登录。

原理

关于登录的基本原理可参考Python爬虫之模拟知乎登录,只不过这篇文章中登录的验证码为“数字英文”模式,而当前登录时是“点击倒立文字”模式,所以主要记录这部分。
先故意选错验证码,如图,选中第三个和第五个汉字,点击登录
Python爬虫倒立文字验证码登录知乎_第1张图片
在开发者模式中观察浏览器是如何发送请求的
Python爬虫倒立文字验证码登录知乎_第2张图片
如图所示captcha即为验证码信息:其中”img_size”字段每次都是[200,44],应该表示图片大小。后面的”input_points”是你点击验证码中倒立文字的坐标,服务端应该是判断输入的坐标在匹配的一定范围内即判断验证码正确。

由于验证码中七个文字位置是固定的,只需要提前确定每个字所在坐标并放入列表中,然后人工确定倒立文字的文字序号,将列表中序号对应的坐标加入input_points字段。

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)中获取了这七个文字坐标依次如下:[22.796875,22],[42.796875,22],[63.796875,21],[84.796875,20],[107.796875,20],[129.796875,22],[150.796875,22]。

代码

# encoding: utf-8
# !/usr/bin/env python

import time
from http import cookiejar
import json
import requests
from bs4 import BeautifulSoup

headers = {
    "Host": "www.zhihu.com",
    "Referer": "https://www.zhihu.com/",
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}




# 使用登录cookie信息
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
    print(session.cookies)
    session.cookies.load(ignore_discard=True)

except:
    print("还没有cookie信息")


def get_xsrf():
    response = session.get("https://www.zhihu.com", headers=headers, verify=False)
    soup = BeautifulSoup(response.content, "html.parser")
    xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
    return xsrf


def get_captcha():
    """
    把验证码图片保存到当前目录,手动识别验证码
    """
    t = str(int(time.time() * 1000))#验证码是按时间戳命名
    captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login&lang=cn"
    print(captcha_url)
    r = session.get(captcha_url, headers=headers)
    with open('captcha.gif', 'wb') as f:
        f.write(r.content)
        f.close()

    # 自动打开刚获取的验证码
    from PIL import Image
    try:
        img = Image.open('captcha.gif')
        img.show()
        img.close()
    except:
        pass

    captcha = {
        'img_size': [200, 44],
        'input_points': [],
    }
    points = [[22.796875, 22], [42.796875, 22], [63.796875, 21], [84.796875, 20], [107.796875, 20],
              [129.796875, 22], [150.796875, 22]]
    seq = input('请输入倒立字的位置\n>')
    for i in seq:
        captcha['input_points'].append(points[int(i) - 1])
    return json.dumps(captcha)


def login(email, password):
    login_url = 'https://www.zhihu.com/login/email'
    data = {
        'email': email,
        'password': password,
        '_xsrf': get_xsrf(),
        "captcha": get_captcha(),
        'captcha_type': 'cn',}
    print(session.cookies)
    response = session.post(login_url, data=data, headers=headers)
    login_code = response.json()
    print(login_code['msg'])
    print(session.cookies)
    r = session.get("https://www.zhihu.com/settings/profile", headers=headers)
    print(r.status_code)
    print(r.text)
    with open("xx.html", "wb") as f:
        f.write(r.content)


if __name__ == '__main__':
    email = "xxxxxx"
    password = "xxxxxx"
    login(email, password)

效果如下:
Python爬虫倒立文字验证码登录知乎_第3张图片

参考

Python爬虫之模拟知乎登录
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)

你可能感兴趣的:(Python)