1. 检查请求
首先来到Github的登录页面,如下所示。
然后打开开发者模式,切换到Netword选项卡下,然后在浏览器输入用户名和密码,不要着急点击登录,先清除Network下的所有请求。
然后点击登录,会看到有很多的请求被发送出去。
接着找到第一个session请求,查看该post请求的form data,如下图所示。
其中的login 和 password就是我们所输入的账号名与密码。那么,接下来的模拟过程就是我们只需要构造这个form data然后往该请求的request URL发送数据就可以完成模拟登录。
经过分析可以发现,我们需要构造的参数有authenticity_token,ga_id , timestamp,timestamp_secret这四个参数,其他的例如commit ,utf8,webauth-invpaa-support 等可以直接复制。
2.构造请求参数
那么,我们要怎样构造所需要的四个参数呢?
2.1 authenticity_token
我们还是在登录页面打开开发者模式,不用输入账户密码进行登录,然后切换到Element选项下,在该页面下搜索token,发现只有一个搜索结果。
这个input元素里的value值就是authenticity_token的值,我们只需通过xpath选择器选择该节点,然后取其value属性即可。该xpath表达式为://input[@name="authenticity_token"]/@value
。
2.2 timestamp与timestamp_secret
同样,我们搜索timestamp可以同时发现timestamp与tiemstamp_secret两个参数。
其value值也就是我们需要的参数值。
然后通过xpath选出该值。
timestamp://input[@name="timestamp"]/@value
timestamp_secret://input[@name="timestamp_secret"]/@value
2.3 ga_id
跟上面的思路一样,我们可以通过同样的方式找出ga_id,一共有两个搜索结果,一个是head 里的meta信息,还有一个是登录表单里的信息。
这两个元素里都有我们需要的值,meta里的content内容和inp里的value值就是ga_id 的值,而且这两个值是一样的。照理,我们也可以用xpath提取到ga_id的值。但是在程序完成之后,我们发现其他的值都可以提取出来,而ga_id提取的出来的值却为空,其原因是该元素是通过js动态加载的,在程序里是提取不到这个值的。所以,在这个地方我们有两种解决办法,一个是阅读js的代码,找到ga_id的生成方法后自己生成一个ga_id,还有一种是通过Selenium加载页面,然后按照xpath提取值。在这里我们选用第二种方法,因为这种方法快速简洁而方便。
def ga_id(self):
broser = webdriver.Chrome()
broser.get(self.login_url)
time.sleep(5)
html = broser.page_source
html = etree.HTML(html)
ga_id = html.xpath('//div//input[@name="ga_id"]/@value')[0]
return ga_id
这里要用Chrome驱动,用Phantomjs驱动依然提取不到值。
这样,我们需要的请求参数都构造完成了,接下来发送请求就可以了。
3.发送请求
def login(self):
formdata = {
'commit':'Sign in',
'utf8':'√',
'authenticity_token':self.token(),
'ga_id':self.ga_id(),
'login':账号名,
'password':密码,
'webauthn-support':'',
'webauthn-iuvpaa-support':'',
'timestamp':self.timestamp(),
'timestamp_secret':self.timestamp_secret()
}
response = self.session.post(self.post_url,data=formdata,headers=self.headers)
# 测试登录后的页面
zhuye = self.session.get('https://github.com/settings/keys',headers =self.headers)
print(zhuye.text)
运行代码可以发现其输出了登录后才能显示的页面,也就模拟登录成功了。
完整代码如下:
# coding-utf-8
import time
import requests
from lxml import etree
from selenium import webdriver
class Login(object):
def __init__(self):
self.headers = {
"Origin":"https://github.com",
"Host":"github.com",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0"
}
self.login_url = "https://github.com/login"
self.post_url = "https://github.com/session"
self.session = requests.Session()
self.lresponse = self.session.get(self.login_url, headers=self.headers)
self.html = etree.HTML(self.lresponse.text)
def token(self):
token = self.html.xpath('//input[@name="authenticity_token"]/@value')[0]
return token
def ga_id(self):
broser = webdriver.Chrome()
broser.get(self.login_url)
time.sleep(5)
html = broser.page_source
html = etree.HTML(html)
ga_id = html.xpath('//div//input[@name="ga_id"]/@value')[0]
return ga_id
def timestamp(self):
tiemstamp = self.html.xpath('//input[@name="timestamp"]/@value')[0]
return tiemstamp
def timestamp_secret(self):
tiemstamp_secret = self.html.xpath('//input[@name="timestamp_secret"]/@value')[0]
return tiemstamp_secret
def login(self):
formdata = {
'commit':'Sign in',
'utf8':'√',
'authenticity_token':self.token(),
'ga_id':self.ga_id(),
'login':账号,
'password':密码,
'webauthn-support':'',
'webauthn-iuvpaa-support':'',
'timestamp':self.timestamp(),
'timestamp_secret':self.timestamp_secret()
}
response = self.session.post(self.post_url,data=formdata,headers=self.headers)
# 测试登录后的页面
zhuye = self.session.get('https://github.com/settings/keys',headers =self.headers)
print(zhuye.text)
if __name__ =="__main__":
github = Login()
github.login()