cookie: 记录身份信息。当你登录一个网站,你都会在登录页面看到一个可勾选的选项“记住我”,如果你勾选了,以后你再打开这个网站就会自动登录,这就是cookie在起作用。
(1)当你登录微博账号123456,并勾选“记住我”。
(2)服务器就会生成一个cookies和123456这个账号绑定。
(3)接着,它把这个cookies告诉你的浏览器,让浏览器把cookies存储到你的本地电脑。
(4)当下一次,浏览器带着cookies访问博客,服务器会知道你是123456,你不需要再重复输入账号密码,即可直接访问。
注意a: 然而过一段时间,cookie会失效,需要再次输入
注意b:有些网址也通过cookie来反爬,即使不需要登录输入信息,本节就是用讲的这种情况
总结:
图片来源于:python总结-cookies概念
# requests.cookie()
# cookie保持一个登录的状态,进行一个会话的维持
# 例子1 :get方法请求,提取百度的cookie
import requests
resp = requests.get('https://www.baidu.com/')
print(resp.cookies) # ]>
print(resp.cookies.get_dict() # {'BDORZ': '27315'}
# 例子2:post方法请求,提取网页的cookie
login_in = requests.post(url,headers=headers,data=data)
#提取cookies的方法:调用requests对象(login_in)的cookies属性获得登录的cookies,并赋值给变量cookies。
cookies = login_in.cookies
#模拟登陆知乎
url = 'https://www.zhihu.com/hot'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp = requests.get(url,headers=headers)
print(resp.text) # 无法登录,因为headers里面没有录入cookie数据
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','cookie':'_zap=f6651dfd-8259-4706-9032-5727ec6593ff; d_c0="AKAWpA4b6BCPTrYOvjRlh-tSAC2xRRy2R_o=|1583234256"; _ga=GA1.2.1237704894.1583234257; _xsrf=EQmHq5EuP5gF6Ja6bH46i3znv0r53niY; _gid=GA1.2.1825342243.1588076980; tst=h; tshl=; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1587811271,1588076979,1588228873,1588246738; SESSIONID=aq5YCH9MiITrFZOobkIFT3EYgtlfG6SlvGwVB2EUB1F; JOID=UFwUAkLNy7aYh4WBEc5mLyDPZL4Dqr-Dyc_LvVyvhOfqydTIe7wBFMWKhoQZq-aJtgz8-vsmayVtXOxAwCJS2b4=; osd=UlgUC0zPz7aRiYeFEcdoLSTPbbABrr-Kx83PvVWhhuPqwNrKf7wIGseOho0XqeKJvwL-_vsvZSdpXOVOwiZS0LA=; capsion_ticket="2|1:0|10:1588254120|14:capsion_ticket|44:Yjk0ZTgyMjRjZDU0NGFlMjgwMzU4ZmZkMWJhYzA5MmI=|fdf13162982002c673847fae50e99c8f22d583ef7e23228c2d3ace7080b56ee7"; z_c0="2|1:0|10:1588254121|4:z_c0|92:Mi4xRjdYeENBQUFBQUFBb0Jha0Rodm9FQ1lBQUFCZ0FsVk5xU09ZWHdEcnRjZFhPSlkwdXpYZXFualQtekloamplbzdn|76d278afd875611d83dba20ed4d6169d34d0bf1447521478b93ec7ec38c443ae"; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1588254123; KLBRSID=ca494ee5d16b14b649673c122ff27291|1588254207|1588252528'}
resp = requests.get(url,headers=headers)
print(resp.text) # 实现登录,因为headers录入了cookie数据
session:会话,用于记录用户上网浏览的信息。
例子:我们从浏览器上网到关闭浏览器的这一过程。session是会话过程中,服务器用来记录特定用户会话的信息。比如今天浏览微博,浏览了哪些话题,这些记录都会被保存在session中。
(1)互相存储信息:cookies中存储着session的编码信息,session中又存储了cookies的信息。
举例:当我们登录微博账号123456,并勾选“记住我”。服务器就会生成一个cookies和123456这个账号绑定。接着,它把这个cookies告诉你的浏览器,让浏览器把cookies存储到你的本地电脑。当下一次,浏览器带着cookies访问博客,服务器会知道你是123456,你不需要再重复输入账号密码,即可直接访问。这样就能够持续保持会话进行。
(2)应用:登陆网址,发表评论
这个例子来源于(转载):Python学习之cookies及session用法
本人觉得对比较有用,所以想敲一敲,学习一下,并搬运于此,供大家学习
import json,requests
# 用requests.session()创建session对象,相当于创建了一个空的会话框,准备保持cookies
session = requests.sessions()
# 添加请求头,避免被反爬虫。
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
# 读取cookies:先把字符串转成字典,再把字典转成cookies本来的格式
def cookie_read():
cookie_txt = open('cookie.txt','r')
cookie_dict = json.loads(cookie_txt.read())
cookie = requests.utils.cookiejar_from_dict(cookie_dict)
return (cookie)
# 登录网址,得到cookie,存储cookie(先转成字典,再转成字符串)
def sign_in():
url = 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'
data = {'log': input('请输入你的账号'),
'pwd': input('请输入你的密码'),
'wp-submit': '登录',
'redirect_to': 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-admin/',
'testcookie': '1'}
# 在创建的session下用post发起登录请求,session这个时候就包括 cookies 了。
session.post(url,headers=headers,data=data)
# cookies存储
cookie_dict = requests.utils.dict_from_cookiejar(session.cookies)
cookie_str = json.dump(cookie_dict)
f = open('cookie.txt','w')
f.write(cookies_str)
f.close()
# 登录成功,发表评论
def write_message():
url2 = 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-comments-post.php'
data_2 = {
'comment': input('请输入你要发表的评论:'),
'submit': '发表评论',
'comment_post_ID': '13',
'comment_parent': '0'
}
return (session.post(url_2, headers=headers, data=data_2)) # 在创建的session下用post发起登录请求,session这个时候就包括 cookies 了。
# 针对cookies过期的问题,需重新登录,重新保存cookie信息
try:
session.cookies = cookie_read()
except FileExistsError:
sign_in()
session.cookies = cookie_read()
result = write_message()
if result.status_code == 200:
print('评论成功!')
else:
sign_in()
session.cookies = cookie_read()
result = write_message()
(1)了解12306的身份验证顺序:
用户名(正确)-密码(正确)-验证码(错误)–点击登录
输入:用户名(错误)-密码(错误)-验证码(正确)-点击登录
== 得出 12306是先验证验证码-再验证账户密码 ==
result_message: "验证码校验成功", result_code: "4"}
(2)理清破解验证码流程
1.请求目标url
2.拿到12306的验证码
3.点击正确验证码
data = {'answer': codeStr,'rand': 'sjrand','login_site': 'E'}
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36' }
# 1.请求url
response = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)
print(response) #
print(response.txt) # 打印内容,验证码信息失败,信息为空
第一种方法: 打开图片链接 - 用base64模块处理 - 存储图片
import base64
# 正常图片长度一般不长
s = 'https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1588854070&di=e940d954e46236fcaf2ef5c5b99a800&src=http://pic3.16pic.com/00/01/11/16pic_111395_b.jpg'
# 12306图片网址很长,做了一个base64处理
url = ''
# 用python内置模块处理
img_data = base64.b64decode(url)
fn = open('code.png','wb')
fn.write(img_data) # Error: Incorrect padding No 不正确的填充,需要去掉url的前置 ‘data:image/jpg;base64’
fn.close()
第一种方法太长,不推荐。推荐第二种方法:
在网页中寻求响应
查找两个url的相同处,得到验证码图片
# 第一个url
# https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1588854482831&callback=jQuery19106102610091091487_1588854471128&_=1588854471129
# 第二个url
# https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1588854489430&callback=jQuery19106102610091091487_1588854471128&_=1588854471130
# 相同处
https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand
# 去掉64,得到验证码图片
# https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand 12306的验证码图片
# 2.拿到12306的图片验证码
pic_response = req.get('https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand')
codeImage = pic_response.content
fn = open('code2.png','wb')
fn.write(codeImage)
fn.close()
codeStr = input('请输入验证码坐标:')
data = {'answer': codeStr, 'rand': 'sjrand',login_site':'E'}
输入正确的验证码后还是失败,原因是没有保持会话的继续,这个时候需要session来保持会话进行
import requests
req = requests.session()
response = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)
# {result_message: "验证码校验成功", result_code: "4"}
import requests
req = requests.session()
def login():
# 2.拿到12306的图片验证码
pic_response = req.get('https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand')
codeImage = pic_response.content
fn = open('code2.png','wb')
fn.write(codeImage)
fn.close()
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
codeStr = input('请输入验证码坐标:')
data = {
'answer': codeStr,
'rand': 'sjrand',
'login_site': 'E'
}
# 1.请求目标url
response = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)
print(response.text)
# 3.点击正确的目标图片
login()
import requests
def query():
# headers 里面要添加cookie,才能访问页面内容
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','Cookie':'JSESSIONID=C69BB3C1423FE2782FBADBC6CCFFC1DB; _jc_save_toStation=%u6210%u90FD%2CCDW; _jc_save_wfdc_flag=dc; _jc_save_fromStation=%u957F%u6C99%2CCSQ; BIGipServerpassport=854065418.50215.0000; RAIL_EXPIRATION=1589138029444; RAIL_DEVICEID=GOUQ6YuSBKleYqFcUjEYfjqmJao9QkmcsX3v1DiP6qe2WIr1c0M6YJBDldFcO70lExNRkFiGF84NgrReBrIh95J9Fx0gL4RAM7sFfRDucqk4TkbR1Yz9TeSdrb8bo5H6p3LA_-P5QuCHROE9v4qeJojUO8G1ActN; route=9036359bb8a8a461c164a04f8f50b252; _jc_save_toDate=2020-05-07; _jc_save_fromDate=2020-05-14; BIGipServerpool_passport=233636362.50215.0000; BIGipServerportal=2949906698.17695.0000; BIGipServerotn=1257243146.64545.0000'
}
r = requests.get('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2020-05-14&leftTicketDTO.from_station=CSQ&leftTicketDTO.to_station=CDW&purpose_codes=ADULT',headers=headers)
print(r.content.decode('utf-8'))
query()