【Python】爬虫+动态Cookie获取

一、前言

背景是帮助朋友爬取一个国家网站发布的肺炎疫情统计信息。

二、遇到的问题

朋友本来是打算按照最基本的方法进行爬取,代码如下:

import requests
import re

URL = "xxxxxx"
r = requests.get(URL)
#print(r)

但这样收到服务器的回复是HTTP 412,没有获得正常的回应。这就非常奇怪了,请求的页面看起来也是静态页面,没有跟用户进行交互,用浏览器打开能正常访问。由此猜测可能设置了"反爬虫"的操作,因此使用Postman发送请求试试看,结果还是HTTP 412,也返回了一个页面,但页面内容是JS代码。猜测可能是请求头需要设置新内容,服务器会根据请求头来返回相应的信息,于是用Chrome浏览器找到了请求头里的每一项。经过多次尝试,找到了请求头需要加Cookie这一项,否则无法传回目标网页信息。改写代码如下:其中Cookie内容从浏览器复制

URL = "xxxxx"
headers = {'Cookie':'ainfaoifivbiu'}
r = requests.get(URL,headers=headers)

返回信息显示HTTP 200,总算能正常获取页面了!

(还是有深深的疑惑:为啥这种公布信息的网站还要设置Cookie的限制呢?防止DDos?)

三、深入问题

虽然加入Cookie能获得目标网页信息,但是经测试Cookie的时效太短了,猜测只有一分钟,而且这种从浏览器复制Cookie的行为时不满足爬虫自动化的要求。那么自然想到能不能通过代码先获取到Cookie呢?

先勾勒一下整个交互过程:

客户端发送请求->服务器响应并传回Cookie->客户端将Cookie添加到请求头中,重新发送请求->服务器响应请求。

一般而言,服务器通过响应报文请求头里的Set-Cookie一项来设置Cookie,通过Postman抓取到Cookie来看又发现了问题:Set-Cookie里的内容比正常响应的Cookie内容少了很多。那么剩余的Cookie在哪里呢?

四、真相

实际上,虽然不带Cookie进行访问会得到HTTP 412的响应,但是这个数据报文应该是包含了全部的Cookie信息,由此客户端才能设置Cookie正常访问。既然一部分在请求头里,那么剩余部分在请求正文中!上文提到返回的文件是一个html页面,其中是JS代码,博主只是略懂JS代码,但它写的格式实在是不打算不给人看的,但浏览器能执行这些代码。博主猜测,剩余的Cookie就是由这些JS代码产生的,也能解释为什么Cookie的时效短的原因。

但是为了实现爬虫自动化,总不能自己写一个JS执行引擎吧...为此,不得不借用python的库selenium了。由它打开浏览器访问页面,而我们只需要其中的Cookie再重新请求获取数据,代码如下:

from selenium import webdriver
import json
import requests
import re

browser = webdriver.Firefox()
browser.get('xxxx')

Cookie = browser.get_cookies()
strr = ''
#print(Cookie)
for c in Cookie:
    strr += c['name']
    strr += '='
    strr += c['value']
    strr += ';'
#strr = strr[0:-2]
#print(strr)
headers = {'Cookie':strr}
#print(headers)
r2 = requests.get('xxx',headers=headers)
print(r2)

五、小结

博主认为这个也只能是权宜之计,毕竟还是打开了浏览器,爬虫的最高境界不应该是自身就模拟了浏览器嘛?之后的改进思路应该是借助python执行JS代码再提取出Cookie。

你可能感兴趣的:(【Python】爬虫+动态Cookie获取)