从头学习爬虫(六) 进阶篇----cookie

本文主要介绍下cookie的作用:

用于传输部分验证参数以及类似get、post的请求参数,常用于反爬策略验证用户信息。


实战分析:

1、用于分页page、经纬度。。。参数传递

从头学习爬虫(六) 进阶篇----cookie_第1张图片

其他参数就不解析比较复杂,很明显我所在地区是杭州, __mta所对应经纬度信息,如果更换可能返回信息就更换了。

这样好处主要是为了隐藏信息,区别与get、post请求。

2、作为用户登入后信息存储

常见我们通常登入后使用cookie,进行后续页面爬取,这样可以不用模拟登入,更为方便。

3、cookie时效性

有时候我们用已保存的cookie进行爬取,但是当下一次爬取就失败,很有可能就是因为cookie失效了,从而要重新去获取cookie,这样不适用与实际生产,所以后续我还是要通过模拟登入获取新鲜的cookie,这样更通用。

4、session

从头学习爬虫(六) 进阶篇----cookie_第2张图片

赤狐为例,通常我们可以从cookie里面看到jsessionid这个参数通常用于记录session。

所以经常我们会遇到关闭浏览器或者一段时间,然后这个值变化导致请求失败。

形象的描述下,类似于自助餐厅门票,当我们出门或者过了时间段,就要重新买票了。

而且我们要保证这后续爬取正常,这个session要保持一致不能关闭。

比如我们可能犯的错误把session关闭或者一段时间后还是拿着被废弃的门票想去吃霸王餐

从头学习爬虫(六) 进阶篇----cookie_第3张图片当然不会认可你。

还有个类似的token基本类似不再重复了。


重点:总有人问为什么浏览器访问一个网页总是带cookie,但是我没有登入啊,而且我写请求没这个参数不可以啊,因此我画一张图,看看就好了。

从头学习爬虫(六) 进阶篇----cookie_第4张图片

从头学习爬虫(六) 进阶篇----cookie_第5张图片

一般做1-3次请求就可以成功了。

你可能感兴趣的:(网络爬虫)