初次尝试采用requests库爬取拉勾网信息(2020-04-25)

笔者刚学习爬虫不久,用requests库无法攻破拉钩网的反爬机制。看了许多大神的方法,可惜都已经失效。所以最后选取了selenuim 框架爬取职位信息。
在这里先总结下我用request库所遇到的问题。

  1. 首先就是按f12无法抓包的问题,解决方法是删除cookies刷新,或者在其他页面打开抓包窗口然后在跳转到拉钩网主页。
  2. 职位信息用的ajax请求,采用post方式提交的表单中第一页所需要的提交信息如下初次尝试采用requests库爬取拉勾网信息(2020-04-25)_第1张图片
    第二页表单参数如下初次尝试采用requests库爬取拉勾网信息(2020-04-25)_第2张图片
    后面的页数中跟第二页中的表单参数相比,除了页数不同其他都一样,也就是说第一页与后面的页数相比除了first参数不同之外还有个sid参数,而sid其实是第一页preview中的showid
    初次尝试采用requests库爬取拉勾网信息(2020-04-25)_第3张图片
    到这里表单参数这里基本已经很明了了。
  3. 最后一个也是最难的地方就是cookies的问题,我的尝试是用requests.session()这个方法先首次访问拉勾的某个网址然后在用得到的 cookie去访问ajax的那个url,结果失败了,不是请求太频繁就是给我的信息不是我想要的。后来我发现ajax的cookie中有一个是通过js获得的,而主页面首次返回设定的cookie中并没有这个 ,那个js文件也很好找,可惜以我现有的知识就无法搞定了,只要能破解这一点,我相信拉勾网也就能采取requests的方式去爬了。

你可能感兴趣的:(笔记)