boss直聘的爬取之js解密cookie的”__zp_stoken__”字段

这篇主要说boss直聘遇到的解密过程,但是也不能细讲,大概思路给大家说下。

能来看这篇文章的人大概也是最近发现了boss直聘经过改版后,访问页面必须携带”zp_stoken”字段了,我们直接进入正题。

首先我们随意访问一个页面,好比https://www.zhipin.com/c101040100-p100901/,我们发现boss直聘的爬取之js解密cookie的”__zp_stoken__”字段_第1张图片

记得选中1号位置,不然谷歌看不到重定向的请求;

我们访问的是2号链接,由于我的”zp_stoken”字段失效,会去重定向到3号链接,我们来看下3号链接的内容以及返回值,https://www.zhipin.com/web/common/security-check.html?seed=F%2B2ifrYi%2By45iVqtmNuADi90891id3QNfzPtJRHgVcA%3D&name=e948d594&ts=1569807956188&callbackUrl=%2Fjob_detail%2F%3Fquery%3D%26city%3D101040100%26industry%3D%26position%3D120201&srcReferer=https%3A%2F%2Fwww.zhipin.com%2Fjob_detail%2F%3Fquery%3D%26city%3D101040100%26industry%3D%26position%3D120201
注意这里面有几个有用的东西seed,name,ts这几个后面有用

然后看下返回的内容里面的代码块,找到这个boss直聘的爬取之js解密cookie的”__zp_stoken__”字段_第2张图片
对,想必大家都知道我们要的”zp_stoken”字段在那里了,就是在另外一个js文件里面,上图中也标记出来了,我们去访问这链接,也就是4号链接(真实访问的链接)上面的一个js访问链接,拿到这这文件,我们去解密这文件就OK了。。。。具体解密不好细说,毕竟涉及到别人的商业问题。

补充几点:解密文件第一个函数,你只需要注意他改变了全局参数没有,只留下相关代码,其余全部删掉;
后面的函数就是对这个大数组再次混淆,注意返回值是什么就好;
如果你想看懂函数,然后自己模拟解密流程也是可以的,反正我做不到这一步,哈哈
另外在说下,我观察了两天,每天的这个js文件都不一样,除了变量不一样,大致流程是一样的,,,,
踩坑之路还在继续,英雄怎么退缩。。。。。。。。哈哈哈

最后申明一下,如果文章涉权,请联系我删掉,谢谢!!!--------------------

你可能感兴趣的:(Webmagic,java,爬虫)