Python爬虫进阶必备知识点:JS加密逆向

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: 煌金的咸鱼

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


这次来分析某个小说网站

分析请求

先来看看页面的请求
Python爬虫进阶必备知识点:JS加密逆向_第1张图片
经过查看请求,并没有请求的加密参数,但是响应的内容却不正常,许多文字在响应中都变成了 span 标签
Python爬虫进阶必备知识点:JS加密逆向_第2张图片
这样的反爬虫措施,如何分析?

定位加密

既然这里替换的内容都是 span 那就从它开始入手吧。
可以看到应该显示在正文的内容显示在 CSS 的 content 中
Python爬虫进阶必备知识点:JS加密逆向_第3张图片
我们大致清楚原来它是一种 CSS 的隐式写法。

一般 CSS 样式我们可以通过点击右上角的链接跳转到相应的文件位置,但是这里是无法跳转的
在这里插入图片描述
我们照着之前的思路,搜索一波看看能不能找到一些蛛丝马迹。
先试试搜索类名,找到的是请求页面的响应内容,并没有找到有用的信息。
在这里插入图片描述
继续搜索::before,这次找到的同样是请求页面的响应内容但是::before在文件的位置值得我们打开看看。
Python爬虫进阶必备知识点:JS加密逆向_第4张图片
点开文件再次搜索,在这里就定位到了疑似加密的地方,对!只是疑似加密。
Python爬虫进阶必备知识点:JS加密逆向_第5张图片
你不能因为代码长得丑、难理解就怀疑它是加密。
Python爬虫进阶必备知识点:JS加密逆向_第6张图片
其实这里也可以全局搜索.context_kw可以找到操作 DOM 的代码,可以找到操作 DOM 的加密位置,搜索方法大同小异。

这里就不细说了,我们只要找到加密逻辑的整体位置就行,不妨碍我们分析。

分析与改写

既然找到一个疑似加密的位置,我们肯定是要分析一波看看是不是我们要找的。

通过大概的梳理,可以看到整个 JS 分为两个部分,第一部分 JS 是CryptoJS的加解密的内容,第二部分是经过混淆的内容,根据部分 JS 可以猜测第二部分的 JS 操作了 DOM ,完成了 CSS 相关的解密。

关于第一部分的CryptoJS没啥好改的,照着用就好了。

第二部分值得研究一下,因为是混淆过的内容,照着还原回原来的代码意义不大且费时费力,需要做的就是不停调试你看不明白的代码,争取能明白这个代码的意思,能理解的代码越多,去改写越简单。
Python爬虫进阶必备知识点:JS加密逆向_第7张图片
简单说下代码的逻辑:

  1. 先取出 _0xa12e这个数组里面一个加密过的元素,取出后用 AES解密
var _0xa12e = ['appendChild', 'fromCharCode', 'ifLSL', 'undefined', 'mPDrG', 'DWwdv', 'styleSheets', 'addRule', '::before', '.context_kw', '::before{content:\x20\x22', 'cssRules', 'pad', 'clamp', 'sigBytes', 'YEawH', 'yUSXm', 'PwMPi', 'pLCFG', 'ErKUI', 'OtZki', 'prototype', 'endWith', 'test', '8RHz0u9wbbrXYJjUcstWoRU1SmEIvQZQJtdHeU9/KpK/nBtFWIzLveG63e81APFLLiBBbevCCbRPdingQfzOAFPNPBw4UJCsqrDmVXFe6+LK2CSp26aUL4S+AgWjtrByjZqnYm9H3XEWW+gLx763OGfifuNUB8AgXB7/pnNTwoLjeKDrLKzomC+pXHMGYgQJegLVezvshTGgyVrDXfw4eGSVDa3c/FpDtban34QpS3I=', 'enc', 'Latin1', 'parse', 'window', 'location', 'href', '146385F634C9CB00', 'decrypt', 'ZeroPadding', 'toString', 'split', 'length', 'style', 'type', 'setAttribute', 'async', 'getElementsByTagName', 'NOyra', 'fgQCW', 'nCjZv', 'parentNode', 'insertBefore', 'head'];
  1. 解密后的值放入到secWords中,对secWords中的值遍历并做了一堆骚操作,将处理过后的值放入到words当中,注意这里words就已经是文字了。

  2. 最后在 JS 的最后操作 DOM 进行替换

部分解析

这个 JS 不是很难,从网页复制的 JS 加上两个打印直接就可以使用,但是在 node 中直接运行发现输出的字符和实际页面展现的并不相同。

正确的字符是这样的
Python爬虫进阶必备知识点:JS加密逆向_第8张图片
在 node 中运行输出的结果是这样的
Python爬虫进阶必备知识点:JS加密逆向_第9张图片
明显 node 环境下输出的结果不是我们要的,而且字符数也少了两个,同一份代码环境不同,可以大致猜到可能是代码里做了一些对环境属性的判断。

这个时候理解代码的好处就来了,可以很快定位到下面这行代码
在这里插入图片描述
这里检测的是当前的 URL ,在浏览器中这个判断条件是不成立的,所以不执行判断中代码。
Python爬虫进阶必备知识点:JS加密逆向_第10张图片
到了 node 环境下是没有浏览器的window属性的,所以执行这句会出现异常,执行的是异常处理中的代码,所以我们直接把这段if代码注释掉。

继续向下,找找还有没有相关的代码,只要是判断浏览器相关属性的都需要注意一下。

很快看到这一行的代码也进行了相关的判断。
Python爬虫进阶必备知识点:JS加密逆向_第11张图片
在浏览器环境下代码的结果是这样的
Python爬虫进阶必备知识点:JS加密逆向_第12张图片
但是在 node 环境下是这样的,计算结果也相应的出现了错误
Python爬虫进阶必备知识点:JS加密逆向_第13张图片
所以这里需要做相应的修改,让结果能够计算正确。

例如:

_0x1532b6[_0xea12('0x26')](_0x490c80, 0x3 * +!('object' === _0xea12('0x27')))

这样 node 环境下的计算结果就正常了。

将经过处理后的 JS 运用到 Python 爬虫中,就可以看到正确的内容了
Python爬虫进阶必备知识点:JS加密逆向_第14张图片

总结

这个网站的加密不是很难,不过加密的方法很典型,前段时间有不少读者朋友在群里讨论研究,非常值得学习一下。

不过既然是小说网站,这里也涉及到相关的版权问题,所以希望大家不要搞事,以学习的态度和目的阅读本文。

你可能感兴趣的:(Python爬虫,Python)