【网络爬虫教学】一招快速定位-MmEwMD加密入口

前言

相信有抓取过“栽(cai)花(pan)文书”、“智(zhi)障(lian)招聘”的虫师们，都应该见过MmEwMD这串神秘的参数，皆因有了它的存在，导致各位虫师都不能在好好的玩耍爬虫了，那么这串神秘的参数到底是什么呢？今天就让我们一起来好好地探讨下吧，在开始之前，欢迎大家加入我们的QQ技术交流群：544185435 ，我们将不定期更新爬虫类相关文案与视频教学哦！

关于MmEwMD

“MmEwMD” 这串神秘的参数，我最早看到是在17年年底，当时有个网友私聊我，问我能否逆向这个加密，于是，我便应它需求，先到网上科普了下相关的讯息，我发现，当时已经有好多网站已经采用了该加密算法，且已经有大A在相关网站发布过相关帖子，更有某些雇主曾为逆向该加密价格开到7K+，但最后有没有成功我不清楚。

在通过一段时间的分析和科普后，我发现这个加密算法是由端(rui)数公司提供的，该算法有以下特征：

页面的meta标签包含：9DhefwqGPrzGxEp9hPaoag 字段

document.cookie 包含： FSSBBIl1UgzbN7N 开头的字段

页面加密的JS全动态生成，每次刷新页面后，所有字段、值包括算法结构整体都会改变。

但凡使用了该加密，只要发送了xhr请求，都默认会自动携带 MmEwMD 参数，该功能通过hook open函数实现。

加密代码全经过高度混淆，基本所有字段或值都类似这样 _$xX，可读性为0

部分网站还启用了反调试功能，意味着你一旦打开debugger工具则自动断点，不断死循环直到CPU资源耗尽，但并非所有网站都开启了该功能。

如何对抗反调试

对于网站的反调试这一问题，相信一直困扰着不少的同胞吧？我也没有很好的办法（只怪自己学艺不精）目前我的做法是在网页加载前通过插件去替换debugger所在的函数，或者通过中间人代理篡改，但这对于动态释放的JS加密并没有任何效果，对于这种页面，我是直接在控制台重写函数，如果大家有更好的方式欢迎留言探讨！

如何快速找出加密入口？

这里我们将通过某站(为了规避不必要的麻烦，本站后续的文章都将不再提供站点名称及相关信息，敬请谅解！)作为演示，我们可从中看到该链接包含了 MmEwMD 字样，可以说，但凡发送了请求都会看到这串参数。

从上图我们可以看出，在chrome里全局搜索 MmEwMD 并不能找到任何相关的东西，是的，这串参数是纯动态生成，那么为了减少不必要的麻烦，我们接下来将直接通过钩子来捕获这个参数的加密入口。（钩子脚本将在文末附件提供）

通过钩子，我们便可非常轻松的就将其捕获，它目前在发送这条链接之前被强制断了下来，那么现在离它的加密入口就非常的接近了，我们再往下看看。

在经过对堆栈信息分析后，我们不难发现，它是在：arguments[1] = _$me(arguments[1]); 这句代码中生成的加密串，那是不是直接在 arguments[1] 这行下断点就能进入加密入口了呢？

很遗憾， arguments[1] 处并不能作为断点的落脚位，因为开头也说过了，这套加密的js都是全动态生成的，同时也是经过高度混淆的，那么如果以此作为断点的话，下一次刷新肯定就找不到了，所以我们再往下分析后最终定位到i.send(b, k)这个方法中，我们发现在刷新后断点也依旧生效，那么我们要做的就是按F11一步步的寻找入口了。

在按了几次F11后，我们回到了刚那个 arguments[1] 之中，这时，我们执行_$i2(arguments[1]) 便惊讶的发现，它的确生成了加密，由此可见它便是我们寻找的加密入口了。

最后让我们一睹加密的函数的样子吧，别怀疑，它的可读性真的只有0%，由于该加密算法许多网站曾使用，大家可以在百度或谷歌通过关键词： MmEwMD 、 9DhefwqGPrzGxEp9hPaoag 找到。

【网络爬虫教学】一招快速定位-MmEwMD加密入口

原文转至IT猫之家，转载请注明出处！

你可能感兴趣的:(【网络爬虫教学】一招快速定位-MmEwMD加密入口)