【网络爬虫教学】解剖Signature算法

前言

近日,由于项目需要,再次让我碰到了这个名为:Signature的数字签名算法,因之前曾有网友私聊我某站的sig(Signature的简称,亦可能为sign)怎么还原它的算法,所以我想打算就此写一篇文章并分享下它的加密过程以及调试思路,注:本文仅限于学术交流之用,并未特地针对某站或涉嫌任何非法操作的行为,请自行斟酌,如有疑问或者建议,欢迎加入我们的QQ技术交流群:544185435。

Digital Signature是什么?

Digital Signature 译为:数字签名,我们可以想象一下,在一个没有电脑、也没有手机的远古时代里,人们日常交互均采用书信的形式,它们往往在邮递/发送信件给好友之前,都会在署上自己的信息,兹以证明该信件是由自己送出的。

而由于当时的科技非常落后,可以说非常轻松就可以伪造出一封携带某人署名的信件,而接收者也无从分辨是否源于本人的信件,受害者往往会因此而上当受骗,在这个科技发达的时代里,新的签名方式诞生了,它撇开以往的书写习惯,而采用数字化运算来实现,现代化的数字签名是由基于RAS非对称协议加密技术 (公钥+私钥组成),公钥加密,私钥解密,理论上,只要私钥持有者不外泄私钥,别人是没法进行签名伪造的,也就是说当信件落到别人的手里,只要对方没有私钥,它就无法查看信件里的东西从而起到了安全的防护作用。

Signature的组成

在了解了数字签名后,是时候该来探讨下 Signature的算法了,那么我们常见的sig、sign、或直接就是signature算法与签名的数字签名有啥区别吗?

事实上, 它们都是一种数字签名,为防止数据被第三方篡改从而加入的一种网站自我保护措施,不过通常它们在加密前会对摘要进行一次或者多次的Hash运算后才进行RSA加密的,就目前遇到的sig类的加密算法来看,基本上都是由:(摘要(可以是某字段、data、密码或url的部分字段) + Cookie的某字段或userid之类的字段 + 时间戳 )然后对其进行Hash运算(md5或者是Aes均有),得到hash值后再对其进行数字签名运算(部分站点还对密文进行Base64加密)最终取得所谓的sign值。

关于Sign的误区

看到这里可能大家会有个疑问了,不是说数字签名只有私钥持有者才能解密吗,那么那些爬虫是如何得到数据的?

关于这个,我觉得很有必要给大家普及一下,首先,我们知道想要生成一份数字签名,你需要两个key(公钥与私钥),一个是网站端的,一个是分发给浏览器的,无论哪一方进行的加密,另一端只要有私钥,就能解读内容,而这个“浏览器”便是我们的契机,熟悉前端算法的大佬们,可以通过逆向目标站点的JS取得用于加密/解密的一串唯一的key,虽然这个key不是给我们的,但是谁能拦得住你去“偷”啊,偷人家的东西尚且属于违法的,但偷自己的呢?(啊哈哈…..这就有点尴尬了)所以那些爬虫能得到数据是因为它们拿到了私钥,懂了吧!

Sign加密算法入口定位

一般来说要找到签名算法的入口大部分也算较为简单的,先不说入口,我们单从特性来讲,它们基本都是由hash + rsa组成,所以我们找到入口后,基本上可以说已经完成80%的解密了,至于如何定位入口,可以使用快速定位法(关键字、xhr断点、hook)等形式,具体可以参考我往期的文章。前面已经说了,本篇文章不涉及针对任何网站采取任何破坏形式,所以这里就不给大家做演示,基本上遵循以上的法则基本可以取得加密算法,但有一种情况除外,那就是APP的,对于APP我建议大家先到网页端分析一下是否也有该字段,如果有,大可直接从网页端研究,否则,可能需要从app逆向开始啦,最后祝大家好运!


原文转至:IT猫之家,转载请注明出处!

你可能感兴趣的:(【网络爬虫教学】解剖Signature算法)