做爬虫的小伙伴们肯定都深有体会,爬虫要是遇到验证码了基本上就是GG了。于是爬虫工作者和验证码之间必有一战。随着web安全技术的提升,验证码也一代一代的革新,并且越发的变态。小曾也去研究了各式样的验证码,最后决定拿出58手势验证码和大家分享。
分析概述
首先我对58手势验证码做一个总体的描述。从触发验证码到验证成功,我们操作的背后需要向服务器发送6个请求,并且还有一次js算法对参数加密。6个请求之间有着依赖关系,操作图如下:
6个请求中有些请求还会存在时效性,也就是做时间过久之后该请求就会失效,请求返回的参数就需要重新获取。
验证码图片的url在请求4的返回值中,请求4的请求参数需要从请求2中获取。
js加密部分属于AES加密,需要的参数是滑动轨迹的数据和请求3获取token值。
请求6是验证的最后一步,需要2,4请求返回的参数以及js加密后的参数,如果轨迹数据和58服务器端数据一致则验证成功,会返回一个success_token值。
具体过程
请求1.
该请求是验证码的入口,相关参数用于标识你验证的是该处验证码而不是其他处。
url:
https://callback.58.com/firewall/verifycode?serialId=d22d6f319b5148ae8a199a4b574dd8b4_7daf4f969cac4852a2fbbfb2e275bbcd&code=22&sign=26dbf4d672a5d9691e63e40bb02910d0&namespace=ershoufanglistphp&url=https%3A%2F%2Fwh.58.com%2Fershoufang%2F&tdsourcetag=s_pcqq_aiomsg&qq-pf-to=pcqq.group
请求2.
url:
https://callback.58.com/firewall/codev2/getsession.do?1552704552771
请求方式:post
参数:1552704552771为时间戳
post内容:
serialId=d22d6f319b5148ae8a199a4b574dd8b4_7daf4f969cac4852a2fbbfb2e275bbcd
&code=22
&sign=26dbf4d672a5d9691e63e40bb02910d0
第二个请求返回值如下:
请求3.
获取加密时的所需的一个token参数
url:
https://cdata.58.com/fpToken?callback=dpjsonp_014459113626603415
返回值如下:
请求4.
url:
https://verifycode.58.com/captcha/getV3?callback=jQuery11010788698968164369_1552706578792&showType=win&sessionId=c511de755a684fcd96d8ce9af1c3b8d4&_=1552706578793
url中的sessionID便是第二链接返回值的sessionId值
该请求是为了返回获取 captcha图片的url和一个比较重要的参数responseId
返回值如下:
请求5.
获取captcha验证码的图片
https://verifycode.58.com/captcha/captcha_img?rid=fe8717a931e54d148bd01672c4e7ed1b&it=_big
该请求获取只能返回一次,多次返回无图片显示。
js加密部分
搜索关键字: AESEncryption
需要的参数是滑动轨迹的数据和请求3获取token值。
加密函数部分如图:
下图是鼠标轨迹数据:
下图是AES加密后的数据:
请求6.
最后一个链接,验证滑动验证码是否成功:
Url如下:
https://verifycode.58.com/captcha/checkV3?
callback=jQuery110102771457823954544_1552707202602&
responseId=df3b891c0a6848cb9ede1e904e752988
&sessionId=761d8548ab34405eb5e6f555a44710ee
&data=
&_=1552707202604
Url中存在5个参数分别如下:
callback: 返回数据名称;
responseId:第四个请求中的responseId
sessionId:第二个请求中的sessionId
Data:js加密生成的p值(js核心)
_:时间戳
验证成功便会获取success_token。
总结:
如果我们想要去破解58手势验证码,就需要模拟上述6个请求加一个JS加密的过程。模拟请求本就是爬虫选手们的工作,js加密的部分也是很容易就可以实现的。破解58手势验证码的难点是用编程语言及相关工具来获取图片中的轨迹数据。