目录
前言
分析(x0 整体思路分析)
分析(x1 好友数据的获取)
准备工作
使用到的模块
模块的安装
插件的安装
分析(x0)
分析(x2)
分析(x3)
代码
分析(x3 获取屏蔽的好友)
大家好,我叫善念,此篇文章为盲写,何为盲写呢.......就是我也没做任何准备,自己也没有做过这个实战,但是我心里肯定已经是有思路了的。
其实这样子的话对读者未必就一定是坏的,因为我没做过的话,那么在写文章的时候分析过程肯定是特别清晰的。而咱们学习的是案例吗?不是,记住你学习的一定是分析的方法。
想一下思路吧,当我们进入一些好友的空间的时候你会发现有些是可以直接进入的,而有些却是这样的:(翻了几十个好友可算找到个不让我访问的了......)
那么也就是说我只需要获取到所有的好友号码,然后get请求看返回的文本中是否有主人设置了权限,您可通过以下方式访问这些关键字就可以了。
可以看到这个get的请求有点长,后面一串咱们都看不懂是什么,那么我们删除它们看看能否正常访问:
结果显示是一样的,其实这个就是叫做参数冗余,比如咱们搜一个百度
可以看到除了咱们得关键字123外,还有很多其他的参数,那么如果我们删除这些参数呢?
结果显示一致,这就叫参数冗余(多余),那么剩下的就是看咱们如何获取到自己的所有好友啦!
关于好友的接口数据有很多阿.....群官网,空间官网都是可以获取的,由于我写过一篇Python采集群人员数据,记录JavaScript逆向分析过程 文章中写过如何获取群数据,其实这个接口同样可以获取到好友数据,所以的话我下面就用群官网的接口啦!
from selenium import webdriver
import json
import requests
import execjs
import jsonpath
主要利用到这五个模块,其中json为内置模块,其它均为第三方模块。安装方式如下所示:
pip install selenium
pip install requests
pip install PyExecjs
pip install jsonpath
关于selenium这个模块,咱们来重点介绍一下:
Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
如果不能够理解我就讲点白话,如果你是web开发人员,开发好了几百个网站,那么如果你认为的去一个个的测试BUG,是不是很浪费时间?而selenium这个框架就是用来模拟人去自动化操控浏览器的,那么是不是就节约了很多时间呢。
既然selenium能够操控浏览器,那么它们之间必须要有一个桥梁,总不能无中生有吧?
那么操控的浏览器款式不一样,中间的桥梁也是不一样的。比如我更喜欢用chrome浏览器,那么咱们需要下载一个selenium与Chrome的桥梁——Chromedriver插件
下载地址
下载与你当前谷歌浏览器版本最相近的Chromedriver
那么像我的话,下载 即可。
Windows系统需下载32位,其它的自己看着办。点进去下载win32即可。
那么如何让Python与selenium连接起来呢,这里咱们需要配置一个环境变量,就是把Python与selenium处于同一个目录:
到此为止,咱们的环境就搭建好了。
进入咱们的目标网站:目标网站
点击登录后点击群管理:
再点击成员管理,进入咱们的数据页面:
在这里大家就很好奇了,为什么我要获取好友数据,跑到群数据里来呢?
你会发现你抓到两个特别的包,一个是获取群数据列表,一个是获取好友列表,在这里我就不看群数据了,想看的自己去看我前面写过的文章即可。
可以看到返回的result中有四个分组,其实就是我好友的四个分组...里面的数据如何提取出来呢?那是不是咱们先需要把前面的bkn参数搞定呀!当然你可以把bkn写死,把cookies也写死,一样可以post得到数据,但是每次都要去抓包复制显得你很low。
走吧,开始去分析咱们的bkn是如何生成的:
上次有人问我,这个玩意该怎么搜...我这里告诉你们了,先点一下那三个点,然后点击search:
可以看到就一个JS文件中包含bkn,简直完美了,事情变得越来越简单。
请不要遇到JavaScript加密就闹心,静下心来好好看看
o.data.bkn
o字典里面的data里面的bkn就是个嵌套而已,也就是说明bkn属于o字典里面的一个键,然后它居然赋值给了一个函数function,注意看结尾用了一个()啥意思?
把把函数赋值给一个变量bkn,然后调用该函数。说明什么?bkn就为函数中return的值呀......是不是很简单?看不懂多看几遍。
函数里面的话就是个循环咯,当条件不满足时就一直加,知道条件满足为止。看不懂可以去学学基本的JavaScript语法,不学也问题不大,咱们直接抠JavaScript代码也行。
for (var e = $.cookie("skey"), t = 5381, n = 0, o = e.length; n < o; ++n)
t += (t << 5) + e.charAt(n).charCodeAt();
return 2147483647 & t
e为cookie中"skey"键所对应的值,o为e这个字符串的长度,n起始值为0.....居然都是已知数据,压根没有变量,那么咱们看看skey对应的值是啥:
好像问题是已经解决了吧,那么咱们来测试一下:
看下与咱们的post参数是否相同:
emmmmm,大功告成拉!
总结下思路:
1.利用selenium打开浏览器然后登录
2.获取cookies保存(后期用来解密bkn的)
3.解密JavaScript
4.发送post请求想要采集的好友数据
JS代码:
function GetBkn(e) {
for (t = 5381, n = 0, o = e.length; n < o; ++n) t += (t << 5) + e.charAt(n).charCodeAt();
return 2147483647 & t
}
Python代码:
在这里我就不贴出来了,可以看我以前的那篇文章,然后自己修改修改就可以了,让你们自己动手,加强你们的动手能力。
记得带上cookies哟,咱们前面selenium登陆获取好友数据的那个cookies与这个是通用的!然后看下返回值
以此进行是否被屏蔽的判断就可以了。