1
目 标 场 景
在移动互联网时代,很大一部分企业抛弃了传统的网站, 选择将数据、服务整合到 App 端,因此 App 端无论是爬虫还是反反爬都显得尤为重要。
常见的 App 端的爬虫方式是利用 Appium 和 Airtest 驱动手机打开应用,操作页面,然后通过元素 ID 获取元素的内容,又或者借助 mitmproxy 捕获到请求的数据,最后将数据保存下来。
如果要完成复杂的操作,加快爬虫的效率, 就必 须破解 App 端的 登录, 获取一些关键的数据,直接模拟接口请求,达到快速高效地爬取数据的目的。
Python资源共享群:484031800
本篇文章的目的是带大家 「 破解 App 端的登录 」这一操作。
ps: 本文仅限技术交流,请勿用于其他用途。
2
准 备 工 作
在开始编写脚本之前,需要做好如下准备工作
3
编 写 脚 本
第 1 步,确保手机配置好代理之后,就可以利用 Charles 对 「 获取 验证码 」 和 「 登录 」 进行抓包操作,得到请求地址、请求参数和请求头等数据。
第 2 步,对请求参数、请求头中 「 没有规律的数据 」 寻找生成的规律,并用 Python 代码来生成这些数据。
首先,我们查看获取验证码这一请求的参数,发现除了手机号码外,参数 t 可以很容易想到是请求的时间戳,唯独参数 token 在没有其他网络请求的情况下生成了。
def get_unix_time(type_13): """ 获取时间戳 :param type_13:10位、13位,是否是13位 :return: """ t = time.time() if type_13: millis = int(round(t * 1000)) else: millis = int(t) return millis
所以,我们大胆猜测: 这个 token 是 App 端通过一定的逻辑生成的; 同理,请求头中 token 也是由 App 端生成 。
在我们多次发起获取验证码的操作之后,我们得出一个规律:参数中的 token 保持不变,与请求时间没有关系;请求头的 token 会随着时间的变化的也会发生变化。
我们利用 Android Crack Tool 对 APK 应用进行反编译,得到源码 Jar 包。
然后就可以使用 jadx-gui 工具打开源码 Jar 包,通过请求地址中的 「 关键词:login 」搜索源码, 就能找到请求发送的位置。
由于应用源码打包的时候混淆了代码,因此,我们需要根据上面的搜索结果去定位参数初始化位置及实现逻辑。
逐步往上追溯应用源码,可以找到按钮点击事件的监听函数。
具体实现逻辑是把用户输入的手机函数传给混淆后的函数 :b()
点击查看函数 b() 的实现逻辑,会发现方法中对手机号码进行了截取,获取当前日期时间,进行字符串的 「 第一次拼接 」操作 。
对第一部分的拼接我们用 Python 代码进行实现。
def __get_param_token(self, phone_num): """ 获取参数Token :return: BNpK8SMDiV6jTU4DR99A9vYoN9e90yBd """ today = datetime.date.today() formatted_today = today.strftime('%Y%m%d') formatted_day = today.strftime('%m%d') # 参数1 手机号码|完整日期6位 arg1 = phone_num + "|" + formatted_today # 手机号码后4位+日期包含月、日 # 参数2 64230704 # 字符串转为bytes arg2 = bytes(phone_num[7:] + formatted_day, encoding="utf8")
第一次拼接完成之后,我们发现又调用了一个 函数 a(),参数为上面拼接生成的两个变量。
函数 a() 的内部使用 「 DES + Base64 」 加密算法来进行第二步的处理。
加密的操作用 Python 可以很轻松的实现。
def encode(arg1, arg2): """ 加密 :param arg1:11位手机号码|完整日期 string :param arg2:手机后4位+日期4位 bytes :return: """ des = DES.new(arg2, mode=DES.MODE_CBC, iv=bytearray([1, 2, 3, 4, 5, 6, 7, 8])) msg = des.encrypt(pad(arg1.encode(), DES.block_size)) # 加密后的结果,bytes encode_result = base64.b64encode(msg) # 转为string return str(encode_result, encoding='utf-8')
需要注意的是,b()函数的最后一行,对第二步生成的字符串进行了特殊字符的替换操作,生成 Token 之前需要对数据进行同样的处理。
通过以上三步操作,就可以生成网络请求中的参数 Token。
同样的方式,针对请求中的 Token,我们通过查询 token 关键字查询源码。
通过观察,我们发现类 e 中的 b()函数的功能就是往请求中添加请求头,继续查看函数 b() 的实现类,发现这个类也全部被混淆了。
如果你细心一点,一定会发现当前实现类的包名是 Okhttp3,我们可以从 Github 下载 Okhttp3 的源码,然后进行对比,就能很清晰的知道里面的实现逻辑了。
ps: okhttp 是 Android 使用很多一个网络请求库。
通过对比没有混淆过的代码,可以很容易的编写出生成请求头中 Token 的逻辑。
def __get_head_token(self, method, url, data): """ 获取请求头Token 分为Get和Post请求方式 :param method: 请求方式 :param url: 请求URL :param data: Post请求中的参数 :return: """ today = datetime.date.today() formatted_today = today.strftime('%Y%m%d') if method == Method.GET: # 请求的URL的query部分 query_content = url.split('?')[1] else: query_content = urlencode(data) print('query_content:' + query_content) # 根据反编译后的源码增加对应的逻辑 token_pro = query_content + "|" + formatted_today + '|zxw' # MD5计算 token = md5(token_pro) return token
至此,这一步就完成两个 Token 的生成。
第 3 步就可以利用 Python 「 模拟发起一个请求 」, 来获取手机验证码了。
def get_code(self, timestamp): """ 获取验证码 :return: """ # 1.1 获取参数Token,与日期有关 self.param_token = self.__get_param_token(self.phone) print("parm_token:" + self.param_token) # 1.2 获取请求头Token,与时间有关 url = self.code_url.format(self.phone, timestamp, self.param_token) # 获取请求头中的Token self.head_token = self.__get_head_token(Method.GET, url, None) print('head_token【获取验证码】:' + self.head_token) # 2.获取手机验证码的URL get_code_url = self.code_url.format(self.phone, timestamp, self.param_token) # 3.修改Head中的token HEADERS['token'] = self.head_token print(get_code_url) # 4.发起【获取验证码】的请求 resp = requests.get(get_code_url, headers=HEADERS) print('==' * 60) print(resp.text)
同理,后面的登录请求也是先通过抓包,使用上面生成的 Token 逻辑去修改请求头中 Token,然后模拟请求,就可以正常登录了。
def login(self, code, timestamp): """ 登录 :return: """ # 修改参数 self.login_params['loginCode'] = code self.login_params['t'] = timestamp # 请求token # url = self.code_url.format(self.phone, timestamp, self.param_token) self.head_token = self.__get_head_token(Method.POST, None, self.login_params) print('head_token【登录】:' + self.head_token) HEADERS['token'] = self.head_token # 登录 resp = requests.post(self.login_url, data=self.login_params, headers=HEADERS) print(resp.text)
4
结 果 结 论
通过模拟获取验证码的请求,等待手机收到验证码之后,输入验证码,然后再模拟登录的请求,就可以获取登录成功后的令牌。
由于验证码是由服务器产生的,这里没法获取生成逻辑,但是针对安卓手机可以监听通知栏消息元素,拿到短信验证码进行自动填入,就不需要人工输入了。
拿到登录令牌之后,理论上 App 上页面的各类网络请求都可以利用 Python 去模拟,后面提供的源码包含了一个完整抢票的流程。