**
**
mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。
mitmproxy还有两个关联组件。一个是mitmdump,它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。另一个是mitmweb,它是一个Web程序,通过它我们可以清楚观察mitmproxy捕获的请求。
mitmproxy的功能:
1、拦截HTTP和HTTPS请求和响应
2、保存HTTP会话并进行分析
3、模拟客户端发起请求,模拟服务器端返回响应
4、利用反向代理将流量转发给指定的服务器
5、支持Mac和linux上的透明代理
6、利用Python对HTTP请求与响应进行实时处理
mitmproxy运行与自己的PC上,在PC的8080端口运行,然后开启一个代理服务,这个服务实际上是一个HTTP/HTTPS的代理。
手机和PC在一个局域网内,设置代理是mitmproxy的代理地址,这样手机在访问互联网的时候流量数据包就会流经mitmproxy,mitmproxy再去转发这些数据包到真实的服务器,服务器返回数据包时再由mitmproxy转发回手机,这样mitmproxy就相当于起了中间人的作用,抓取到所有request和response,另外这个过程还可以对接mitmproxy,抓取到的request和response的具体内容都可以直接用python来处理,比如:得到response之后我们可以直接进行解析,然后存入数据库,这样就完成了数据的解析和存储过程。
下载地址如下:
https://mitmproxy.org/downloads/#4.0.4/
在windows平台下安装:
输入上面的下载地址下载mitmproxy-4.0.4-windows-installer.exe,下载后直接双击安装包即可安装。
注意 :在 Windows 上不支持 mitmproxy 的控制台接口,但是可以使用 mitmdump和mitmweb。
证书配置
对于mitmproxy来说,如果想要截获HTTPS请求,就需要设置证书。mitmproxy在安装后会提供一套CA证书,只要客户端信任了mitmproxy提供的证书,就可以通过mitmproxy获取HTTPS请求的具体内容,否则mitmproxy是无法解析HTTPS请求的。
首先,运行mitmdump命令产生CA证书,并在用户目录下的.mitmproxy 目录里面找到CA证书,如下图所示。
在windows平台下
点击mitmproxy-ca.p12,就会出现导入证书的引导页,如下图所示:
然后直接点击下一步即可,如果不需要设置密码,继续点击下一步。
接下来需要选择证书的存储区域,如下图所示。
这里点击第二个选项“将所有的证书都放入下列存储”,然后点击“浏览”按钮,选择证书存储位置为 受信任的根证书颁发机构”,接着点击“确
定”按钮,然后点击“下一步”按钮。
最后,如果有安全警告弹出,直接点击“是”按钮即可。这样就完成了CA证书的配置了。
在Android平台下
在Android手机上,需要将mitmproxy-ca-cert.pem文件发送到手机上,接下来点击证书会出现一个提示窗口。
这时候输入证书名称,例如:mitmproxy,然后点击确定则完成了安装。
mitmdump是mitmproxy的命令行接口,同时还可以对接Python对请求进行处理,这是相对于fiddler和Charles这些工具更加方便的地方,有了它我们可以不用手动截获和分析HTTP请求和响应,只需要写好请求与响应的处理逻辑即可。它还可以实现数据的解析、存储等工作,这些过程都可以通过Python来实现。
1、我们可以使用命令启动mitmproxy,并把截获的数据保存到文件中
命令如下:
mitmdump -w outfile
其中outfile的名称任意,截获的数据都会被保存到此文件中。
还可以指定一个脚本来处理截获的数据,使用-s参数即可
mitmdump -s script.py
这里指定了当前处理脚本为script.py,它需要放置在当前命令执行的目录下。
我们可以在脚本里写入如下的代码:
def request(flow) :
flow.request.headers['User-Agent'] = 'MitmProxy'
print(flow.request.headers)
我们定义了 一个request ()方法,参数为 flow ,它其实是一个 HTTP Flow 对象,通过 request 属性即可获取到当前请求对象 。然后打印输出了请求的请求头,将请求头的 User-Agent 改成了MitmProxy。运行之后在手机端访问 http: //httpbin.org get 。
手机端返回结果的 Headers 实际上就是请求的 Headers, User-Agent 被修改成了 mitmproxy ,PC控制台输出了修改后Headers 内容,其 User-Agent 的内容正是 mitmproxy。所以,通过这上面三行代码我们就可以完成对请求的改写。
print()方法输出结果可以呈现在 PC 端控制台上,可以方便地进行调试。
2、日志的输出
mitmdump提供了专门的日志输出功能,可以设定不同级别以不同颜色输出结果,我们可以把脚本修改成以下内容:
from mitmproxy import ctx
def request(flow):
flow .request . headers['User-Agent'] ='mitmProxy'
ctx.log.info(str(flow.request.headers))
ctx.log.warn(str(flow.request.headers))
ctx.log.error(str(flow.request.headers))
在这里调用了ctx模块,它有一个log功能,调用不同的输出方法就可以输出不同颜色的结果,以方便我们做调试。例如:info()方法输出的内容是白色的,warn()方法输出的内容是黄色的,error()方法输出的内容是红色的。
不同的颜色对应不同级别的输出,我们可以将不同的结果合理划分级别输出,以更直观方便地查看调试信息。
3、request的使用
我们在上面也实现了request()方法并且对Headers进行了修改。下面我们介绍下request其他常用的一些功能,如下:
from mitmproxy import ctx
def request(flow):
request = flow.request
info = ctx.log.info
info(request.url)
info(str(request.headers))
info(str(request.cookies))
info(request.host)
info(request.method)
info(str(request.port))
info(request.scheme)
在手机上打开百度,就可以看到pc端控制台输出了一系列的请求,在这里我们找到第一个请求。控制台打印输出了request的一些常见的属性,如URL、headers、cookies、host、method、scheme即请求链接、请求头、请求cookies、请求host、请求方法、请求端口、请求协议这些内容。
同时我们还可以对任意属性进行修改,就像最初修改headers一样,直接赋值即可,例如把请求的URL修改了,如下:‘
def request(flow):
url ='https://httpbin.org/get'
flow.request.url = url
我们只需要用简单的脚本就可以成功把请求修改为其他的站点,通过这种方式修改和伪造请求就变得很容易。
通过这个例子我们也可以知道,有时候URL虽然是正确的,但是内容并非是正确的,我们需要进一步提高自己的安全防范意识。
所以我们能很容易地获取和修改request的任意内容,比如:可以用修改cookies、添加代理的方式来规避反爬。
4、响应的使用
对于爬虫来说,我们会更加关心响应的内容,因为response body才是爬取的结果。对于响应来说,mitmdump也提供了对应的处理接口,就是response()方法。
from mitmproxy import ctx
def response(flow):
response = flow.response
info = ctx.log.info
inf(str(response.status_code))
info(str(response.headers))
info(str(response.cookies))
info(str(response .text))
在这里打印输出了响应的状态码status_code、响应头headers、cookies、响应体text这几个属性,其中最重要的是text属性也就是网页的源代码。
通过response()方法获取每个请求的响应内容,然后再进行响应的信息提取和存储,我们就可以完成数据爬取啦!
**
**
说明:
Android证书分为“用户证书”和“系统证书”两种,在设置->安全->"查看安全证书"列表中,可以看到“系统”和“用户”两个列表。用户通过浏览器下载安装或者通过WLAN高级设置安装的证书均为用户证书。 安装为系统证书有什么好处呢?
(1)安装用户证书必须要设置开机密码,而且设置后就不能取消,除非先删掉所有的用户证书。如果安装为系统证书就不需要设置开机密码,自动化操作时更方便。
(2)Android 7以上版本APP默认不信任用户证书,只信任系统证书,安装为用户证书,对APP的HTTPS抓包会失败。安装为全局证书才能被所有APP信任,方可进行HTTPS抓包。
默认情况下,针对 Android 7.0+ (API level 24+) 的应用不再信任用户或管理员添加的CA证书来进行安全连接。(之前我们其实是将安全证书安装到安卓手机上作为用户信任安全证书,新版本如果APP开启了设置我们的代理请求会被认为是不安全的。)
Android的系统证书的存储位置是/system/etc/security/cacerts,证书文件必须是PEM格式,而且文件命名必须符合系统证书规范
1、准备
1、准备一台已经 root的手机
2、准备mitmproxy证书文件
Windows 或者Linux 在mitmdump第一次运行会在用户目录生成对应的文件。
目录位于:C:\Users\Administrator.mitmproxy
查看电脑是否成功连接到手机
adb devices -l #显示所有已连接的设备详细信息:127.0.0.1:62001
未连接则运行如下命令连接
adb connect 127.0.0.1:62001 #默认端口
2.安装命令,在.mitmproxy目录下运行cmd
#PEM或者DER格式均可
#如果是PEM格式:
In: openssl x509 -inform PEM -subject_hash_old -in mitmproxy-ca-cert.pem -noout
out: c8750f0d
# 如果是DER格式:
In: openssl x509 -inform PEM -subject_hash_old -in mitmproxy-ca-cert.cer -noout
out: c8750f0d
若报错:无法定位序数4540于动态链接库LIBEAY32.dll上
1、程序依赖于libeay32.dll动态链接库时:
创建脚本:
@echo 开始注册
copy libeay32.dll %windir%\system32\
regsvr32 %windir%\system32\libeay32.dll /s
@echo libeay32.dll注册成功
@pause
2、程序不依赖于libeay32.dll动态链接库时:(无法定位序数一般情况下是不依赖)
找到系统目录下的该库文件将其改个名,例如win32下:
在系统盘的windows的system32下把libeay32.dll改成libeay32_old.dll,就OK了。
3、如果程序依赖于该动态库,而且该库已经损坏,则需要重新下载
3.重命名+推送至手机
# window重命名 为符合android规范名称
ren mitmproxy-ca-cert.pem c8750f0d.0
# 或 linux重命名
cp mitmproxy-ca-cert.pem c8750f0d.0
#传入手机
adb push c8750f0d.0 /sdcard
4.安装mitm证书到手机adb shell操作:
#获取手机的root权限
adb shell
su
#挂载系统目录为可写
mount -o rw,remount /
mv /sdcard/c8750f0d.0 /system/etc/security/cacerts
#修改证书权限
chmod 644 /system/etc/security/cacerts/c8750f0d.0
如果顺利,至此已经完成安装!
注:在执行mv /sdcard/c8750f0d.0 /system/etc/security/cacerts时
有的会出现Unable to chmod /system/etc/security/cacerts/c8750f0d.0: No such file or directory,这个问题是system文件为只读,需要将其挂载为可读写
一般的解决方法是 mount -o rw,remount /system
修改system读写权限,然后再进行复制操作
如果修改了之后还是提示Read-only file system,
还有方法 adb root adb disable-verity adb reboot #手机会重启,不用关闭cmd窗口,手机可能需要拔掉数据写重新连接
adb root adb shell mount -o rw,remount /system #再次进行修改 然后就可以进行复制操作了。
(我是遇到了这种情况,这个方法可行) 复制完之后输入reboot重启