pengjunlee

使用 mitmproxy + python 做拦截代理

mitmproxy 是什么

安装

运行

脚本

事件

1. 针对 HTTP 生命周期

2. 针对 TCP 生命周期

3. 针对 Websocket 生命周期

4. 针对网络连接生命周期

5. 通用生命周期

示例

最后

原文地址：https://blog.wolfogre.com/posts/usage-of-mitmproxy/

本文是一个较为完整的 mitmproxy 教程，侧重于介绍如何开发拦截脚本，帮助读者能够快速得到一个自定义的代理工具。

本文假设读者有基本的 python 知识，且已经安装好了一个 python 3 开发环境。如果你对 nodejs 的熟悉程度大于对 python，可移步到 anyproxy，anyproxy 的功能与 mitmproxy 基本一致，但使用 js 编写定制脚本。除此之外我就不知道有什么其他类似的工具了，如果你知道，欢迎评论告诉我。

本文基于 mitmproxy v4，当前版本号为 v4.0.1。

mitmproxy 是什么

顾名思义，mitmproxy 就是用于 MITM 的 proxy，MITM 即中间人攻击（Man-in-the-middle attack）。用于中间人攻击的代理首先会向正常的代理一样转发请求，保障服务端与客户端的通信，其次，会适时的查、记录其截获的数据，或篡改数据，引发服务端或客户端特定的行为。

不同于 fiddler 或 wireshark 等抓包工具，mitmproxy 不仅可以截获请求帮助开发者查看、分析，更可以通过自定义脚本进行二次开发。举例来说，利用 fiddler 可以过滤出浏览器对某个特定 url 的请求，并查看、分析其数据，但实现不了高度定制化的需求，类似于：“截获对浏览器对该 url 的请求，将返回内容置空，并将真实的返回内容存到某个数据库，出现异常时发出邮件通知”。而对于 mitmproxy，这样的需求可以通过载入自定义 python 脚本轻松实现。

但 mitmproxy 并不会真的对无辜的人发起中间人攻击，由于 mitmproxy 工作在 HTTP 层，而当前 HTTPS 的普及让客户端拥有了检测并规避中间人攻击的能力，所以要让 mitmproxy 能够正常工作，必须要让客户端（APP 或浏览器）主动信任 mitmproxy 的 SSL 证书，或忽略证书异常，这也就意味着 APP 或浏览器是属于开发者本人的——显而易见，这不是在做黑产，而是在做开发或测试。

那这样的工具有什么实际意义呢？据我所知目前比较广泛的应用是做仿真爬虫，即利用手机模拟器、无头浏览器来爬取 APP 或网站的数据，mitmproxy 作为代理可以拦截、存储爬虫获取到的数据，或修改数据调整爬虫的行为。

事实上，以上说的仅是 mitmproxy 以正向代理模式工作的情况，通过调整配置，mitmproxy 还可以作为透明代理、反向代理、上游代理、SOCKS 代理等，但这些工作模式针对 mitmproxy 来说似乎不大常用，故本文仅讨论正向代理模式。

安装

“安装 mitmproxy”这句话是有歧义的，既可以指“安装 mitmproxy 工具”，也可以指“安装 python 的 mitmproxy 包”，注意后者是包含前者的。

如果只是拿 mitmproxy 做一个替代 fiddler 的工具，没有什么定制化的需求，那完全只需要“安装 mitmproxy 工具”即可，去 mitmproxy 官网上下载一个 installer 便可开箱即用，不需要提前准备好 python 开发环境。但显然，这不是这里要讨论的，我们需要的是“安装 python 的 mitmproxy 包”。

安装 python 的 mitmproxy 包除了会得到 mitmproxy 工具外，还会得到开发定制脚本所需要的包依赖，其安装过程并不复杂。

首先需要安装好 python，版本需要不低于 3.6，且安装了附带的包管理工具 pip。不同操作系统安装 python 3 的方式不一，参考 python 的下载页，这里不做展开，假设你已经准备好这样的环境了。

安装开始。

在 linux 中：

sudo pip3 install mitmproxy

在 windows 中，以管理员身份运行 cmd 或 power shell：

pip3 install mitmproxy

安装结束后，系统将拥有 mitmproxy、mitmdump、mitmweb 三个命令，由于 mitmproxy 命令不支持在 windows 系统中运行（这没关系，不用担心），我们可以拿 mitmdump 测试一下安装是否成功，执行：

mitmdump --version

应当可以看到类似于这样的输出：

Mitmproxy: 4.0.1
Python:    3.6.5
OpenSSL:   OpenSSL 1.1.0h  27 Mar 2018
Platform:  Windows-10-10.0.16299-SP0

运行

要启动 mitmproxy 用 mitmproxy、mitmdump、mitmweb 这三个命令中的任意一个即可，这三个命令功能一致，且都可以加载自定义脚本，唯一的区别是交互界面的不同。

mitmproxy 命令启动后，会提供一个命令行界面，用户可以实时看到发生的请求，并通过命令过滤请求，查看请求数据。形如：

mitmweb 命令启动后，会提供一个 web 界面，用户可以实时看到发生的请求，并通过 GUI 交互来过滤请求，查看请求数据。形如：

mitmdump 命令启动后——你应该猜到了，没有界面，程序默默运行，所以 mitmdump 无法提供过滤请求、查看数据的功能，只能结合自定义脚本，默默工作。

由于 mitmproxy 命令的交互操作稍显繁杂且不支持 windows 系统，而我们主要的使用方式又是载入自定义脚本，并不需要交互，所以原则上说只需要 mitmdump 即可，但考虑到有交互界面可以更方便排查错误，所以这里以 mitmweb 命令为例。实际使用中可以根据情况选择任何一个命令。

启动 mitmproxy：

mitmweb

应当看到如下输出：

Web server listening at http://127.0.0.1:8081/
Proxy server listening at http://*:8080

mitmproxy 绑定了 *:8080 作为代理端口，并提供了一个 web 交互界面在 127.0.0.1:8081。

现在可以测试一下代理，让 Chrome 以 mitmproxy 为代理并忽略证书错误。为了不影响平时正常使用，我们不去改 Chrome 的配置，而是通过命令行带参数起一个 Chrome。如果你不使用 Chrome 而是其他浏览器，也可以搜一下对应的启动参数是什么，应该不会有什么坑。此外示例仅以 windows 系统为例，因为使用 linux 或 mac 开发的同学应该更熟悉命令行的使用才对，应当能自行推导出在各自环境中对应的操作。

由于 Chrome 要开始赴汤蹈火走代理了，为了方便继续在 web 界面上与 mitmproxy 交互，我们委屈求全使用 Edge 或其他浏览器打开 127.0.0.1:8081。插一句，我用 Edge 实在是因为机器上没其他浏览器了（IE 不算），Edge 有一个默认禁止访问回环地址的狗屁设定，详见解决方案。

接下来关闭所有 Chrome 窗口，否则命令行启动时的附加参数将失效。打开 cmd，执行：

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" --proxy-server=127.0.0.1:8080 --ignore-certificate-errors

前面那一长串是 Chrome 的的安装路径，应当根据系统实际情况修改，后面两参数设置了代理地址并强制忽略掉证书错误。用 Chrome 打开一个网站，可以看到：

同时在 Edge 上可以看到：

脚本

完成了上述工作，我们已经具备了操作 mitmproxy 的基本能力了。接下来开始开发自定义脚本，这才是 mitmproxy 真正强大的地方。

脚本的编写需要遵循 mitmproxy 规定的套路，这样的套路有两个，使用时选其中一个套路即可。

第一个套路是，编写一个 py 文件供 mitmproxy 加载，文件中定义了若干函数，这些函数实现了某些 mitmproxy 提供的事件，mitmproxy 会在某个事件发生时调用对应的函数，形如：

import mitmproxy.http
from mitmproxy import ctx

num = 0


def request(flow: mitmproxy.http.HTTPFlow):
    global num
    num = num + 1
    ctx.log.info("We've seen %d flows" % num)

第二个套路是，编写一个 py 文件供 mitmproxy 加载，文件定义了变量 addons，addons 是个数组，每个元素是一个类实例，这些类有若干方法，这些方法实现了某些 mitmproxy 提供的事件，mitmproxy 会在某个事件发生时调用对应的方法。这些类，称为一个个 addon，比如一个叫 Counter 的 addon：

import mitmproxy.http
from mitmproxy import ctx


class Counter:
    def __init__(self):
        self.num = 0

    def request(self, flow: mitmproxy.http.HTTPFlow):
        self.num = self.num + 1
        ctx.log.info("We've seen %d flows" % self.num)


addons = [
    Counter()
]

这里强烈建议使用第二种套路，直觉上就会感觉第二种套路更为先进，使用会更方便也更容易管理和拓展。况且这也是官方内置的一些 addon 的实现方式。

我们将上面第二种套路的示例代码存为 addons.py，再重新启动 mitmproxy：

mitmweb -s addons.py

当浏览器使用代理进行访问时，就应该能看到控制台里有类似这样的日志：

Web server listening at http://127.0.0.1:8081/
Loading script addons.py
Proxy server listening at http://*:8080
We've seen 1 flows
……
……
We've seen 2 flows
……
We've seen 3 flows
……
We've seen 4 flows
……
……
We've seen 5 flows
……

这就说明自定义脚本生效了。

事件

上述的脚本估计不用我解释相信大家也看明白了，就是当 request 发生时，计数器加一，并打印日志。这里对应的是 request 事件，那拢共有哪些事件呢？不多，也不少，这里详细介绍一下。

事件针对不同生命周期分为 5 类。“生命周期”这里指在哪一个层面看待事件，举例来说，同样是一次 web 请求，我可以理解为“HTTP 请求 -> HTTP 响应”的过程，也可以理解为“TCP 连接 -> TCP 通信 -> TCP 断开”的过程。那么，如果我想拒绝来个某个 IP 的客户端请求，应当注册函数到针对 TCP 生命周期的 tcp_start 事件，又或者，我想阻断对某个特定域名的请求时，则应当注册函数到针对 HTTP 声明周期的 http_connect 事件。其他情况同理。

下面一段估计会又臭又长，如果你没有耐心看完，那至少看掉针对 HTTP 生命周期的事件，然后跳到示例。

1. 针对 HTTP 生命周期

def http_connect(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 收到了来自客户端的 HTTP CONNECT 请求。在 flow 上设置非 2xx 响应将返回该响应并断开连接。CONNECT 不是常用的 HTTP 请求方法，目的是与服务器建立代理连接，仅是 client 与 proxy 的之间的交流，所以 CONNECT 请求不会触发 request、response 等其他常规的 HTTP 事件。

def requestheaders(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 来自客户端的 HTTP 请求的头部被成功读取。此时 flow 中的 request 的 body 是空的。

def request(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 来自客户端的 HTTP 请求被成功完整读取。

def responseheaders(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 来自服务端的 HTTP 响应的头部被成功读取。此时 flow 中的 response 的 body 是空的。

def response(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 来自服务端端的 HTTP 响应被成功完整读取。

def error(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 发生了一个 HTTP 错误。比如无效的服务端响应、连接断开等。注意与“有效的 HTTP 错误返回”不是一回事，后者是一个正确的服务端响应，只是 HTTP code 表示错误而已。

（好了，你可以跳到示例了。）

2. 针对 TCP 生命周期

def tcp_start(self, flow: mitmproxy.tcp.TCPFlow):

(Called when) 建立了一个 TCP 连接。

def tcp_message(self, flow: mitmproxy.tcp.TCPFlow):

(Called when) TCP 连接收到了一条消息，最近一条消息存于 flow.messages[-1]。消息是可修改的。

def tcp_error(self, flow: mitmproxy.tcp.TCPFlow):

(Called when) 发生了 TCP 错误。

def tcp_end(self, flow: mitmproxy.tcp.TCPFlow):

(Called when) TCP 连接关闭。

3. 针对 Websocket 生命周期

def websocket_handshake(self, flow: mitmproxy.http.HTTPFlow):

(Called when) 客户端试图建立一个 websocket 连接。可以通过控制 HTTP 头部中针对 websocket 的条目来改变握手行为。flow 的 request 属性保证是非空的的。

def websocket_start(self, flow: mitmproxy.websocket.WebSocketFlow):

(Called when) 建立了一个 websocket 连接。

def websocket_message(self, flow: mitmproxy.websocket.WebSocketFlow):

(Called when) 收到一条来自客户端或服务端的 websocket 消息。最近一条消息存于 flow.messages[-1]。消息是可修改的。目前有两种消息类型，对应 BINARY 类型的 frame 或 TEXT 类型的 frame。

def websocket_error(self, flow: mitmproxy.websocket.WebSocketFlow):

(Called when) 发生了 websocket 错误。

def websocket_end(self, flow: mitmproxy.websocket.WebSocketFlow):

(Called when) websocket 连接关闭。

4. 针对网络连接生命周期

def clientconnect(self, layer: mitmproxy.proxy.protocol.Layer):

(Called when) 客户端连接到了 mitmproxy。注意一条连接可能对应多个 HTTP 请求。

def clientdisconnect(self, layer: mitmproxy.proxy.protocol.Layer):

(Called when) 客户端断开了和 mitmproxy 的连接。

def serverconnect(self, conn: mitmproxy.connections.ServerConnection):

(Called when) mitmproxy 连接到了服务端。注意一条连接可能对应多个 HTTP 请求。

def serverdisconnect(self, conn: mitmproxy.connections.ServerConnection):

(Called when) mitmproxy 断开了和服务端的连接。

def next_layer(self, layer: mitmproxy.proxy.protocol.Layer):

(Called when) 网络 layer 发生切换。你可以通过返回一个新的 layer 对象来改变将被使用的 layer。详见 layer 的定义。

5. 通用生命周期

def configure(self, updated: typing.Set[str]):

(Called when) 配置发生变化。updated 参数是一个类似集合的对象，包含了所有变化了的选项。在 mitmproxy 启动时，该事件也会触发，且 updated 包含所有选项。

def done(self):

(Called when) addon 关闭或被移除，又或者 mitmproxy 本身关闭。由于会先等事件循环终止后再触发该事件，所以这是一个 addon 可以看见的最后一个事件。由于此时 log 也已经关闭，所以此时调用 log 函数没有任何输出。

def load(self, entry: mitmproxy.addonmanager.Loader):

(Called when) addon 第一次加载时。entry 参数是一个 Loader 对象，包含有添加选项、命令的方法。这里是 addon 配置它自己的地方。

def log(self, entry: mitmproxy.log.LogEntry):

(Called when) 通过 mitmproxy.ctx.log 产生了一条新日志。小心不要在这个事件内打日志，否则会造成死循环。

def running(self):

(Called when) mitmproxy 完全启动并开始运行。此时，mitmproxy 已经绑定了端口，所有的 addon 都被加载了。

def update(self, flows: typing.Sequence[mitmproxy.flow.Flow]):

(Called when) 一个或多个 flow 对象被修改了，通常是来自一个不同的 addon。

示例

估计看了那么多的事件你已经晕了，正常，鬼才会记得那么多事件。事实上考虑到 mitmproxy 的实际使用场景，大多数情况下我们只会用到针对 HTTP 生命周期的几个事件。再精简一点，甚至只需要用到 http_connect、request、response 三个事件就能完成大多数需求了。

这里以一个稍微有点黑色幽默的例子，覆盖这三个事件，展示如果利用 mitmproxy 工作。

需求是这样的：

因为百度搜索是不靠谱的，所有当客户端发起百度搜索时，记录下用户的搜索词，再修改请求，将搜索词改为“360 搜索”；
因为 360 搜索还是不靠谱的，所有当客户端访问 360 搜索时，将页面中所有“搜索”字样改为“请使用谷歌”。
因为谷歌是个不存在的网站，所有就不要浪费时间去尝试连接服务端了，所有当发现客户端试图访问谷歌时，直接断开连接。
将上述功能组装成名为 Joker 的 addon，并保留之前展示名为 Counter 的 addon，都加载进 mitmproxy。

第一个需求需要篡改客户端请求，所以实现一个 request 事件：

def request(self, flow: mitmproxy.http.HTTPFlow):
    # 忽略非百度搜索地址
    if flow.request.host != "www.baidu.com" or not flow.request.path.startswith("/s"):
        return

    # 确认请求参数中有搜索词
    if "wd" not in flow.request.query.keys():
        ctx.log.warn("can not get search word from %s" % flow.request.pretty_url)
        return

    # 输出原始的搜索词
    ctx.log.info("catch search word: %s" % flow.request.query.get("wd"))
    # 替换搜索词为“360搜索”
    flow.request.query.set_all("wd", ["360搜索"])

第二个需求需要篡改服务端响应，所以实现一个 response 事件：

def response(self, flow: mitmproxy.http.HTTPFlow):
    # 忽略非 360 搜索地址
    if flow.request.host != "www.so.com":
        return

    # 将响应中所有“搜索”替换为“请使用谷歌”
    text = flow.response.get_text()
    text = text.replace("搜索", "请使用谷歌")
    flow.response.set_text(text)

第三个需求需要拒绝客户端请求，所以实现一个 http_connect 事件：

def http_connect(self, flow: mitmproxy.http.HTTPFlow):
    # 确认客户端是想访问 www.google.com
    if flow.request.host == "www.google.com":
        # 返回一个非 2xx 响应断开连接
        flow.response = http.HTTPResponse.make(404)

为了实现第四个需求，我们需要将代码整理一下，即易于管理也易于查看。

创建一个 joker.py 文件，内容为：

import mitmproxy.http
from mitmproxy import ctx, http


class Joker:
    def request(self, flow: mitmproxy.http.HTTPFlow):
        if flow.request.host != "www.baidu.com" or not flow.request.path.startswith("/s"):
            return

        if "wd" not in flow.request.query.keys():
            ctx.log.warn("can not get search word from %s" % flow.request.pretty_url)
            return

        ctx.log.info("catch search word: %s" % flow.request.query.get("wd"))
        flow.request.query.set_all("wd", ["360搜索"])

    def response(self, flow: mitmproxy.http.HTTPFlow):
        if flow.request.host != "www.so.com":
            return

        text = flow.response.get_text()
        text = text.replace("搜索", "请使用谷歌")
        flow.response.set_text(text)

    def http_connect(self, flow: mitmproxy.http.HTTPFlow):
        if flow.request.host == "www.google.com":
            flow.response = http.HTTPResponse.make(404)

创建一个 counter.py 文件，内容为：

import mitmproxy.http
from mitmproxy import ctx


class Counter:
    def __init__(self):
        self.num = 0

    def request(self, flow: mitmproxy.http.HTTPFlow):
        self.num = self.num + 1
        ctx.log.info("We've seen %d flows" % self.num)

创建一个 addons.py 文件，内容为：

import counter
import joker

addons = [
    counter.Counter(),
    joker.Joker(),
]

将三个文件放在相同的文件夹，在该文件夹内启动命令行，运行：

mitmweb -s addons.py

老规矩，关闭所有 Chrome 窗口，从命令行中启动 Chrome 并指定代理且忽略证书错误。

测试一下运行效果：

最后

以上便是全部内容。Have fun and good luck！

参考：

mitmproxy 官方文档：https://docs.mitmproxy.org/stable/
mitmproxy 脚本示例：https://github.com/mitmproxy/mitmproxy/tree/master/examples
维基百科 - 代理服务器：https://zh.wikipedia.org/wiki/代理服务器

你可能感兴趣的:(mitmproxy,人生苦短,我用Python)

windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
【Python百日进阶-Web开发-Feffery】Day418 - fac实例：dash+fac登录-Sqlite数据库岳涛@泰山医院私用勿购 Dash Feffery 数据库 python 前端 dash
文章目录前言：fac是什么？“人生苦短，我用Python；Web开发，首选Feffery！”↓↓↓今日笔记↓↓↓一、dash+fac登录-Sqlite数据库1.1页面效果1.2项目源码1.2.1model.py1.2.2app.py前言：fac是什么？feffery-antd-components（简称fac），是国内大佬费弗里(Feffery)老师基于著名的ReactUI组件库antdesign
学会了编程才知道店员是“AI机器人” IT-博通哥 Python python 开发语言
根据老罗点咖啡的视频中（"给我来杯中杯"、"这是大杯，中杯是我们最小的杯型"的对话）我用Python代码模拟这个场景：classStarbucks:def__init__(self):self.cup_sizes={"中杯":"Tall","大杯":"Grande","超大杯":"Venti"}deforder_coffee(self,size):ifsize=="中杯":print("店员：这是
Android Gantt View 安卓实现项目甘特图 netkiller-BG7NYT Android 手札 android 甘特图
需要做一个项目管理工具，其中使用到了甘特图。发现全网甘特图解决方案比较少，于是自动动手丰衣足食。前面我用Python和Node.js前端都做过，这次仅仅是移植到Android上面。其实甘特图非常简单，开发也不难，如果我专职去做，能做出一个非常棒产品。我写这个只是消遣，玩玩，闲的蛋痛，所以不怎么上心，就搞成下面这德行吧。仅仅供大家学习，参考。那天心情好了，完善一下。屏幕布局文件
python生成小学数学练习题 newman0708 python
小学生的计算能力比较差，错误率高，防不胜防。好好一道应用题，到最后就计算错误引起前功尽弃，确实很可惜。我用python3写了一个程序，可以生成2位小数的方程和加减法练习题。能生成的效果如下：30以内，3个数字，加减法20-16=>411-9=>210+12=>22100以内，3个数字，加法4+47=>51114-8=>10677+15=>920-9乘法9*9=>813*9=>275*3=>153位
种地也能玩 AI？聊聊我用 Python 打造“智慧农场”的那些事 Echo_Wish Python 进阶人工智能 python 开发语言
种地也能玩AI？聊聊我用Python打造“智慧农场”的那些事一、AI下田，不只是噱头不知道你有没有这种感觉：一说到“智慧农业”，总觉得是科研机构或者高大上的农业园区才搞得起的玩意。传感器、无人机、5G网络、大数据平台、AI模型听起来就贵。但其实，现在Python+AI的技术方案，已经能帮很多普通农业场景实现“高性价比”的智能化管理了。我们不谈什么宏观政策、不讲农业4.0的概念，今天就来实打实地聊聊
python程序设计知识点汇总_一、Python概念知识点汇总 weixin_39834678 python程序设计知识点汇总
一、编译型语言和解释性语言的区别二、Python的设计目标1.一门简单直观的语言并与主要竞争者一样强大2.开源，以便使任何人都可以为它做贡献3.代码像纯英文那样容易理解4.适用于短期开发的日常任务三、Python的设计哲学优雅、准确、简单即用一种方法，最好是只有一种方法来做一件事。四、为什么选择Python？1.代码量少，一般情况下Python是java的1/5。2.人生苦短，我用Python。五
python：一个代理流量监控的媒体文件下载脚本 EelBarb python 运维 python 开发语言
前言一个mitmproxy代理服务应用，作用是监听系统流量，并自动下载可能的video媒体文件到本地。如果你没有安装mitmproxy或没有做完准备工作，请参考我的这篇文章：python：mitmproxy代理服务搭建-CSDN博客文件架构目录源码importosimporttimeimportthreadingimportrequestsfrommitmproxyimporthttpSAME_D
第二十七课：手搓梯度提升树顽强卖力数据分析 python 算法数据挖掘大数据
Python实现梯度提升树(GBDT)：让决策树"代代进化"的魔法梯度提升树就像一群小树苗在接力成长，每棵新树都专注于前辈们犯过的错误，最终长成一片预测能力强大的森林。下面我用Python展示这个强大的算法。准备工具包fromsklearn.ensembleimportGradientBoostingRegressor#回归问题用fromsklearn.ensembleimportGradient
Python爬虫教程：Linux基础入门工程师大胖 python linux Python教程 Python3 Python开发
人生苦短，我用PythonLinux基础CentOS官网：https://www.centos.org/。CentOS官方下载链接：https://www.centos.org/download/。Linux目前在企业中广泛的应用于服务器系统，无论是写好的代码，还是使用的第三方的开源的产品，绝大多数都是部署在Linux上面运行的。可能很多同学一提到Linux就怂了，黒糊糊的一篇，连个界面都没有，满
python 爬虫工具 mitmproxy，几问几答，记录一下 waterHBO python 爬虫开发语言
1.起因，目的:某次爬虫失败:几个加密参数，费劲而且不划算。决定再次研究爬虫工具mitmproxy2.过程:写个文章。目的是记录今天的探索过程。所以请力求精简，而且直达核心，要求语言清晰易懂。把核心问题，即与mitmproxy相关的，写在前面其他的，额外的知识点，可以写在后面，单独分开。问题：mitmproxy能做什么？回答：mitmproxy是一个强大的中间人代理工具，能够拦截、修改、记录和分析
不是工具坏了，而是你该换工具了：抓包抓不到的6种真相（含Sniffmaster多工具对比建议） 2501_91600747 http udp https websocket 网络安全网络协议 tcp/ip
我们团队曾无数次遇到这样的情况：抓不到App请求→立马怀疑Charles“又出bug了”；日志全空→怀疑Fiddler“更新后不稳定”；请求失败→以为mitmproxy“没有兼容证书”；但现实是：工具没问题，我们只是用错了工具。抓包这件事，说到底是“观察请求行为”，你看到的越多、越真实、越还原现场，越容易找到问题。但你需要知道，每个工具有它的边界和盲区。如果你不换工具，问题就藏在你“看不到”的地方
【Python百日进阶-Web开发-Feffery】Day453 - fac实例：dash+FastAPI实现前后端分离的pdf文件上传，配合PymuPDF进行处理岳涛@泰山医院 Dash python 前端 dash
文章目录前言：fac是什么？“人生苦短，我用Python；Web开发，首选Feffery！”↓↓↓今日笔记↓↓↓一、页面效果二、前端代码upload_frontend.py三、后端基本代码upload_backend.py三、后端配合PyMuPDF代码upload_backend.py前言：fac是什么？feffery-antd-components（简称fac），是国内大佬费弗里(Feffery
【Python百日进阶-Web开发-Feffery】Day341 - “一起Dash”训练营Lesson-01:dash开发环境的准备岳涛@泰山医院 Dash flask dash
文章目录前言：fac是什么？“人生苦短，我用Python；Web开发，首选Feffery！”↓↓↓今日笔记↓↓↓一、开发环境配置1.1miniconda下载与安装1.1.1miniconda下载1.1.2miniconda安装1.1.3取消powershell每次启动自动激活base1.2miniconda创建虚拟环境1.3安装dash和feffery-antd-components(fac)1.
Python爬虫爬取知网文献标题和摘要 Liu_P.L. python 爬虫开发语言
图一：python爬虫结果大家好，我是代码新人。如图所示，这是我用python爬取知网文献，得到了文献的标题和摘要。下面我将向大家展示我的python代码，请各位批评指教。我的代码可以：1.自动点开知网，并在知网首页搜索框以“人工智能”（或任意其他）为主题进行搜索；2.得到搜索结果后，python程序将得到搜索结果网页的页码数，并逐页爬取数据；3.根据每页搜索结果，逐一点开每条文献链接并爬取该条文
基于Scrapy的天猫商品数据爬取与分析实战（含API签名破解与可视化）灏瀚星空爬虫学习记录 scrapy 爬虫 python 学习
基于Scrapy的天猫商品数据爬取与分析实战（含API签名破解与可视化）本文以华为Mate60Pro为例，详细介绍如何使用Scrapy框架爬取天猫商品数据，涵盖API签名破解、反爬应对、数据存储及可视化全流程，适合爬虫进阶学习者实践。一、抓包分析：定位天猫商品API1.1目标与工具目标：获取华为Mate60Pro的价格、销量等数据工具：Chrome开发者工具（F12）、Mitmproxy（可选）1
python的mitmproxy模块实现简单WAF框架在学02 python 开发语言 web安全
frommitmproxyimporthttpfromurllib.parseimporturlparse,parse_qsimporttracebackclassMyRequest:def__init__(self,req:http.Request):self.raw_req=reqself.headers={}self.method=req.methodq=urlparse(req.url)#
Python下载18000多只基金，实现多条件查询 Jagua python 金融
场外基金超18000只，怎么选？选宽基还是主题基？选规模大的还是规模小的？选明星基金经理还是无所谓？如何查看基金的行业配置，风险参数？看中一只基金，有没有比它更好的基金？没有持仓相似的，走势相似的基金？定投，按周、双周、按月、逢跌加仓、一把梭，哪种好？如何方便查看多只基金的估值？问题太多了，怎么办？人生苦短，我用Python。第1步：下载全量基金，下载链接第2步：获取基金历史净值，调用天天基金接口
做 iOS 调试时，我尝试了 5 款抓包工具 00后程序员张 http udp https websocket 网络安全网络协议 tcp/ip
日常做开发的人，特别是和客户端接口打交道的同学，应该对“抓包”这件事不陌生。调试登录流程、分析接口格式、排查错误返回、分析网络性能、甚至研究第三方App的数据通信……说到底，都绕不开“抓HTTPS包”这一步。而这一步，正变得越来越难。抓包为什么越来越难？早几年，抓包是一件相对轻松的事。安装个Charles、Fiddler，或者开个mitmproxy，设好代理、装下证书就能抓个痛快。但现在，各种防护
这种小工具居然也能在某鱼卖钱？我用Python一天能写100个，纯干货！花小姐的春天 python Python基础教程 0基础学Python Python教程
前两天在某鱼闲逛，本来想找个二手机械键盘，结果刷着刷着突然看到有人在卖——Word批量转PDF小工具，还挺火，价格也不高，但销量出奇地高，评论里一堆人在夸“好用”、“终于不用一篇篇点了”啥的。说实话，当时我人都愣住了——这个功能我用Python十分钟能写完啊！然后我又搜了其它小工具，pdf转Word，Word转图片，Word加水印什么的……好多好家伙，花姐以前教大家做的办公自动化小工具原来都能卖钱
零基础自学python需要多久-零基础快速上手Python要多久？ weixin_37988176
人生苦短，我用Python。这句话完美的总结了Python这门编程语言的优点，即简洁优美，功能强大，新手友好。Python总能够轻松帮我们实现复杂的功能，因此不管是出于什么原因学习Python，都是十分值得的。毫不夸张的说，在未来掌握一门编程语言将是大势所趋，而Python则是零基础学习者最好的选择。那么零基础快速上手Python要多久呢？这个要结合情况具体分析，学习时间从一个月到半年不等。众所周
【Python爬虫教程】进阶篇-15 app爬取mimtproxy 「已注销」 python爬虫逆向教程 python 爬虫网络爬虫网络安全
前言mitmproxy是一个支持HTTP和HTTPS的抓包程序，有类似Fiddler、Charles的功能，只不过它是一个控制台的形式操作。mitmproxy还有两个关联组件。一个是mitmdump，它是mitmproxy的命令行接口，利用它我们可以对接Python脚本，用Python实现监听后的处理。另一个是mitmweb，它是一个Web程序，通过它我们可以清楚观察mitmproxy捕获的请求。
【Python百日进阶-Web开发-Feffery】Day401 -“一起Dash”训练营Lesson-09_利用多页面应用_课后作业岳涛@泰山医院 Dash 前端 dash javascript python
文章目录前言：fac是什么？“人生苦短，我用Python；Web开发，首选Feffery！”↓↓↓今日笔记↓↓↓一、课后作业1.1页面效果1.2项目源码前言：fac是什么？feffery-antd-components（简称fac），是国内大佬费弗里(Feffery)老师基于著名的ReactUI组件库antdesign进行二次开发，将antdesign中的诸多实用组件及特性引入Dash，帮助开发者
mitmproxy-hub让所有语言都可以使用上mitmproxy 西二旗搬砖仔 web开发爬虫 golang mitmproxy grpc java 中间人攻击软件测试
欢迎使用mitmproxy-hubmitmproxy非常适合捕捉网络流量，但是对于Java用户没有简单的接口。软件测试社区，特别是爬虫、中间人攻击测试人员，希望能够捕获设备在Java测试期间发出的网络请求。为此,基于grpc开发了mitmproxy的中央服务，任何语言都可以基于mitm_hub.proto实现的回调定义生成自己的远程客户端代码。以便在你的语言环境上也能像在python本地一样，使用
掌握测试利器：Mitmproxy 在测试开发中的应用与实践自动化测试薰儿技术分享软件测试软件测试面试软件测试面试面试数据库
在软件测试领域，网络请求的拦截与分析是一项必不可少的任务。无论是验证API调用、检查HTTP响应，还是模拟特定的网络环境，都需要一种高效且灵活的工具来协助完成。Mitmproxy正是这样一款强大的中间人代理工具，它能够帮助测试开发人员深入洞察应用程序的网络交互过程。一、Mitmproxy简介Mitmproxy是一款开源的HTTP/HTTPS代理服务器，支持多种编程语言（如Python、JavaSc
mitmproxy 一款强大的 HTTP(S) 拦截与调试工具 Hello.Reader 运维渗透测试其他 http 网络协议网络
一、什么是mitmproxy？mitmproxy是一个支持SSL/TLS的交互式代理工具集，能够拦截、查看、修改HTTP与HTTPS请求和响应流量。其核心功能包括：拦截并修改HTTP&HTTPS请求/响应保存完整的HTTP会话以便后续重放与分析重放客户端请求或服务端响应提供反向代理、透明代理等多种模式使用Python脚本动态处理流量自动生成SSL/TLS证书进行加密通信拦截二、三大核心工具介绍mi
关于python与c++效率的对比实战鸿雁拉着我飞 python 效率 C++排序
c语言是编译型语言，python是解释型语言，因此两者的效率有不小的差距，可没想到差距那么大。最近跟hackerrank上一道排序的题目杠上了(感兴趣的同学可以去看看，名为sortedsubsegment)，用的python，废了几天功夫都没解出来。终于还是看了答案(用的是二分查找的思想与线段树的数据结构)，答案是java写的。于是我用python实现出来，速度依然不行。于是又用c++写了一遍。结
【爬虫GUI工具】YouTube评论采集软件，突破油管反爬，可无限爬取！
本软件工具仅限于学术交流使用，严格遵循相关法律法规，符合平台内容合法合规性，禁止用于任何商业用途！一、背景介绍我是一名资深python工程师，最近我用python开发了一个GUI桌面软件，作用是爬取YouTube指定视频的评论。6个关键字段，含：✅评论id✅评论内容✅评论时间✅评论者昵称✅评论者频道✅点赞数1.1软件说明几点重要说明：1.运行之前，先打开魔法!2.Windows用户可直接双击打开使
一个超好用的Python库：itertools IT猫仔 python windows 网络
人生苦短，快学Python！很多人都致力于把Python代码写得更Pythonic，一来更符合规范且容易阅读，二来一般Pythonic的代码在执行上也更有效率。今天就先给大家介绍一个很Pythonic的Python系统库：itertools。itertools库迭代器（生成器）在Python中是一种很常用也很好用的数据结构，比起列表(list)来说，迭代器最大的优势就是延迟计算，按需使用，从而提高
聊聊微信小程序的流式（stream）响应请求一方_self 微信小程序开发微信小程序小程序
场景：类似ChatGPT的逐字显示效果。流程：服务端我用Python的flask框架（向外提供API接口）实现，服务部署在replit上，Python调用azure的chatgpt服务（需要申请），并以流式的形式返回，小程序再调用这个流式接口实现。我会提供最小能运行的完整代码示例。我本地的Python版本：3.10.11、Flask版本：2.3.2、openai版本：0.27.8。python部分
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite