Spgroc

多智能体强化学习—QMIX

论文地址：https://arxiv.org/pdf/1803.11485.pdf

1 介绍

首先介绍一下VDN（value decomposition networks）顾名思义，VDN是一种价值分解的网络，采用对每个智能体的值函数进行整合，得到一个联合动作值函数。
为了简单阐述考虑两个智能体：（o-observations，a-actions，Q-action-value function）

当智能体观察他自己的目标时，但不一定是队友的目标，那么有：

当( $o^i,a^i$ )不足以完全建模 $\bar{Q}_{i}^{\pi}(\mathbf{s}, \mathbf{a})$ ,利用LSTM网络的历史观测获取额外信息（t时刻看到目标A，t+5时刻目标A被挡住了，利用t+5时刻的观测数据无法获得目标A的有效信息，只有利用历史观测数据从新定位目标A）
$Q^{\pi}(\mathbf{s}, \mathbf{a})=: \bar{Q}_{1}^{\pi}(\mathbf{s}, \mathbf{a})+\bar{Q}_{2}^{\pi}(\mathbf{s}, \mathbf{a}) \approx \tilde{Q}_{1}^{\pi}\left(h^{1}, a^{1}\right)+\tilde{Q}_{2}^{\pi}\left(h^{2}, a^{2}\right)$
值分解网络旨在学习一个联合动作值函数 $Q_{t o t}(\tau,u)$ ，其中 $\tau \in T \equiv \tau^{n}$ 是一个联合动作-观测的历史轨迹， $u$ 是一个联合动作。它是由每个智能体 $i$ 独立计算其值函数 $Q_{i}\left(\tau^{i}, u^{i} ; \theta^{i}\right)$ ，之后累加求和得到的。其关系如下所示：
$Q_{t o t}=\sum_{i=1}^{n} Q_{i}\left(\tau_{i}, a_{i} ; \theta_{i}\right)$
具体请看原论文：https://arxiv.org/pdf/1706.05296.pdf

QMIX，和VDN类似，也是一种基于价值的方法，可以以集中的端到端方式训练分散策略。QMIX采用了一个网络，将联合动作值估计为每个智能体值的复杂非线性组合（VDN是线性加和），且仅基于局部观测。并且在结构上施加约束，使联合动作值函数与每个智能体动作值函数之间是单调的，保证集中策略和分散策略之间的一致性。
IGM（Individual-Global-Max）：

$\underset{\mathbf{u}}{\operatorname{argmax}} Q_{t o t}(\tau, \mathbf{u})=\left(\begin{array}{cc} \operatorname{argmax}_{u^{1}} & Q_{1}\left(\tau^{1}, u^{1}\right) \\ \vdots \\ {\operatorname{argmax}}_{u^{n}} & Q_{n}\left(\tau^{n}, u^{n}\right) \end{array}\right)$

其中， $Q_{tot}$ 表示联合Q函数； $Q_i$ 表示智能体 i的动作值函数。
IGM表示 $argmax (Q_{tot})$ 与 $argmax (Q_i)$ 得到相同结果，这表示在无约束条件的情况下，个体最优就代表整体最优。为了保证这一条件，QMIX以单调条件进行限制:

2 QMIX 算法框架

框架主要分三两部分：

（a）混合网络结构（红色是超网络，为蓝色的混合网络层产生权重和偏差）
（b）整体的QMIX架构
（c）智能体网络结构

下面进行具体分析：

2.1 Agent network

输入： $t$ 时刻智能体 $a$ 的观测值 $o_t^a$ 、 $t - 1$ 时刻智能体 $a$ 的动作 $u_{t-1}^a$
输出： $t$ 时刻智能体 $a$ 的值函数 $Q_{a}\left(\tau^{a}, u_t^{a}\right)$

Agent network由DRQN网络实现，根据不同的任务需求，不同智能体的网络可以进行单独训练，也可进行参数共享，DRQN是将DQN中的全连接层替换为GRU网络，其循环层由一个具有64维隐藏状态的GRU组成，循环网络在观测质量变化的情况下，具有更强的适应性。如图所示，其网络一共包含 3 层，输入层（MLP多层神经网络)→ 中间层（GRU门控循环神经网络）→ 输出层（MLP多层神经网络）
实现代码如下：
智能体网络参数配置：

# --- Agent parameters ---
agent: "rnn" # Default rnn agent
rnn_hidden_dim: 64 # Size of hidden state for default rnn agent
obs_agent_id: True # Include the agent's one_hot id in the observation
obs_last_action: True # Include the agent's last action (one_hot) in the observation

RNN网络：

class RNNAgent(nn.Module):
    def __init__(self, input_shape, args):
        super(RNNAgent, self).__init__()
        self.args = args
        #根据参数配置，智能体网络的输入
        #input_shape = obs_shape + n_actions + one_hot_code（one_hot_code_o+one_hot_code_u）
        self.fc1 = nn.Linear(input_shape, args.rnn_hidden_dim)  # 线性层
        self.rnn = nn.GRUCell(args.rnn_hidden_dim, args.rnn_hidden_dim)  # GRU层，需要输入隐藏状态
        self.fc2 = nn.Linear(args.rnn_hidden_dim, args.n_actions)  # 线性层

    def init_hidden(self):
        # make hidden states on same device as model
        return self.fc1.weight.new(1, self.args.rnn_hidden_dim).zero_()

    def forward(self, inputs, hidden_state):
        x = F.relu(self.fc1(inputs))  # 输入经过线性层后relu激活，输出x
        h_in = hidden_state.reshape(-1, self.args.rnn_hidden_dim)  # 对隐藏状态进行变形，列数为隐藏层维度大小
        h = self.rnn(x, h_in)  # 循环神经网络，输入x，与隐藏状态(上一时刻信息)
        q = self.fc2(h)  # 输出Q值
        return q, h

2.2 Mixing network

输入： $t$ 时刻智能体 $a$ 的值函数 $Q_{a}\left(\tau^{a}, u_t^{a}\right)$ 、 $t$ 时刻全局状态 $s$
输出： $t$ 时刻联合动作价值函数 $Q_{tot}\left(\tau, u\right)$

Mixing network是一个前馈神经网络，它以智能体网络的输出作为输入，单调地混合，产生 $Q_{tot}$ 的值，如图所示。为了保证的单调性约束，混合网络的权值 $w e i g h t s$ 被限制为非负值（偏差bias可以为负数）。这使得混合网络可以逼近任何单调函数。
混合网络的权值是由单独的超网络产生的。每个超网络以全局状态 $s$ 作为输入，生成一层混合网络的权值。每个超网络由一个单一的线性层组成，然后是一个绝对值激活函数，确保混合网络的权值是非负的。偏差也以同样的方式产生，但偏差的生成网络没有绝对值激活函数。最终的偏差是由一个具有ReLU非线性的2层超网络产生。
实现代码如下：

mixer: "qmix"
mixing_embed_dim: 32
hypernet_layers: 2
hypernet_embed: 64

class QMixer(nn.Module):
    def __init__(self, args):
        super(QMixer, self).__init__()

        self.args = args
        self.n_agents = args.n_agents  # 智能体个数
        self.state_dim = int(np.prod(args.state_shape))  # 状态维度

        self.embed_dim = args.mixing_embed_dim  # 网络内部嵌入维度

        if getattr(args, "hypernet_layers", 1) == 1:  # 超网络的层数是否为1
            # 不包含隐层，只有一个线性层
            self.hyper_w_1 = nn.Linear(self.state_dim, self.embed_dim * self.n_agents)
            self.hyper_w_final = nn.Linear(self.state_dim, self.embed_dim)
        elif getattr(args, "hypernet_layers", 1) == 2:  # 超网络的层数是否为2
            hypernet_embed = self.args.hypernet_embed  # 超网络的嵌入层数
            # 因为生成的hyper_w1需要是一个矩阵，而pytorch神经网络只能输出一个向量，
            # 所以就先输出长度为需要的 矩阵行*矩阵列 的向量，然后再转化成矩阵

            # hyper_w1 网络用于输出推理网络中的第一层神经元所需的 weights
            self.hyper_w_1 = nn.Sequential(nn.Linear(self.state_dim, hypernet_embed),
                                           nn.ReLU(),
                                           nn.Linear(hypernet_embed, self.embed_dim * self.n_agents))
            # hyper_w_final 生成推理网络需要的从隐层到输出 Q 值的所有 weights，共 embed_dim 个
            self.hyper_w_final = nn.Sequential(nn.Linear(self.state_dim, hypernet_embed),
                                               nn.ReLU(),
                                               nn.Linear(hypernet_embed, self.embed_dim))

        elif getattr(args, "hypernet_layers", 1) > 2:  # 超网络层数进行判断
            raise Exception("Sorry >2 hypernet layers is not implemented!")
        else:
            raise Exception("Error setting number of hypernet layers.")

        #  hyper_b1 生成第一层网络对应维度的偏差 bias
        self.hyper_b_1 = nn.Linear(self.state_dim, self.embed_dim)

        #  V 生成对应从隐层到输出 Q 值层的 bias
        self.V = nn.Sequential(nn.Linear(self.state_dim, self.embed_dim),
                               nn.ReLU(),
                               nn.Linear(self.embed_dim, 1))

    def forward(self, agent_qs, states):
        # 输入状态单个智能体的q值，全局状态s
        # states的shape为(episode_num, max_episode_len， state_shape)
        bs = agent_qs.size(0)  # 传入的agent_qs是三维的，shape为(episode_num, max_episode_len， n_agents)
        states = states.reshape(-1, self.state_dim)  # (episode_num * max_episode_len, state_shape)
        agent_qs = agent_qs.view(-1, 1, self.n_agents)  # (episode_num * max_episode_len, 1, n_agents)
        # First layer
        w1 = th.abs(self.hyper_w_1(states))  # 获得参数w1，加绝对值，保证单调
        b1 = self.hyper_b_1(states)  # 获得偏差b1
        w1 = w1.view(-1, self.n_agents, self.embed_dim)  # 变换(episode_num, n_agents, embed_dim)
        b1 = b1.view(-1, 1, self.embed_dim)  # 变换(episode_num, 1, embed_dim)
        hidden = F.elu(th.bmm(agent_qs, w1) + b1)  # th.bmm矩阵乘法,输出到隐藏
        # Second layer
        w_final = th.abs(self.hyper_w_final(states))  # 获得参数w2，加绝对值，保证单调
        w_final = w_final.view(-1, self.embed_dim, 1)  # 变换(episode_num, embed_dim, 1)
        # State-dependent bias
        v = self.V(states).view(-1, 1, 1)  # 获得偏差b2(episode_num, 1, 1)
        # Compute final output
        y = th.bmm(hidden, w_final) + v  # th.bmm矩阵乘法,得到最终数值
        # Reshape and return
        q_tot = y.view(bs, -1, 1)  # 变换(episode_num,1,1)
        return q_tot  # 得到Q_tot

2.3 算法更新流程

损失函数： $\mathcal{L}(\theta)=\sum_{i=1}^{b}\left[\left(y_{i}^{t o t}-Q_{t o t}(\tau, \mathbf{u}, s ; \theta)\right)^{2}\right]$
其中 $b$ 表示从经验池中采样的样本数量， $y^{t o t}=r+\gamma \max _{\mathbf{u}^{\prime}} Q_{t o t}\left(\tau^{\prime}, \mathbf{u}^{\prime}, s^{\prime} ; \theta^{-}\right)$ ， $\theta^{-}$ 是目标网络的参数，
所以时序差分的误差可表示为：
$\begin{aligned} {TDerror}=(r+\gamma Q _{ tot }(\text { target })) -Q _{ tot }(\text { evalutate }) \end{aligned}$
$_{ tot }(\text { target })$ ：状态 $s^{'}$ 的情况下，所有行为中，获取的最大价值 $Q_{tot}$ 。根据IGM条件，输入为此状态下每个智能体的最大动作价值。
$_{ tot }(\text { evalutate })$ ：状态 $s$ 的情况下，根据当前网络策略所能获得 $Q_{tot}$ 。
实现代码如下：
参数配置：

# use epsilon greedy action selector
action_selector: "epsilon_greedy"
epsilon_start: 1.0
epsilon_finish: 0.05
epsilon_anneal_time: 50000

runner: "episode"

buffer_size: 5000

# update the target network every {} episodes
target_update_interval: 200

动作选择：（ε-greedy）

class EpsilonGreedyActionSelector():

    def __init__(self, args):
        self.args = args

        self.schedule = DecayThenFlatSchedule(args.epsilon_start, args.epsilon_finish, args.epsilon_anneal_time,
                                              decay="linear")
        self.epsilon = self.schedule.eval(0)

    def select_action(self, agent_inputs, avail_actions, t_env, test_mode=False):
        # Assuming agent_inputs is a batch of Q-Values for each agent bav
        self.epsilon = self.schedule.eval(t_env)  # 获取epsilon

        if test_mode:
            # Greedy action selection only
            self.epsilon = 0.0

        # mask actions that are excluded from selection
        masked_q_values = agent_inputs.clone()  # q值 q_value
        masked_q_values[avail_actions == 0.0] = -float("inf")  # should never be selected! 不能选择的动作赋值为 负无穷

        random_numbers = th.rand_like(agent_inputs[:, :, 0])  # 生成相同维度的随机矩阵
        pick_random = (random_numbers < self.epsilon).long()  # 如果小于epsilon
        random_actions = Categorical(avail_actions.float()).sample().long()  # 把可选的动作进行类别分布
        # pick_random==1 说明 random_numbers < self.epsilon 进行随机探索
        # pick_random==0 说明 random_numbers > self.epsilon 选择动作价值最大的函数

        picked_actions = pick_random * random_actions + (1 - pick_random) * masked_q_values.max(dim=2)[1]  # 进行动作选择
        return picked_actions  # 选择的动作

计算单个智能体估计的Q值

# Calculate estimated Q-Values 得到每个agent对应的Q值
mac_out = []
self.mac.init_hidden(batch.batch_size)
for t in range(batch.max_seq_length):
    agent_outs = self.mac.forward(batch, t=t) #计算智能体的Q值，获得Q表
    mac_out.append(agent_outs) #添加到列表中
mac_out = th.stack(mac_out, dim=1)  # Concat over time 沿着维度1，连接张量 ([mac_out, 1])

# Pick the Q-Values for the actions taken by each agent
# 取每个agent动作对应的Q值，并且把最后不需要的一维去掉，因为最后一维只有一个值了
chosen_action_qvals = th.gather(mac_out[:, :-1], dim=3, index=actions).squeeze(3)  # Remove the last dim

x_mac_out = mac_out.clone().detach() #提取数据不带梯度
x_mac_out[avail_actions == 0] = -9999999 #不能执行的动作赋值为负无穷
max_action_qvals, max_action_index = x_mac_out[:, :-1].max(dim=3) #最大的动作值及其索引

max_action_index = max_action_index.detach().unsqueeze(3) #去掉梯度
is_max_action = (max_action_index == actions).int().float() #是最大动作

计算单个智能体目标Q值

# Calculate the Q-Values necessary for the target 计算目标Q值
target_mac_out = []
self.target_mac.init_hidden(batch.batch_size) #初始化隐层 RNNAgent
for t in range(batch.max_seq_length):
    target_agent_outs = self.target_mac.forward(batch, t=t) #计算Q值，获得Q表
    target_mac_out.append(target_agent_outs)#添加到列表中

# We don't need the first timesteps Q-Value estimate for calculating targets
target_mac_out = th.stack(target_mac_out[1:], dim=1)  # Concat across time

# Max over target Q-Values 找到最大的动作价值
if self.args.double_q: #是否使用double q
    # Get actions that maximise live Q (for double q-learning)
    mac_out_detach = mac_out.clone().detach() #去掉梯度
    mac_out_detach[avail_actions == 0] = -9999999 #不能执行的动作赋值为负无穷
    cur_max_actions = mac_out_detach[:, 1:].max(dim=3, keepdim=True)[1] #找到最大价值的动作
    # 利用最优动作求取最大动作价值，并且把最后不需要的一维去掉
    target_max_qvals = th.gather(target_mac_out, 3, cur_max_actions).squeeze(3)
else:
    target_max_qvals = target_mac_out.max(dim=3)[0] #找到最大价值函数

根据损失函数，进行反向传播

# Mix 混合网络，求total值
# qmix更新过程，evaluate网络输入的是每个agent选出来的行为的q值，target网络输入的是每个agent最大的q值，和DQN更新方式一样
if self.mixer is not None:
    chosen_action_qvals = self.mixer(chosen_action_qvals, batch["state"][:, :-1])  # 计算Q _{ tot }(evalutate)
    target_max_qvals = self.target_mixer(target_max_qvals, batch["state"][:, 1:])  # 计算Q _{ tot }(target )

# Calculate 1-step Q-Learning targets 以Q-Learning的方法计算目标值r+gamma*Q _{ tot }({ target }
targets = rewards + self.args.gamma * (1 - terminated) * target_max_qvals

# Td-error
td_error = (chosen_action_qvals - targets.detach())

mask = mask.expand_as(td_error)  # 将mask扩展为td_error相同的size

# 0-out the targets that came from padded data
masked_td_error = td_error * mask  # 抹掉填充的经验的td_error

# Normal L2 loss, take mean over actual data
# L2的损失函数，不能直接用mean，因为还有许多经验是没用的，所以要求和再比真实的经验数，才是真正的均值
loss = (masked_td_error ** 2).sum() / mask.sum()

# Optimise
# 优化
self.optimiser.zero_grad()  # 梯度清零
loss.backward()  # 反向传播
grad_norm = th.nn.utils.clip_grad_norm_(self.params, self.args.grad_norm_clip)  # 梯度剪裁
self.optimiser.step()  # 执行
# 在指定周期更新 target network 的参数
if (episode_num - self.last_target_update_episode) / self.args.target_update_interval >= 1.0:
    self._update_targets()
    self.last_target_update_episode = episode_num

3 实验效果：

IQL、VDN和QMIX在StarCraft II六种不同的战斗地图上的获胜率。基于启发式的算法的性能用虚线表示。

参考：

博客：【QMIX】一种基于Value-Based多智能体算法
多智能体强化学习入门（五）——QMIX算法分析
多智能体强化学习入门Qmix
代码：https://github.com/wjh720/QPLEX

线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
Python虚拟环境管理：conda、venv、pipenv三国杀 network爬虫 python conda 数据库 jupyter
Python虚拟环境管理：conda、venv、pipenv三国杀作为一名在Python生态系统中学习实践了六年的开发者，我深刻体会到了Python虚拟环境管理工具的重要性和复杂性。从最初接触virtualenv时的懵懂，到现在熟练使用conda、venv、pipenv等工具，每一次的学习和实践都让我对Python环境管理有了更深的理解。今天，我想和大家分享一下这几年来对这三个主流工具的使用心得，
YOLOV10的tensorrt C++部署 dddccc1234 YOLO
根据博客进行python版本安装YOLOv10最全使用教程（含ONNX和TensorRT推理）-CSDN博客并将pt转为onnx：yoloexportmodel=yolov10s.ptformat=onnxopset=13simplify然后采用：https://github.com/hamdiboukamcha/yolov10-tensorrt.git进行c++编译配置好cuda11.7tens
华为OD机考2025B卷 - 特殊的加密算法（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述有一种特殊的加密算法，明文为一段数字串，经过密码本查找转换，生成另一段密文数字串。规则如下：明文为一段数字串由0~9组成密码本为数字0~9组成的二维数组需要按明文串的数字顺序在密码本里找到同样的数字串，密码本里的数字串是由相邻的单元格数字组成，上下和左右是相邻
华为OD机考2025B卷 - 查找接口成功率最优时间段（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述服务之间交换的接口成功率作为服务调用关键质量特性，某个时间段内的接口失败率使用一个数组表示，数组中每个元素都是单位时间内失败率数值，数组中的数值为0~100的整数，给定一个数值(minAverageLost)表示某个时间段内平均失败率容忍值，即平均失败率小于等
第3关：Numpy数组的切片与索引 -阿呆- #numpy初体验 python
相关知识一维Numpy数组的切片操作与Python列表的切片一样。下面首先来定义数字012直到8的数组，然后通过指定下标3到7来选择数组的部分元素，这实际上就是提取数组中值为3到6的元素。In:importnumpyasnpIn:a=np.arange(9)In:a[3:7]Out:array([3,4,5,6])同时用下标选择元素，下标范围从0到7，并且下标每次递增2，如下所示：In:a[:7:
华为OD机考2025B卷 - 停车费用统计（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述停车场统计当日总收费，包月的车不统计，不包月的车半个小时收一块钱，不满半小时不收钱，如果超过半小时，零头不满半小时按半小时算，每天11:30-13:30时间段不收钱，如果一辆车停车时间超过8小时后不收费(网友回忆，数值不一定为8，正式机考的时候注意一下)。输入
Python 音乐爬虫实战：从网页抓包到歌曲下载维他奶糖61 python 爬虫开发语言
在数字音乐的世界里，通过编程的方式获取自己喜欢的音乐，是一件既有趣又充满挑战的事情。今天，我们就用Python来打造一个简单的音乐爬虫，实现从网页抓包分析，到最终下载歌曲的全过程。一、代码概览流程先来看一下完整的Python代码：importos#抓包过滤媒体#id#EltfAyJRBlZeEF1aUCQFAFhfFF8NUnheUVhfF11XUyQaVldTR19NVndTVVlSQ1hfVw
智联招聘爬虫维他奶糖61 爬虫 python 开发语言数据挖掘
使用Python和Selenium进行招聘信息爬取在当今数字化时代，数据已成为企业决策的重要依据。对于人力资源部门或求职者而言，获取最新的招聘信息至关重要。然而，手动浏览和收集招聘信息不仅耗时费力，而且效率低下。为了解决这个问题，我们可以使用Python和Selenium库来自动化这一过程，实现从招聘网站上批量爬取招聘信息。准备工作在开始之前，你需要确保已经安装了以下库：Python（建议版本3.
Python 图片爬虫实战：从代码解析到应用技巧维他奶糖61 python 爬虫开发语言
在数字时代，图片资源丰富多样，通过爬虫技术批量获取心仪的图片成为不少人的需求。本文将以爬取彼岸桌面壁纸网4K美女壁纸为例，深入解析Python图片爬虫代码，分享实用技巧，带你轻松掌握图片爬虫技术。一、爬虫实现思路爬虫的核心是模拟浏览器访问网页，解析页面内容，提取所需信息。本次爬虫的流程如下：构建目标网页URL列表，循环访问各页面；发送HTTP请求获取页面内容，解析HTML文档；定位图片元素，提取图
《Python 实现 B 站视频信息爬虫：从批量获取到 CSV 保存》维他奶糖61 python 音视频爬虫
B站视频信息爬虫实战：用Python批量获取B站视频数据引言在数据分析和内容研究场景中，获取B站视频的标题、播放量、作者等信息是常见需求。本文将介绍如何使用Python编写一个B站视频爬虫，通过DrissionPage库实现自动化数据采集，并保存为CSV格式。相比传统Selenium，DrissionPage的API更简洁，适合快速开发爬虫脚本。技术栈与环境准备核心库：DrissionPage：基
用Pytorch训练手写签名模型并进行签名识别 TBM矩阵 #AI体系学习 pytorch 人工智能 python
整体思路收集至少两个人的手写签名图片，每个人至少20张使用Pytorch进行模型训练使用Flask搭建Web服务使用Html/JavaScript实现前端调用进行签名识别项目结构signature-systemdatatrainuser001001.png...user002001.png...templatesindex.htmlapp.pymodel.pytrain.py建模：model.py
Java 多线程并发编程面试笔录一览 weixin_34318272 面试 python java
2019独角兽企业重金招聘Python工程师标准>>>知识体系图：1、线程是什么？线程是进程中独立运行的子任务。2、创建线程的方式方式一：将类声明为Thread的子类。该子类应重写Thread类的run方法方式二：声明实现Runnable接口的类。该类然后实现run方法推荐方式二，因为接口方式比继承方式更灵活，也减少程序间的耦合。3、获取当前线程信息？Thread.currentThread()4
python为指定目录下的文件名批量加前缀 jghhh01 python java 前端
功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为“目录名_原文件名”。代码importargparseimportosimportsysimportloggingdefgen_args():"""说明-----解析命令行参数"""parser=argparse.ArgumentParser(prog="批量文件重命名工具",description="批量重命名目录中的文件名,新文件名
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

多智能体强化学习—QMIX