showswoller

【PyTorch深度强化学习】TD3算法（双延迟-确定策略梯度算法）的讲解及实战（超详细附源码）

需要源码请点赞关注收藏后评论区留言~~~

一、双延迟-确定策略梯度算法

在DDPG算法基础上，TD3算法的主要目的在于解决AC框架中，由函数逼近引入的偏差和方差问题。一方面，由于方差会引起过高估计，为解决过高估计问题，TD3将截断式双Q学习（clipped Double Q-Learning）应用于AC框架；另一方面，高方差会引起误差累积，为解决误差累积问题，TD3分别采用延迟策略更新和添加噪声平滑目标策略两种技巧。

过高估计问题解决方案

从策略梯度方法已知，基于PG的强化学习存在过高估计问题，但由于DDPG评论家的目标值不是取最优动作值函数的，所以不存在最大化操作。此时，将Double DQN思想直接用于DDPG的评论家，构造如下目标函数：

y=r+γQ(s′,μ(s′,θ),w′)(bbb.11)(bbb.11)y=r+γQ(s′,μ(s′,θ),w′)

实际上，这样的处理效果并不好，这是因为在连续动作空间中，策略变化缓慢，行动者更新较为平缓，使得预测QQ值与目标QQ值相差不大，无法避免过高估计问题。

考虑将Double Q-Learning思想应用于DDPG，采用两个独立的评论家Qw1Qw1、Qw2Qw2和两个独立的行动者μθ1μθ1、μθ2μθ2，以50%的概率利用Q1Q1产生动作，然后更新Q2Q2估计值，而另外50%的概率正好相反。构建更新所需的两个目标值分别为：

{y1=r+γQ(s′,μ(s′,θ1),w′2)y2=r+γQ(s′,μ(s′,θ2),w′1)(bbb.12)(bbb.12){y1=r+γQ(s′,μ(s′,θ1),w2′)y2=r+γQ(s′,μ(s′,θ2),w1′)

但由于样本均来自于同一经验池，不能保证样本数据完全独立，所以两个行动者的样本具有一定相关性，在一定的情况下，甚至会加剧高估问题。针对此种情形，秉持“宁可低估，也不要高估”的想法，对Double Q-Learning进行修改，构建基于Clipped Double Q-learning方法的目标值：

y=r+γmini=1,2Q(s′,μ(s′,θ1),w′i)(bbb.13)(bbb.13)y=r+γmini=1,2Q(s′,μ(s′,θ1),wi′)

如式（bbb.13）所示，目标值只使用了一个行动者网络μθ1μθ1，取两个评论家网络Qw1Qw1和Qw2Qw2的最小值来作为值函数估计值。
在更新评论家网络Qw1Qw1和Qw2Qw2时，均采用式（bbb.13）目标值y，共用如下损失函数：

L(wi)=s,a,r,s′∼[y−Q(s,a,wi)]2(bbb.14)(bbb.14)L(wi)=Es,a,r,s′∼D[y−Q(s,a,wi)]2

该算法相比于原算法的区别仅在于多了一个和原评论家Qw1Qw1同步更新的辅助评论家Qw2Qw2，在更新目标值y时取最小值。不过这一修改仍然会让人疑惑，Qw1Qw1和Qw2Qw2只有初始参数不同，后面的更新都一样，这样形成的两个类似的评论家能否有效消除TD误差带来的偏置估计。

累积误差问题解决方案

在函数逼近问题中，TD(0)算法的过高估计问题会进一步加剧，每次更新都会产生一定量的TD误差δ(s,a)δ(s,a)：

Q(s,a,w)=r+γ[Q(s′,a′,w)]−δ(s,a)(bbb.15)(bbb.15)Q(s,a,w)=r+γE[Q(s′,a′,w)]−δ(s,a)

经过多次迭代更新后，误差会被累积：

Q(St,At,w)=Rt+1+γ[Q(St+1,At+1,w)]−δt+1=Rt+1+γ[Rt+2+γ[Q(St+2,At+2,w)]−δt+2]−δt+1⋯⋯=Si∼ρβ,Ai∼μ[∑T−1γi−t(Ri+1−δi+1)](bbb.16)(bbb.16)Q(St,At,w)=Rt+1+γE[Q(St+1,At+1,w)]−δt+1=Rt+1+γE[Rt+2+γE[Q(St+2,At+2,w)]−δt+2]−δt+1⋯⋯=ESi∼ρβ,Ai∼μ[∑T−1γi−t(Ri+1−δi+1)]

由此可见，估计的方差与未来奖励、未来TD误差的方差成正比。当折扣因子γγ较大时，每次更新都可以引起方差的快速提升，所以通常TD3设置较小的折扣系数γγ。

延迟的策略更新

TD3目标网络的更新方式与DDPG相同，都采用软更新，尽管软更新比硬更新更有利于算法的稳定性，但AC算法依然会失败，其原因通常在于行动者和评论家的更新是相互作用的结果：评论家提供的值函数估计值不准确，就会使行动者将策略往错误方向改进；行动者产生了较差的策略，就会进一步加剧评论家误差累积问题，两者不断作用产生恶性循环。
为解决以上问题，TD3考虑对策略进行延时更新，减少行动者的更新频率，尽可能等待评论家训练收敛后再进行更新操作。延时更新操作可以有效减少累积误差，从而降低方差；同时，也能减少不必要的重复更新操作，一定程度上提升效率。在实际应用时，TD3采取的操作是每隔评论家更新dd次后，再对行动者进行更新。

目标策略平滑操作

上节中通过延时更新策略来减小误差累积，接下来考虑误差本身。首先，误差的根源是值函数逼近所产生的偏差，在机器学习中，消除估计偏差的常用方法就是对参数更新进行正则化，同样的，这一思想也可以应用在强化学习中。
一个很自然的想法是，相似的动作应该拥有相似的价值，动作空间中目标动作周围的一小片区域的价值若能足够平滑，就可以有效减少误差的产生。TD3的具体做法是，为目标动作添加截断噪声：

ã ←μ(s′,θ′)+εε∼clip(N(0,σ),−c,c)(bbb.17)(bbb.17)a~←μ(s′,θ′)+εε∼clip⁡(N(0,σ),−c,c)

该噪声处理也是一种正则化方式。通过这种平滑操作，可以增加算法的泛化能力，缓解过拟合问题，减少价值被过高估计的一些不良状态对策略学习的干扰。

二、TD3算法流程

算法bbb.2 TD3算法（Lillicrap al. 2016）

初始化：
1. 初始化预测价值网络Qw1Qw1和Qw2Qw2，网络参数分别为w1w1和w2w2
2. 初始化目标价值网络Qw′1Qw1′和Qw′2Qw2′，网络参数分别为w′1w1′和w′2w2′
3. 初始化预测策略网络μθμθ和目标策略网络μθ′μθ′，网络参数分别为θθ和θ′θ′
4. 同步参数w′1←w1w1′←w1，w′2←w2w2′←w2，θ′←θθ′←θ
5. 经验池D的容量为NN
6. 总迭代次数MM，折扣因子γγ，τ=0.0001τ=0.0001，随机小批量采样样本数量nn

7. for ee=1 to MM do:
8. 初始化状态设置为S0S0
9. repeat（情节中的每一时间步t=0,1,2,…t=0,1,2,…）：
10. 根据当前的预测策略网络和探索噪声来选择动作根据当前的预测策略网络和探索噪声来选择动作At=μ(St,θ)+εtAt=μ(St,θ)+εt,
其中εt∼t(0,σ)εt∼Nt(0,σ)
11. 执行动作AtAt，获得奖赏Rt+1Rt+1和下一状态St+1St+1
12. 将经验转换(St,At,Rt+1,St+1)(St,At,Rt+1,St+1)存储在经验池D中
13. 从经验池D中随机采样小批量的nn个经验转移样本(Si,Ai,Ri+1,Si+1)(Si,Ai,Ri+1,Si+1)，计算：
（1）扰动后的动作ã i+1←μ(Si+1,θ′)+εia~i+1←μ(Si+1,θ′)+εi，其中εi∼clip(t(0,σ̃ ),−c,c)εi∼clip⁡(Nt(0,σ~),−c,c)
（2）更新目标yi=Ri+1+γmini=1,2Q(Si+1,ã i+1,w′i)yi=Ri+1+γmini=1,2Q(Si+1,a~i+1,wi′)
14. 使用MBGD，根据最小化损失函数来更新价值网络（评论家网络）参数ww：

∇wL(w)≈1N∑iN(yi−Q(Si,Ai,w))∇wQ(Si,Ai,w)∇wL(w)≈1N∑iN(yi−Q(Si,Ai,w))∇wQ(Si,Ai,w)

15. if tt mod dd then
16. 使用MBGA法，根据最大化目标函数来更新策略网络（行动者网络）参数θθ：

∇θĴ β(θ)≈1N∑i∇θμ(Si,θ)∇aQ(Si,a,w)|||||a=μ(Si,θ)∇θJ^β(θ)≈1N∑i∇θμ(Si,θ)∇aQ(Si,a,w)|a=μ(Si,θ)

17. 软更新目标网络：{w′←τw+(1−τ)w′θ′←τθ+(1−τ)θ′{w′←τw+(1−τ)w′θ′←τθ+(1−τ)θ′
18. until t=T−1

三、实验环境

实验环境：OpenAI Gym工具包中的MuIoCo环境，用了其中四个连续控制任务，包括Ant，HalfCheetah，Walker2d，Hopper

每次训练均运行1000000步，并每取5000步作为一个训练阶段，每个训练阶段结束，对所学策略进行测试评估与环境交互十个情节并取平均返回值
结果如下图

可以发现在Ant和Walker2d任务中TD3由于采用了Clipped Double Q-Learning机制较好的缓解了高估问题减少了由于高估问题导致的不良状态对于策略更新乃至后续训练的不良影响，动作值逼近相对更为准确，因而相对DDPG而言，不容易陷入局部最优，Agent与环境交互所获得的回报，相比较会大幅提升，总而言之，与DDPG相比，TD3算法训练各阶段波动性更小，算法整体更加稳定

四、代码

部分源码如下


import numpy as np
import torch
import gym
import os
import copy
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

class ReplayBuffer(object):
    def __init_
        self.ptr = 0
        self.size = 0

        self.state = np.zeros((max_size, state_dim))
        self.action = np.zeros((max_size, action_dim))
        self.next_state = np.zeros((max_size, state_dim))
        self.reward = np.zeros((max_size, 1))
        self.not_done = np.zeros((max_size, 1))

        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    def add(self, state, action, next_state, reward, done):
        self.state[self.ptr] = state
        self.action[self.ptr] = action
        self.next_state[self.ptr] = next_state
        self.reward[self.ptr] = reward
        self.not_done[self.ptr] = 1. - done

        self.ptr = (self.ptr + 1) % self.max_size
        self.size = min(self.size + 1, self.max_size)

    def sample(self, batch_size):
        ind = np.random.randint(0, self.size, size=batch_size)

        return (
            torch.FloatTensor(self.state[ind]).to(self.device),
            torch.FloatTensor(self.action[ind]).to(self.device),
            torch.FloatTensor(self.next_state[ind]).to(self.device),
            torch.FloatTensor(self.reward[ind]).to(self.device),
            torch.FloatTensor(self.not_done[ind]).to(self.device)
        )

class Actor(nn.Module):
        def __init__(self, state_dim, action_dim, max_action):
            super(Actor, self).__init__()

            self.l1 = nn.Linear(state_dim, 256)
            self.l2 = nn.Linear(256, 256)
            self.l3 = nn.Linear(256, action_dim)

            self.max_action = max_action

        def forward(self, state):
            a = F.relu(self.l1(state))
            a = F.relu(self.l2(a))
            return self.max_action * torch.tanh(self.l3(a))

class Critic(nn.Module):
        def __init__(self, state_dim, action_dim):
            super(Critic, self).__init__()

            # Q1 architecture
            self.l1 = nn.Linear(state_dim + action_dim, 256)
            self.l2 = nn.Linear(256, 256)
            self.l3 = nn.Linear(256, 1)

            # Q2 architecture
            self.l4 = nn.Linear(state_dim + action_dim, 256)
            self.l5 = nn.Linear(256, 256)
            self.l6 = nn.Linear(256, 1)

        def forward(self, state, action):
            sa = torch.cat([state, action], 1)

            q1 = F.relu(self.l1(sa))
            q1 = F.relu(self.l2(q1))
            q1 = self.l3(q1)

            q2 = F.relu(self.l4(sa))
            q2 = F.relu(self.l5(q2))
            q2 = self.l6(q2)
            return q1, q2

        def Q1(self, state, action):
            sa = torch.cat([state, action], 1)

            q1 = F.relu(self.l1(sa))
            q1 = F.relu(self.l2(q1))
            q1 = self.l3(q1)
            return q1

actor1=Actor(17,6,1.0)
for ch in actor1.children():
    print(ch)
print("*********************")
critic1=Critic(17,6)
for ch in critic1.children():
    print(ch)

class TD3(object):
    def __init__(
        self,
        state_dim,
        action_dim,
        max_action,
        discount=0.99,
        tau=0.005,
        policy_noise=0.2,
        noise_clip=0.5,
        policy_freq=2
    ):

        self.actor = Actor(state_dim, action_dim, max_action).to(device)
        self.actor_target = copy.deepcopy(self.actor)
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=3e-4)

        self.critic = Critic(state_dim, action_dim).to(device)
        self.critic_target = copy.deepcopy(self.critic)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=3e-4)

        self.max_action = max_action
        self.discount = discount
        self.tau = tau
        self.policy_noise = policy_noise
        self.noise_clip = noise_clip
        self.policy_freq = policy_freq

        self.total_it = 0


    def select_action(self, state):
        state = torch.FloatTensor(state.reshape(1, -1)).to(device)
        return self.actor(state).cpu().data.numpy().flatten()


    def train(self, replay_buffer, batch_size=100):
        self.total_it += 1

        # Sample replay buffer
        state, action, next_state, reward, not_done = replay_buffer.sample(batch_size)

        with torch.no_grad():
            # Select action according to policy and add clipped noise
            noise = (
                torch.randn_like(action) * self.policy_noise
            ).clamp(-self.noise_clip, self.noise_clip)

            next_action = (
                self.actor_target(next_state) + noise
            ).clamp(-self.max_action, self.max_action)

            # Compute the target Q value
            target_Q1, target_Q2 = self.critic_target(next_state, next_action)
            target_Q = torch.min(target_Q1, target_Q2)
            target_Q = reward + not_done * self.discount * target_Q

        # Get current Q estimates
        current_Q1, current_Q2 = self.critic(state, action)

        # Compute critic loss
        critic_loss = F.mse_loss(current_Q1, target_Q) + F.mse_loss(current_Q2, target_Q)

        # Optimize the critic
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()

        # Delayed policy updates
        if self.total_it % self.policy_freq == 0:

            # Compute actor losse
            actor_loss = -self.critic.Q1(state, self.actor(state)).mean()

            # Optimize the actor
            self.actor_optimizer.zero_grad()
            actor_loss.backward()
            self.actor_optimizer.step()

            # Update the frozen target models
            for param, target_param in zip(self.critic.parameters(), self.critic_target.parameters()):
                target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)

            for param, target_param in zip(self.actor.parameters(), self.actor_target.parameters()):
                target_param.data.copy_(self.tau * param.data + (1 - self.tau) * target_param.data)


    def save(self, filename):
        torch.save(self.critic.state_dict(), filename + "_critic")
        torch.save(self.critic_optimizer.state_dict(), filename + "_critic_optimizer")

        torch.save(self.actor.state_dict(), filename + "_actor")
        torch.save(self.actor_optimizer.state_dict(), filename + "_actor_optimizer")


    def load(self, filename):
        self.critic.load_state_dict(torch.load(filename + "_critic"))
        self.critic_optimizer.load_state_dict(torch.load(filename + "_critic_optimizer"))
        self.critic_target = copy.deepcopy(self.critic)

        self.actor.load_state_dict(torch.load(filename + "_actor"))
        self.actor_optimizer.load_state_dict(torch.load(filename + "_actor_optimizer"))
        self.actor_target = copy.deepcopy(self.actor)

# Runs policy for X episodes and returns average reward
# A fixed seed is used for the eval environment
def eval_policy(policy, env_name, seed, eval_episodes=10):
    eval_env = gym.make(env_name)
    eval_env.seed(seed + 100)

    avg_reward = 0.
    for _ in range(eval_episodes):
        state, done = eval_env.reset(), False
        while not done:
            action = policy.select_action(np.array(state))
            state, reward, done, _ = eval_env.step(action)
            avg_reward += reward

    avg_reward /= eval_episodes

    print("---------------------------------------")
    print(f"Evaluation over {eval_episodes} episodes: {avg_reward:.3f}")
    print("---------------------------------------")
    return avg_reward


policy = "TD3"
env_name = "Walker2d-v4"  # OpenAI gym environment name
seed = 0  # Sets Gym, PyTorch and Numpy seeds
start_timesteps = 25e3  # Time steps initial random policy is used
eval_freq = 5e3  # How often (time steps) we evaluate
max_timesteps = 1e6  # Max time steps to run environment
expl_noise = 0.1  # Std of Gaussian exploration noise
batch_size = 256  # Batch size for both actor and critic
discount = 0.99  # Discount factor
tau = 0.005  # Target network update rate
policy_noise = 0.2  # Noise added to target policy during critic update
noise_clip = 0.5  # Range to clip target policy noise
policy_freq = 2  # Frequency of delayed policy updates
save_model = "store_true"  # Save model and optimizer parameters
load_model = ""  # Model load file name, "" doesn't load, "default" uses file_name

file_name = f"{policy}_{env_name}_{seed}"
print("---------------------------------------")
print(f"Policy: {policy}, Env: {env_name}, Seed: {seed}")
print("---------------------------------------")

if not os.path.exists("./results"):
    os.makedirs("./results")

if save_model and not os.path.exists("./models"):
    os.makedirs("./models")

env = gym.make(env_name)

# Set seeds
env.seed(seed)
torch.manual_seed(seed)
np.random.seed(seed)

state_dim = env.observation_space.shape[0]
action_dim = env.action_space.shape[0]
max_action = float(env.action_space.high[0])

kwargs = {
    "state_dim": state_dim,
    "action_dim": action_dim,
    "max_action": max_action,
    "discount": discount,
    "tau": tau,
    "policy_noise": policy_noise * max_action,
    "noise_clip": noise_clip * max_action,
    "policy_freq": policy_freq
}

policy = TD3(**kwargs)

if load_model != "":
    policy_file = file_name if load_model == "default" else load_model
    policy.load(f"./models/{policy_file}")

replay_buffer = ReplayBuffer(state_dim, action_dim)

# Evaluate untrained policy
evaluations = [eval_policy(policy, env_name, seed)]

state, done = env.reset(), False
episode_reward = 0
episode_timesteps = 0
episode_num = 0

for t in range(int(max_timesteps)):

    episode_timesteps += 1

    # Select action randomly or according to policy
    if t < start_timesteps:
        action = env.action_space.sample()
    else:
        action = (
                policy.select_action(np.array(state))
                + np.random.normal(0, max_action * expl_noise, size=action_dim)
        ).clip(-max_action, max_action)
l = float(done) if episode_timesteps < env._max_episode_steps else 0

    # Store data in replay buffer
    replay_buffer.add(state, action, next_state, reward, done_bool)

    state = next_state
    episode_reward += reward

    # Train agent after collecting sufficient data
    if t >= start_timesteps:
        policy.train(replay_buffer, batch_size)

    if done:
end(eval_policy(policy, env_name, seed))
        np.save(f"./results/{file_name}", evaluations)

    if save_model:
        policy.save(f"./models/{file_name}")

state_dim

创作不易觉得有帮助请点赞关注收藏~~~

目标跟踪存在问题以及解决方案选与握 #目标跟踪目标跟踪人工智能计算机视觉
3D跟踪一、数据特性引发的跟踪挑战1.点云稀疏性与远距离特征缺失问题表现：激光雷达点云密度随距离平方衰减（如100米外车辆点云数不足近距离的1/10），导致远距离目标几何特征（如车轮、车顶轮廓）不完整，跟踪时易因特征匹配失败导致ID丢失。典型案例：在高速公路场景中，200米外的卡车因点云稀疏（仅约50个点），跟踪算法难以区分其与大型货车的形状差异，导致轨迹跳跃或ID切换。技术方案：稀疏点云增强与特
【Python从零到壹】Python中的标识符和保留字互联网老辛 #Python从零到壹 Python
保留字，也叫关键字，这些关键字是python直接提供给我们使用的，因此，我们在定义标识符的时候，不能用这些保留字。比如教育局就属于官方用的，你开个公司起名就不能叫教育局怎么查看关键字？importkeywordprint(keyword.kwlist)输出结果：E:\Python_demo\vippython\venv\Scripts\python.exeE:/Python_demo/vippyt
Go基础学习06-Golang标准库container/list（双向链表）深入讲解；延迟初始化技术；Element；List；Ring one2excellent golang golang 学习 list 链表后端延迟初始化
基础介绍单向链表中的每个节点包含数据和指向下一个节点的指针。其特点是每个节点只知道下一个节点的位置，使得数据只能单向遍历。示意图如下：双向链表中的每个节点都包含指向前一个节点和后一个节点的指针。这使得在双向链表中可以从前向后或从后向前遍历。示意图如下：结合上面的图就很容易明白单、双链表的定义。其中双向链表可以从前向后，也可以从后向前遍历，操作起来也更加方便。接下来我们看看官方给的例子：import
Golang学习日志 ━━ 单向链表暂时先用这个名字 Golang go golang
因为转载必须指明原文网址，而本文内容整合了网上多篇技术文章，无法明确其中一条，所以选择了原创。已在最后的参考目录里列出本文所有涉及的文章。定义单向链表（单链表）是链表的一种，是一种链式存取的数据结构，用一组地址任意的存储单元存放线性表中的数据元素。其特点是链表的链接方向是单向的，对链表的访问要通过顺序读取从头部开始；链表是由结点构成，head指针指向第一个成为表头结点，而终止于最后一个指向nuLL
Python中的变量与数据类型難釋懷 python windows 开发语言
一、前言在Python编程中，变量（Variable）和数据类型（DataType）是程序开发中最基本也是最核心的概念。变量用于存储程序运行过程中的各种值，而数据类型则决定了变量可以存储什么样的数据、支持哪些操作。Python作为一门动态类型语言，无需显式声明变量的数据类型，解释器会根据赋给变量的值自动推断其类型。这种特性使得Python更加简洁易用，但也要求开发者对常见数据类型有清晰的认识。本文
Unity引擎开发：VR控制器开发_（3）.Unity中的VR控制器交互设计
Unity中的VR控制器交互设计在前一节中，我们探讨了如何在Unity中设置和配置VR环境。现在，我们将深入探讨VR控制器的交互设计，这是实现沉浸式VR体验的关键部分。通过本节的学习，你将了解如何在Unity中设置和使用VR控制器，实现基本的交互功能，并优化用户体验。1.VR控制器的类型和功能在虚拟现实（VR）开发中，控制器是用户与虚拟环境进行交互的主要工具。常见的VR控制器有OculusTouc
Python中的count()方法溪流.ii python 数据库
文章目录Python中的count()方法基本语法在不同数据类型中的使用1.列表(List)中的count()2.元组(Tuple)中的count()3.字符串(String)中的count()高级用法1.指定搜索范围2.统计复杂元素注意事项Python中的count()方法前言：count()是Python中用于序列类型（如列表、元组、字符串等）的内置方法，用于统计某个元素在序列中出现的次数。基
Python中的标识符与保留字難釋懷 python java 数据库
一、前言在学习Python编程语言的过程中，标识符（Identifier）和保留字（Keywords）是两个非常基础但又极其重要的概念。它们是编写程序时必须遵守的语言规则之一。本文将带你深入了解：什么是标识符；标识符的命名规则与规范；Python中有哪些保留字；常见错误与注意事项；实际开发中的命名建议；掌握好这些内容，不仅能帮助你写出更规范、可读性更强的代码，还能避免因使用关键字作为变量名而导致的
Redis ZSet 数据结构深度解析：原理、实现与实战全揭密！程序猿Mr.wu Redis redis 数据结构缓存
一、前言：为什么要学习ZSet？在Redis的五大基础数据类型中，ZSet（SortedSet，有序集合）是一种非常强大而灵活的数据结构，广泛应用于排行榜、延时队列、权重排名等场景。如果说String是Redis的“最小原子”，那么ZSet就是Redis的“重量级选手”——不仅能存数据，还能排序查询，这正是它的魅力所在！二、ZSet是什么？和Set有啥区别？ZSet=Set+Score+排序！特性
学习一：Qt中Connect和多线程嘿·嘘 Qt qt 开发语言
目录1、信号与槽1.1举例：在同一个cpp文件中。1.2举例：在不同cpp文件中。1.3断开连接2、多线程2.1公共函数2.2信号与槽2.3静态函数2.4保护功能2.5静态保护成员3.6举例1、信号与槽在Qt中connect函数主要用来建立信号与槽函数。通过信号与槽函数机制可以实现不同线程之间的数据传输（不止这一种方式，这里就单描述信号与槽）。因为在Qt中，通常是主线程对窗口进行赋值，子线程不能直
AI原生应用领域反馈循环：助力应用持续进化 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native ai
AI原生应用领域反馈循环：助力应用持续进化关键词：AI原生应用、反馈循环、持续进化、数据驱动、用户体验摘要：本文围绕AI原生应用领域的反馈循环展开探讨。首先介绍了反馈循环在AI原生应用中的重要性，接着详细解释了反馈循环的核心概念及其相关要素。通过具体的算法原理和操作步骤展示了反馈循环如何在技术层面实现。以实际项目案例说明反馈循环在实际开发中的应用和效果。还探讨了反馈循环在不同场景下的应用，推荐了相
AI原生应用性能优化：混合推理的7个最佳实践 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 性能优化 ai
AI原生应用性能优化：混合推理的7个最佳实践关键词：AI原生应用、性能优化、混合推理、最佳实践、推理效率摘要：本文主要探讨了AI原生应用性能优化中混合推理的相关内容。首先介绍了文章的背景、目的、预期读者和文档结构等信息，接着对混合推理的核心概念进行了通俗易懂的解释，并阐述了各核心概念之间的关系，给出了核心概念原理和架构的文本示意图以及Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，用数
鸿蒙开发之埋点方案：高效追踪用户行为 niu某某移动开发鸿蒙开发 HarmonyOS harmonyos 鸿蒙开发移动开发组件化模块化 ArkUI
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）✒️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✒️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✒️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✒️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✒️记录一场鸿蒙开发岗位面试经历~✒️持续更新中……概述埋点是指将信息采集程序和原本的功能代码结合起来，针对特定用户行为收集、处理和发送一些
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
【C++】C++快速回顾入门、概念概要子非渔 C++入门 C++C++总结
C++语言跟其它语言类似，主要基本的本文不列举了。我在学习的过程中，遇到C++的不同之处，或者是重点的地方，都会将其记录下来。主要从关键字、常见函数、输入输出等角度去记录。输入输出：count>命名空间：namespaceusingnamespacestd;extern:多个文件中共享的全局变量。主要是将本文件中的变量释放至其他文件也可以使用的全局高度。用于不同文件的数据交互。成员运算符：.->.
c++STL库与快速排序浪子小院基础精讲 c++算法开发语言数据结构
什么是STL库STL=StandardTemplateLibrary，标准模板库，是一系列软件的统称。从根本上说，STL是一些“容器”的集合，这些“容器”有list,vector,set,map等，STL也是算法和其他一些组件的集合。前面已经学习过的中sort函数、中string类都是STL的内容。STL库还有很多内容，比如：向量（vector）、栈（stack）、队列（queue）、优先队列（p
干货！大模型时代一定要收藏的 20 个LLM 中文数据集 OpenBayes 资源上新人工智能语言模型数据库机器学习
自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母A-Z顺序排列），以供大家了解和使用。温馨提示：本文列举的所有数据集，
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能自动驾驶 unix ai
AI伦理与自动驾驶：当机器掌握方向盘时的道德抉择关键词：AI伦理、自动驾驶、道德算法、电车难题、责任归属、技术监管、人机协作摘要：本文深入探讨自动驾驶技术发展过程中面临的伦理挑战，从经典的"电车难题"出发，分析AI决策系统在生死抉择中的道德困境。我们将剖析自动驾驶的伦理框架设计原则，探讨技术实现方案，并通过代码示例展示伦理算法如何嵌入自动驾驶系统。文章还将讨论法律责任划分、社会接受度等现实问题，最
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
15.OCR训练 Echo`` Halcon系统化学习 ocr 人工智能深度学习算法计算机视觉机器学习
目录1.OCR训练2.助手训练13.助手训练24.算子训练5.OCR训练联合编程6.练习1.OCR训练*OCR训练*1.分类器文件*.omc*2.halcon官方的*1.局限性只能识别数字和字母*2.样式比较单一*3.样本数量较少*...**3.训练方法*1.助手训练*1.打开OCR助手*2.选择图片*3.选择训练区域*4.分割*5.字体*6.训练文件*7.新*8.学习*9.加入训练样本*10.保
Python爬虫技术实战：高效市场趋势分析与数据采集 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui 汽车
摘要本文将深入探讨如何利用最新的Python爬虫技术进行市场趋势分析，涵盖异步IO、无头浏览器、智能解析等前沿技术，并提供完整可运行的代码示例。文章将系统介绍从基础爬虫到高级反反爬策略的全套解决方案，帮助读者掌握市场数据采集的核心技能。1.市场趋势分析与爬虫技术概述市场趋势分析已成为现代商业决策的核心环节，而数据采集则是分析的基石。根据2024年最新统计，全球83%的企业已将网络爬虫技术纳入其数据
Nuitka打包python脚本 __如风__ python 开发语言
Python脚本打包Python是解释执行语言，需要解释器才能运行代码，这就导致在开发机上编写的代码在别的电脑上无法直接运行，除非目标机器上也安装了Python解释器，有时候还需要额外安装Python第三方包，相当麻烦。事实上Python并不适合干这种事，但有时候确实需要Python编写的程序打包给他人一键运行。思路通常都是分析脚本依赖（所有使用到的模块），然后收集相关资源，为了能在目标机器上正确
UC3842控制器在flyback反激电源设计与仿真中的应用 Jacob Piao
本文还有配套的精品资源，点击获取简介：UC3842作为电流模式控制的集成控制器，在设计反激式转换器中有着广泛应用。本文档提供了使用UC3842进行flyback反激电源电路设计的详细案例，并通过Multisim14进行仿真。包含了电路设计的源文件、仿真参数设置及UC3842芯片的详细资料，旨在为工程师提供从理论到实践的完整学习平台。1.UC3842控制器特点与应用1.1UC3842控制器简介UC3
燕山大学编译原理期末考试能运行就算成功经验分享
软件工程专业的首先，这一门课无法在三四天内速成（指零基础的）要是有考前才开始学到同学至少要提前一周开始学习（我觉得这都比较紧张，两周才算宽裕），b站上的速成课不全！不全！不全！不要想着完全看速成课，你要非这样我也没办法。考试范围如下：编译程序构成、编译程序与解释程序区别，词法分析、语法分折、语义分折及其任务，文法，语言，句型，句子，短语，推导，归约，句柄，文法、语言二义性，文法分类，有穷自动机、正
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
Microsoft VBA Excel VBA学习笔记——双重筛选+复制数值1.0 偷心伊普西隆 VBA学习和实践 microsoft excel
问题场景CountryProductCLASS1CLASS2CLASS3CLASS4CLASS5CLASS6…USApple0.3641416030.8918210610.0591451990.7320110290.0509636560.222464259…USBanana0.2300833330.4027262180.1548836670.2988904860.7802326210.028592
Python 运用 Matplotlib 绘制动画图的流程 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib 开发语言 ai
Python运用Matplotlib绘制动画图的流程关键词：Python、Matplotlib、动画图、绘制流程、动画原理摘要：本文详细介绍了使用Python的Matplotlib库绘制动画图的完整流程。从背景知识入手，阐述了Matplotlib动画绘制的目的和适用读者群体，接着深入剖析了核心概念，包括动画的基本原理和架构。通过核心算法原理的讲解和Python源代码示例，展示了如何实现动画绘制。同
Python Pandas 如何进行数据分组统计 Python编程之道 Python人工智能与大数据 Python编程之道 python pandas 网络 ai
PythonPandas如何进行数据分组统计关键词：PythonPandas、数据分组、groupby、聚合函数、数据透视表、数据统计、数据分析摘要：本文将深入探讨如何使用PythonPandas库进行高效的数据分组统计操作。我们将从基础概念入手，详细讲解groupby机制的原理和使用方法，介绍各种聚合函数的应用，探讨高级分组技巧，并通过实际案例展示如何解决复杂的数据分析问题。文章还将涵盖性能优化
Python可视化环境：Matplotlib_Seaborn+Conda配置 Python编程之道 Python人工智能与大数据 Python编程之道 python matplotlib conda ai
Python可视化环境：Matplotlib/Seaborn+Conda配置关键词：Python可视化、Matplotlib、Seaborn、Conda、环境配置摘要：本文主要探讨了如何利用Conda来配置Python可视化所需的Matplotlib和Seaborn环境。首先介绍了Python可视化的背景和重要性，明确目标读者为想要学习Python可视化的初学者和有一定基础的开发者。接着详细解析了
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

【PyTorch深度强化学习】TD3算法（双延迟-确定策略梯度算法）的讲解及实战（超详细 附源码）