云端FFF

RL 实践（4）—— 二维滚球环境【DQN & Double DQN & Dueling DQN】

本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题，这个环境可以看做 gym Maze2d 的简单版本
参考：《动手学强化学习》
完整代码下载：5_[Gym Custom] RollingBall (DQN and Double DQN and Dueling DQN)

文章目录

1. 二维滚球环境
- 1.1 环境介绍
- 1.2 代码实现
2. 使用 DQN 系列方法求解
- 2.1 DQN
- - 2.1.1 算法原理
  - 2.1.2 代码实现
  - 2.1.3 性能
- 2.2 Double DQN
- - 2.2.1 算法原理
  - 2.2.2 代码实现
  - 2.2.3 性能
- 2.3 Dueling DQN
- - 2.3.1 算法原理
  - 2.3.2 代码实现
  - 2.3.3 性能
3. 总结

1. 二维滚球环境

1.1 环境介绍

想象二维平面上的一个滚球，对它施加水平和竖直方向的两个力，滚球就会在加速度作用下运动起来，当球碰到平面边缘时会发生完全弹性碰撞，我们希望滚球在力的作用下尽快到达目标位置

此环境的状态空间为

维度	意义	取值范围
0	滚球 x 轴坐标	$[0,\space \text{width}]$
1	滚球 y 轴坐标	$[0,\space \text{height}]$
2	滚球 x 轴速度	$[-5.0,\space 5.0]$
3	滚球 y 轴速度	$[-5.0,\space 5.0]$

动作空间为

维度	意义	取值范围
0	施加在滚球 x 轴方向的力	$[-1.0,\space 1.0]$
1	施加在滚球 y 轴方向的力	$[-1.0,\space 1.0]$

奖励函数为

事件	奖励值
到达目标位置	$300.0$
发生反弹	$- 10.0$
移动一步	$- 2.0$

1.2 代码实现

通过 gym 的环境自定义方法实现以上二维滚球环境，具体的环境自定义方法可以参考：RL gym 环境（2）—— 自定义环境

值得一提的是，借助 chatgpt 可以大幅提高这类工具代码的编写效率，以下代码有 80% 都是 chatgpt 自动生成的

代码实现

import gym
from gym import spaces
import numpy as np
import pygame
import time

class RollingBall(gym.Env):
    metadata = {"render_modes": ["human", "rgb_array"],     # 支持的渲染模式，'rgb_array' 仅用于手动交互
                "render_fps": 500,}                         # 渲染帧率

    def __init__(self, render_mode="human", width=10, height=10, show_epi=False):
        self.max_speed = 5.0
        self.width = width
        self.height = height
        self.show_epi = show_epi
        self.action_space = spaces.Box(low=-1.0, high=1.0, shape=(2,), dtype=np.float64)
        self.observation_space = spaces.Box(low=np.array([0.0, 0.0, -self.max_speed, -self.max_speed]), 
                                            high=np.array([width, height, self.max_speed, self.max_speed]),
                                            dtype=np.float64)
        self.velocity = np.zeros(2, dtype=np.float64)
        self.mass = 0.005
        self.time_step = 0.01

        # 奖励参数
        self.rewards = {'step':-2.0, 'bounce':-10.0, 'goal':300.0}
        
        # 起止位置
        self.target_position = np.array([self.width*0.8, self.height*0.8], dtype=np.float32)
        self.start_position = np.array([width*0.2, height*0.2], dtype=np.float64)
        self.position = self.start_position.copy()

        # 渲染相关
        self.render_width = 300
        self.render_height = 300
        self.scale = self.render_width / self.width
        self.window = None

        # 用于存储滚球经过的轨迹
        self.trajectory = []

        # 渲染模式支持 'human' 或 'rgb_array'
        assert render_mode is None or render_mode in self.metadata["render_modes"]
        self.render_mode = render_mode

        # 渲染模式为 render_mode == 'human' 时用于渲染窗口的组件
        self.window = None
        self.clock = None

    def _get_obs(self):
        return np.hstack((self.position, self.velocity))

    def _get_info(self):
        return {}

    def step(self, action):
        # 计算加速度
        #force = action * self.mass
        acceleration = action / self.mass

        # 更新速度和位置
        self.velocity += acceleration * self.time_step
        self.velocity = np.clip(self.velocity, -self.max_speed, self.max_speed)
        self.position += self.velocity * self.time_step

        # 计算奖励
        reward = self.rewards['step']

        # 处理边界碰撞
        reward = self._handle_boundary_collision(reward)

        # 检查是否到达目标状态
        terminated, truncated = False, False
        if self._is_goal_reached():
            terminated = True
            reward += self.rewards['goal']  # 到达目标状态的奖励

        obs, info = self._get_obs(), self._get_info()
        self.trajectory.append(obs.copy())  # 记录滚球轨迹
        return obs, reward, terminated, truncated, info

    def reset(self, seed=None, options=None):
        # 通过 super 初始化并使用基类的 self.np_random 随机数生成器
        super().reset(seed=seed)

        # 重置滚球位置、速度、轨迹
        self.position = self.start_position.copy()
        self.velocity = np.zeros(2, dtype=np.float64)
        self.trajectory = []

        return self._get_obs(), self._get_info()

    def _handle_boundary_collision(self, reward):
        if self.position[0] <= 0:
            self.position[0] = 0
            self.velocity[0] *= -1
            reward += self.rewards['bounce']
        elif self.position[0] >= self.width:
            self.position[0] = self.width
            self.velocity[0] *= -1
            reward += self.rewards['bounce']

        if self.position[1] <= 0:
            self.position[1] = 0
            self.velocity[1] *= -1
            reward += self.rewards['bounce']
        elif self.position[1] >= self.height:
            self.position[1] = self.height
            self.velocity[1] *= -1
            reward += self.rewards['bounce']

        return reward

    def _is_goal_reached(self):
        # 检查是否到达目标状态（例如，滚球到达特定位置）
        # 这里只做了一个简单的判断，可根据需要进行修改
        distance = np.linalg.norm(self.position - self.target_position)
        return distance < 1.0  # 判断距离是否小于阈值

    def render(self):
        if self.render_mode not in ["rgb_array", "human"]:
            raise False
        self._render_frame()

    def _render_frame(self):
        canvas = pygame.Surface((self.render_width, self.render_height))
        canvas.fill((255, 255, 255))    # 背景白色

        if self.window is None and self.render_mode == "human":
            pygame.init()
            pygame.display.init()
            self.window = pygame.display.set_mode((self.render_width, self.render_height))
        if self.clock is None and self.render_mode == "human":
            self.clock = pygame.time.Clock()

        # 绘制目标位置
        target_position_render = self._convert_to_render_coordinate(self.target_position)
        pygame.draw.circle(canvas, (100, 100, 200), target_position_render, 20)

        # 绘制球的位置
        ball_position_render = self._convert_to_render_coordinate(self.position)
        pygame.draw.circle(canvas, (0, 0, 255), ball_position_render, 10)

        # 绘制滚球轨迹
        if self.show_epi:
            for i in range(len(self.trajectory)-1):
                position_from = self.trajectory[i]
                position_to = self.trajectory[i+1]
                position_from = self._convert_to_render_coordinate(position_from)
                position_to = self._convert_to_render_coordinate(position_to)
                color = int(230 * (i / len(self.trajectory)))  # 根据轨迹时间确定颜色深浅
                pygame.draw.lines(canvas, (color, color, color), False, [position_from, position_to], width=3)

        # 'human' 渲染模式下会弹出窗口
        if self.render_mode == "human":
            # The following line copies our drawings from `canvas` to the visible window
            self.window.blit(canvas, canvas.get_rect())
            pygame.event.pump()
            pygame.display.update()

            # We need to ensure that human-rendering occurs at the predefined framerate.
            # The following line will automatically add a delay to keep the framerate stable.
            self.clock.tick(self.metadata["render_fps"])

        # 'rgb_array' 渲染模式下画面会转换为像素 ndarray 形式返回，适用于用 CNN 进行状态观测的情况，为避免影响观测不要渲染价值颜色和策略
        else:
            return np.transpose(np.array(pygame.surfarray.pixels3d(canvas)), axes=(1, 0, 2))

    def close(self):
        if self.window is not None:
            pygame.quit()

    def _convert_to_render_coordinate(self, position):
        return int(position[0] * self.scale), int(self.render_height - position[1] * self.scale)

由于 DQN 类方法都只能用于离散动作空间，我们进一步编写动作包装类，将原生的二维连续动作离散化并拉平为一维离散动作空间

class DiscreteActionWrapper(gym.ActionWrapper):
    ''' 将 RollingBall 环境的二维连续动作空间离散化为二维离散动作空间 '''
    def __init__(self, env, bins):
        super().__init__(env)
        bin_width = 2.0 / bins
        self.action_space = spaces.MultiDiscrete([bins, bins]) 
        self.action_mapping = {i : -1+(i+0.5)*bin_width for i in range(bins)}

    def action(self, action):
        # 用向量化函数实现高效 action 映射
        vectorized_func = np.vectorize(lambda x: self.action_mapping[x])    
        result = vectorized_func(action)
        action = np.array(result)
        return action

class FlattenActionSpaceWrapper(gym.ActionWrapper):
    ''' 将多维离散动作空间拉平成一维动作空间 '''
    def __init__(self, env):
        super(FlattenActionSpaceWrapper, self).__init__(env)
        new_size = 1
        for dim in self.env.action_space.nvec:
            new_size *= dim
        self.action_space = spaces.Discrete(new_size)
    
    def action(self, action):
        orig_action = []
        for dim in reversed(self.env.action_space.nvec):
            orig_action.append(action % dim)
            action //= dim
        orig_action.reverse()
        return np.array(orig_action)

随机策略测试代码

import os
import sys
base_path = os.path.abspath(os.path.join(os.path.dirname(__file__), '..'))
sys.path.append(base_path)

import numpy as np
import time
from gym.utils.env_checker import check_env
from environment.Env_RollingBall import RollingBall, DiscreteActionWrapper, FlattenActionSpaceWrapper
from gym.wrappers import TimeLimit 

env = RollingBall(render_mode='human', width=5, height=5, show_epi=True)    
env = FlattenActionSpaceWrapper(DiscreteActionWrapper(env, 5))
env = TimeLimit(env, 100)
check_env(env.unwrapped)    # 检查环境是否符合 gym 规范
env.action_space.seed(10)
observation, _ = env.reset(seed=10)

# 测试环境
for i in range(100):
    while True:
        action = env.action_space.sample()
        #action = 19
        state, reward, terminated, truncated, _ = env.step(action)

        if terminated or truncated:
            env.reset()
            break

        time.sleep(0.01)
        env.render()

# 关闭环境渲染
env.close()

2. 使用 DQN 系列方法求解

2.1 DQN

2.1.1 算法原理

DQN 方法的出发点是将 Q-Learning 扩展到连续、高维状态空间中，这些情况下无法构造 Q-Learning 中的 Q 表。DQN
使用函数近似方法来拟合无限大的 Q 表，该网络输入一个状态，输出各个动作的 Q 价值

注意到网络的输出个数为动作空间尺寸，因此 DQN 方法仅适用于离散动作空间的环境。在训练使用 $\omega$ 参数化的 DQN 网络 $Q_\omega$ 时，我们通过优化关于 TD error 的 mse loss，来让价值估计靠近 TD target
$\omega^{*}=\arg \min _{\omega} \frac{1}{2 N} \sum_{i=1}^{N}\left[\left(r_{i}+\gamma \max _{a^{\prime}} Q_{\omega}\left(s_{i}^{\prime}, a^{\prime}\right)\right)-Q_{\omega}\left(s_{i}, a_{i}\right)\right]^{2}$ 其中 $N$ 为 batch size
如果 online 地使当前交互得到的 transition 样本去更新网络参数，会导致 训练不稳定、数据相关性强 和 数据利用率低 等问题。这里的核心矛盾在于 DQN 的训练方式本质是监督学习，而 on-policy RL 框架违背了监督学习基本的 i.i.d 原则。为了解决这个问题，DQN 引入了 经验重放 方法，维护一个 transition 缓冲区，将每次从环境中采样得到的 transition 四元组数据 $(s, a, r, s^{'})$ 存储到回放缓冲区中，训练 $Q$ 网络的时候再从回放缓冲区中随机采样若干数据来进行训练

这样可以增强训练数据的 i.i.d 性质，并且增加样本利用率
使用经验重放机制仍然不足以稳定训练。注意到 DQN 训练的本质还是 Q-Learning 的 TD boostrap 迭代方法，分析上面的损失函数，我们是在使用由 DQN 生成的优化目标 TD target 来优化 DQN 网络。这就导致优化目标随着训练进行不断变化，违背了监督学习的 i.i.d 原则，导致训练不稳定。为了解决这一问题，进一步引入目标网络，它的结构、输入输出等和 DQN 完全一致，每隔一段时间，就把其网络参数 $\omega^-$ 更新为 DQN 网络参数 $\omega$ ，其唯一的作用就是给出 TD target $r_{i}+\gamma \max _{a^{\prime}} Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, a^{\prime}\right)$ 在两次参数更新之间目标网络被冻结，这样就能给出平稳的优化目标，让训练更稳定。除此以外，目标网络部分打破了 DQN 自身的 Bootstrapping 操作，一定程度上缓解了 Q 价值高估的问题。
DQN 论文的详细解读见：论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning

2.1.2 代码实现

经验重放缓冲区（replay buffer）

class ReplayBuffer:
    ''' 经验回放池 '''
    def __init__(self, capacity):
        self.buffer = collections.deque(maxlen=capacity)        # 先进先出队列

    def add(self, state, action, reward, next_state, done):  
        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):  
        transitions = random.sample(self.buffer, batch_size)
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), np.array(action), reward, np.array(next_state), done

    def size(self): 
        return len(self.buffer)

DQN 网络

class Q_Net(torch.nn.Module):
    ''' Q 网络是一个两层 MLP, 用于 DQN 和 Double DQN '''
    def __init__(self, input_dim, hidden_dim, output_dim):
        super().__init__()
        self.fc1 = torch.nn.Linear(input_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x)) 
        return self.fc2(x)

DQN agent

class DQN(torch.nn.Module):
    ''' DQN算法 '''
    def __init__(self, state_dim, hidden_dim, action_dim, action_range, lr, gamma, epsilon, target_update, device, seed=None):
        super().__init__()
        self.action_dim = action_dim
        self.state_dim = state_dim
        self.hidden_dim = hidden_dim
        self.action_range = action_range        # action 取值范围
        self.gamma = gamma                      # 折扣因子
        self.epsilon = epsilon                  # epsilon-greedy
        self.target_update = target_update      # 目标网络更新频率
        self.count = 0                          # Q_Net 更新计数
        self.rng = np.random.RandomState(seed)  # agent 使用的随机数生成器
        self.device = device                
        
        # Q 网络
        self.q_net = Q_Net(state_dim, hidden_dim, action_range).to(device)  
        # 目标网络
        self.target_q_net = Q_Net(state_dim, hidden_dim, action_range).to(device)
        # 使用Adam优化器
        self.optimizer = torch.optim.Adam(self.q_net.parameters(), lr=lr)
        
    def max_q_value_of_given_state(self, state):
        state = torch.tensor(state, dtype=torch.float).to(self.device)
        return self.q_net(state).max().item()
        
    def take_action(self, state):  
        ''' 按照 epsilon-greedy 策略采样动作 '''
        if self.rng.random() < self.epsilon:
            action = self.rng.randint(self.action_range)
        else:
            state = torch.tensor(state, dtype=torch.float).to(self.device)
            action = self.q_net(state).argmax().item()
        return action

    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)                             # (bsz, state_dim)
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float).to(self.device)                   # (bsz, state_dim)
        actions = torch.tensor(transition_dict['actions'], dtype=torch.int64).view(-1, 1).to(self.device)               # (bsz, act_dim)
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1, 1).to(self.device).squeeze()     # (bsz, )
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1, 1).to(self.device).squeeze()         # (bsz, )

        q_values = self.q_net(states).gather(dim=1, index=actions).squeeze()                # (bsz, )
        max_next_q_values = self.target_q_net(next_states).max(axis=1)[0]                   # (bsz, )
        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)                  # (bsz, )

        dqn_loss = torch.mean(F.mse_loss(q_values, q_targets))  
        self.optimizer.zero_grad()                                                         
        dqn_loss.backward() 
        self.optimizer.step()
        
        if self.count % self.target_update == 0:
            # 按一定间隔更新 target 网络参数
            self.target_q_net.load_state_dict(self.q_net.state_dict())  
        self.count += 1

训练并绘制性能曲线

if __name__ == "__main__":
    def moving_average(a, window_size):
        ''' 生成序列 a 的滑动平均序列 '''
        cumulative_sum = np.cumsum(np.insert(a, 0, 0)) 
        middle = (cumulative_sum[window_size:] - cumulative_sum[:-window_size]) / window_size
        r = np.arange(1, window_size-1, 2)
        begin = np.cumsum(a[:window_size-1])[::2] / r
        end = (np.cumsum(a[:-window_size:-1])[::2] / r)[::-1]
        return np.concatenate((begin, middle, end))

    def set_seed(env, seed=42):
        ''' 设置随机种子 '''
        env.action_space.seed(seed)
        env.reset(seed=seed)
        random.seed(seed)
        np.random.seed(seed)
        torch.manual_seed(seed)

    state_dim = 4                               # 环境观测维度
    action_dim = 1                              # 环境动作维度
    action_bins = 10                            # 动作离散 bins 数量
    action_range = action_bins * action_bins    # 环境动作空间大小
    hidden_dim = 32
    lr = 1e-3
    num_episodes = 1000
    gamma = 0.99
    epsilon_start = 0.01
    epsilon_end = 0.001
    target_update = 1000
    buffer_size = 10000
    minimal_size = 5000
    batch_size = 128
    device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

    # build environment
    env = RollingBall(width=5, height=5, show_epi=True)    
    env = FlattenActionSpaceWrapper(DiscreteActionWrapper(env, bins=10))
    env = TimeLimit(env, 100)
    check_env(env.unwrapped)            # 检查环境是否符合 gym 规范
    set_seed(env, seed=42)              

    # build agent
    replay_buffer = ReplayBuffer(buffer_size)
    agent = DQN(state_dim, hidden_dim, action_dim, action_range, lr, gamma, epsilon_start, target_update, device)

    # 随机动作来填充 replay buffer
    state, _ = env.reset()
    while replay_buffer.size() <= minimal_size:
        action = env.action_space.sample()
        next_state, reward, terminated, truncated, _ = env.step(action)
        replay_buffer.add(state, action, reward, next_state, done=terminated or truncated)
        if terminated or truncated:
            env.render()
            state, _ = env.reset()
        #print(replay_buffer.size())

    # 开始训练
    return_list = []
    max_q_value_list = []
    max_q_value = 0
    for i in range(20):
        with tqdm(total=int(num_episodes / 20), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes / 20)):
                episode_return = 0
                state, _ = env.reset()
                while True:
                    # 保存经过状态的最大Q值
                    max_q_value = agent.max_q_value_of_given_state(state) * 0.005 + max_q_value * 0.995 # 平滑处理
                    max_q_value_list.append(max_q_value)                                    
                    
                    # 选择动作移动一步
                    action = agent.take_action(state)
                    next_state, reward, terminated, truncated, _ = env.step(action)
                    
                    # 更新replay_buffer
                    replay_buffer.add(state, action, reward, next_state, done=terminated or truncated)
                    
                    # 当buffer数据的数量超过一定值后,才进行Q网络训练
                    assert replay_buffer.size() > minimal_size
                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)
                    transition_dict = {
                        'states': b_s,
                        'actions': b_a,
                        'next_states': b_ns,
                        'rewards': b_r,
                        'dones': b_d
                    }
                    agent.update(transition_dict)

                    state = next_state
                    episode_return += reward

                    if terminated or truncated:
                        env.render()
                        break
                    
                    #env.render()

                return_list.append(episode_return)
                if (i_episode + 1) % 10 == 0:
                    pbar.set_postfix({
                        'episode':
                        '%d' % (num_episodes / 10 * i + i_episode + 1),
                        'return':
                        '%.3f' % np.mean(return_list[-10:])
                    })
                pbar.update(1)
                
        #env.render()
        agent.epsilon += (epsilon_end - epsilon_start) / 10

    # show policy performence
    mv_return_list = moving_average(return_list, 29)
    episodes_list = list(range(len(return_list)))
    plt.figure(figsize=(12,8))
    plt.plot(episodes_list, return_list, label='raw', alpha=0.5)
    plt.plot(episodes_list, mv_return_list, label='moving ave')
    plt.xlabel('Episodes')
    plt.ylabel('Returns')
    plt.title(f'{agent._get_name()} on RollingBall')
    plt.legend()
    plt.savefig(f'./result/{agent._get_name()}.png')
    plt.show()

    # show Max Q value during training
    frames_list = list(range(len(max_q_value_list)))
    plt.plot(frames_list, max_q_value_list)
    plt.axhline(max(max_q_value_list), c='orange', ls='--')
    plt.xlabel('Frames')
    plt.ylabel('Max Q_value')
    plt.title(f'{agent._get_name()} on RollingBall')
    plt.savefig(f'./result/{agent._get_name()}_MaxQ.png')
    plt.show()

2.1.3 性能

2.2 Double DQN

2.2.1 算法原理

Bellman Optimal Equation 中有最大化 $\max$ 操作，这会导致价值函数的高估，而且高估会被 bootstrap 机制不断加剧 最终我们得到的是真实 $Q^*$ 的有偏估计。其实高估本身没什么，但关键是高估是不均匀的，如果某个 $(s, a)$ 被迭代计算更多，那么由于 bootstrap 机制其价值也被高估更多，显然 replay buffer 中的 $(s, a)$ 分布是不均匀的，很可能某个次优动作就变成最优动作了，这会导致 agent 性能下降
我们可以对 $Q$ 值的过高估计做简化的定量分析。假设在状态 $s$ 下所有动作的期望回报均无差异，即 $Q^*(s,a)=V^*(s)$ （此设置是为了定量分析所简化的情形，实际上不同动作的期望回报通常会存在差异）；假设神经网络估算误差 $Q_{\omega^{\pmb{-}}}(s,a)-Q^*(s,a)$ 服从 $[- 1, 1]$ 之间的均匀独立同分布；假设动作空间大小为 $m$ 。那么，对于任意状态，有 $\mathbb{E}\left[\max _{a} Q_{\omega^{\pmb{-}}}(s, a)-\max _{a^{\prime}} Q_{*}\left(s, a^{\prime}\right)\right]=\frac{m-1}{m+1}$ 即动作空间越大时， $Q$ 值过高估计越严重
$Q$ 价值过估计问题在表格型的 Q-learning 中也存在，一个解决方案是把选择动作和计算价值分开处理，这种方法称为 Double Q-learning ，详见强化学习笔记（6）—— 无模型（model-free）control问题 5.4 节。Double DQN 方法模仿 Double Q-learning 的思路处理了 DQN 的价值高估问题，它做的改动其实非常小，观察 TD target 公式
$y=r_{i}+\gamma \max _{a^{\prime}} Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, a^{\prime}\right)$ 它可以看作选择最优动作 $a^*$ 和计算 TD target $y$ 两步
1. 原始 DQN 中，两步都用目标网络完成，即
  $a^* = \argmax_{a'}Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, a^{\prime}\right) \\ y=r+\gamma Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, a^*\right)$
2. Double DQN 中，第一步用 DQN 完成，第二步用目标网络完成，即
  $a^* = \argmax_{a'}Q_{\omega}\left(s_{i}^{\prime}, a^{\prime}\right) \\ y=r+\gamma Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, a^*\right)$
显然有（左边来自 Double DQN，右边来自 DQN）
$Q_{\omega^{\pmb{-}}}\left(s_{i}^{\prime}, \argmax_{a'}Q_{\omega}\left(s_{i}^{\prime}, a^{\prime}\right)\right) \leq \max_{a^\prime}Q_{\omega^{\pmb{-}}}(s_{i}^{\prime}, a^{\prime})$ 因此 Double DQN 得到的估计值比 DQN 更小一些。总的来看，DDQN 不但缓解了最大化导致的偏差，还和 DQN 一样部分缓解了 Bootstrapping 导致的偏差，因此其价值估计更准确

2.2.2 代码实现

继承原始 DQN 类，修改其中的 update 方法即可

class Double_DQN(DQN):
    ''' Double DQN算法 '''        
    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'], dtype=torch.float).to(self.device)                             # (bsz, state_dim)
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float).to(self.device)                   # (bsz, state_dim)
        actions = torch.tensor(transition_dict['actions'], dtype=torch.int64).view(-1, 1).to(self.device)               # (bsz, act_dim)
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1, 1).to(self.device).squeeze()     # (bsz, )
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1, 1).to(self.device).squeeze()         # (bsz, )

        q_values = self.q_net(states).gather(dim=1, index=actions).squeeze()                # (bsz, )
        max_action = self.q_net(next_states).max(axis=1)[1]                                 # (bsz, )
        max_next_q_values = self.target_q_net(next_states).gather(dim=1, index=max_action.unsqueeze(1)).squeeze()             
        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones)                  # (bsz, )

        dqn_loss = torch.mean(F.mse_loss(q_values, q_targets))  
        self.optimizer.zero_grad()                                                         
        dqn_loss.backward() 
        self.optimizer.step()
        
        if self.count % self.target_update == 0:
            # 按一定间隔更新 target 网络参数
            self.target_q_net.load_state_dict(self.q_net.state_dict())  
        self.count += 1

其余代码都可以维持不变

2.2.3 性能

注意到 Double DQN 的最大 $Q$ 价值估计相比普通 DQN 减少很多，说明值过高估计的问题得到了很大缓解

2.3 Dueling DQN

2.3.1 算法原理

RL 中 $Q (s, a)$ 价值可以拆分为 $V (s)$ 价值和动作优势 $A (s, a)$ 之和，即
$Q (s, a) = V (s) + A (s, a)$ 根据价值函数定义 $\mathbb{E}_a\left[Q(s,a)\right]$ ，在同一个状态下所有动作的优势值之和 $\sum_aA(s,a)=0$
DQN 和 Double DQN 都是直接对 $Q$ 函数进行建模，而 Dueling DQN 对 $A$ 和 $V$ 分别建模，通过组合二者来计算 $Q$ 函数。这样做的好处在于：某些情境下智能体只会关注状态的价值，而并不关心不同动作导致的差异，此时将二者分开建模能够使智能体更好地处理与动作关联较小的状态

如图所示的驾驶车辆游戏中，agent 注意力集中的部位被显示为橙色，当智能体前面没有车时，车辆自身动作并没有太大差异，此时智能体更关注状态（道路尽头位置）的价值，而当智能体前面有车时（智能体需要超车），智能体开始关注不同动作优势值的差异。
为了同时拟合 $V (s)$ 和 $A (s, a)$ ，将原始的 $Q (s, a)$ 改成一个共享隐藏层的双头 mlp，这可以理解为二者共享输入的状态特征，最后通过不同的线性组合参数组合得到 $A$ 和 $V$ ，公式表示如下
$Q_{\eta, \alpha, \beta}(s, a)=V_{\eta, \alpha}(s)+A_{\eta, \beta}(s, a)$ 这里有一个对于值和值建模不唯一性的问题。例如，对于同样的 $Q$ 值，如果将 $V$ 值加上任意大小的常数 $C$ ，再将所有 $A$ 值减去 $C$ ，则得到的 $Q$ 值依然不变，这就导致了训练的不稳定性。为了解决这一问题，Dueling DQN 强制最优动作的优势函数的实际输出为 0，即
$Q_{\eta, \alpha, \beta}(s, a)=V_{\eta, \alpha}(s)+A_{\eta, \beta}(s, a)-\max _{a^{\prime}} A_{\eta, \beta}\left(s, a^{\prime}\right)$ 此时 $V(s)=\max_a Q(s,a)$ 可以确保值建模的唯一性。在实现过程中，我们还可以用平均代替最大化操作，即：
$Q_{\eta, \alpha, \beta}(s, a)=V_{\eta, \alpha}(s)+A_{\eta, \beta}(s, a)-\frac{1}{|\mathcal{A}|} \sum_{a^{\prime}} A_{\eta, \beta}\left(s, a^{\prime}\right)$ 此时 $V(s)=\frac{1}{|\mathcal{A}|} \sum_{a^{\prime}} Q\left(s, a^{\prime}\right)$ ，虽然它不再满足贝尔曼最优方程，但实际应用时更加稳定
Dueling DQN 能更高效学习状态价值函数。每一次更新时， $V$ 函数都会被更新，这也会影响到其他动作的 $Q$ 值。而传统的 DQN 只会更新某个动作的 $Q$ 值，其他动作的值就不会更新。由 Dueling DQN 的原理可知，随着动作空间的增大，Dueling DQN 相比于 DQN 的优势更为明显

2.3.2 代码实现

实现同时拟合

V

和

A

的双头网络

class VA_Net(torch.nn.Module):
    ''' VA 网络是一个两层双头 MLP, 仅用于 Dueling DQN '''
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(VA_Net, self).__init__()
        self.fc1 = torch.nn.Linear(input_dim, hidden_dim)   # 共享网络部分
        self.fc_A = torch.nn.Linear(hidden_dim, output_dim)
        self.fc_V = torch.nn.Linear(hidden_dim, 1)

    def forward(self, x):
        A = self.fc_A(F.relu(self.fc1(x)))
        V = self.fc_V(F.relu(self.fc1(x)))
        Q = V + A - A.mean().item()                         # Q值由V值和A值计算得到
        return Q
``

继承原始 DQN 类，在初始化时重新将 q_net 和 target_q_net 重新指向 VA_Net 对象，并新建优化器

class Dueling_DQN(DQN):
    ''' Dueling DQN 算法 '''            
    def __init__(self, state_dim, hidden_dim, action_dim, action_range, lr, gamma, epsilon, target_update, device, seed=None):
        super().__init__(state_dim, hidden_dim, action_dim, action_range, lr, gamma, epsilon, target_update, device, seed)
        
        # Q 网络
        self.q_net = VA_Net(state_dim, hidden_dim, action_range).to(device)  
        # 目标网络
        self.target_q_net = VA_Net(state_dim, hidden_dim, action_range).to(device)
        # 使用Adam优化器
        self.optimizer = torch.optim.Adam(self.q_net.parameters(), lr=lr)

其余代码都可以维持不变

2.3.3 性能

3. 总结

本文讲解了 DQN 算法及其两个容易实现的变式 —— Double DQN 和 Dueling DQN
1. DQN 的主要思想是用一个神经网络来拟合最优 $Q$ 函数，利用 Q-learning 的思想，通过优化 TD error 的 MSE 损失进行参数更新。为了保证训练的稳定性和高效性，DQN 算法引入了经验回放和目标网络两大模块
2. Double DQN 将 TD target 的构造分成最优动作选取和提取价值两个部分，第一步用 DQN 完成，第二步用目标网络完成，缓解了 DQN 中对值的过高估计问题
3. Dueling DQN 将对 $Q$ 函数的建模拆分成对 $V$ 和 $A$ 两部分进行建模，使智能体更好地处理与动作关联较小的状态，更高效学习状态价值函数。当动作空间很大时相对 DQN 有更大优势

你可能感兴趣的:(#,实践,#,强化学习,强化学习,DQN,Double,DQN,Dueling,DQN,gym)

JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
深入解析：C# 中 `Task.Delay` 与 `Thread.Sleep` 的对比与实战墨夶 C#学习资料1 c#开发语言
嘿，小伙伴们！今天我们要一起深入探讨C#中的Task.Delay和Thread.Sleep。想象一下，你正在开发一个需要处理异步操作的应用程序，如何有效地管理线程和延迟执行任务呢？别急，让我们通过这篇文章来详细解析Task.Delay和Thread.Sleep的区别，并涵盖以下内容：基本概念Thread.Sleep的用法Task.Delay的用法对比分析实战示例注意事项与最佳实践常见面试题及答案正
MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？墨瑾轩 Java乐园 mybatis
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？在使用MyBatis-Plus进行持久层开发时，事务控制是确保数据一致性的重要手段。然而，在实践中，不当的使用@Transactional注解可能导致各种意想不到的问题。本文
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
一名成功的项目经理的20个项目管理经验
项目管理既是一门科学，也是一门艺术。成功的项目经理往往能在复杂多变的项目环境中，通过系统性方法和灵活应对策略，带领团队突破瓶颈、达成目标。以下是20条经过实战验证的项目管理经验，涵盖从需求管理到团队赋能的完整链条，助力项目经理从“合格”走向“卓越”。一、需求管理：从混沌到清晰绘制用户故事地图用可视化的用户旅程串联碎片化需求，确保每个功能点都能对应业务价值。工具实践：通过Miro或Figma构建动态
需求池膨胀时如何科学排序优先级需求分析
需求池膨胀时如何科学排序优先级主要依靠数据驱动、战略对齐、风险评估**。其中数据驱动是关键，通过收集历史数据、用户反馈与市场趋势，对各项需求进行量化评估，帮助企业在需求膨胀时做出精准排序和资源配置。实践表明，数据驱动的决策可使需求响应速度提升约30%，大大优化资源分配效果。一、需求池膨胀现象的背景与挑战、需求池指的是企业内部或市场上积累的各类需求、项目或功能请求。随着企业发展和市场环境变化，需求池
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅 JJCTO袁龙前端 react.js 前端框架
文章标题《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅在前端开发的浪潮中，React.js已经成为开发者们不可或缺的利器。它以其高效、灵活的特性，成为构建现代Web应用的首选框架之一。然而，随着项目复杂度的增加，如何更好地管理状态、优化性能、提升代码可维护性，成为每个开发者必须面对的挑战。幸运的是，我最近出版的《React开发实践：掌握Redux与Hooks应用》这
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等） DoYangTan python 学习分布式
Python后端学习系列（10）：分布式系统与数据一致性（使用分布式锁、分布式事务等）前言随着业务规模的不断扩大以及对系统性能、可扩展性的更高要求，后端应用往往会朝着分布式系统的方向发展。然而，分布式系统带来诸多优势的同时，也面临着如数据一致性等复杂的挑战。本期我们就聚焦于分布式系统中的关键问题——数据一致性，深入探讨分布式锁、分布式事务等相关知识以及保障数据一致性的策略与实践，让我们一起深入学习
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
一文搞懂Nginx: 域名配置、SSL、HTTP转HTTPS 千层冷面知识类 http nginx ssl linux
本文将在Centos系统下详解Nginx服务器，从概念、下载、安装、编译、配置(含域名和证书)到启动。本文先讲Nginx如何使用，然后再谈概念。一、实践1.下载下载通常有2种方式：Centos自带的包管理工具、源码编译安装(推荐，拓展性强)，本文使用源码编译安装的形式下载从Nginx官网（nginx.org）下载Nginx的源代码。亦可以使用wget命令或者浏览器下载后通过FTP等方式传输到服务器
Python助力区块链互通——跨链桥接的实现与实践 Echo_Wish Python！实战！区块链 python 开发语言
Python助力区块链互通——跨链桥接的实现与实践区块链技术的繁荣发展带来了巨大的生态创新，但也因各链之间的割裂局面限制了它们的潜力。例如，你或许想在以太坊上使用来自比特币的资产，却因两条链不互通而不得不求助于中心化交易所。要打破“链间壁垒”，跨链桥接（Cross-chainBridge）应运而生。今天，我以Echo_Wish的视角，通过Python代码实践，带你深入了解跨链桥接的工作原理，技术实
DevOps中集成自动化测试的具体案例 Zachary AI CICD相关 devops 运维
在DevOps中集成自动化测试的具体案例可以从多个角度进行分析，包括金融行业、分布式系统、大型企业等不同领域的实践。以下是几个具体的案例：金融行业的DevOps实践：在金融行业中，DevOps被广泛应用于提升软件开发和运营的效率。例如，通过解析后台接口代码日志格式，自动化生成接口测试案例，解决了接口自动化测试过程中各交易输入值难以确定的问题，从而提高了接口测试效率[14]。此外，农行手机银行系统存
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
加密算法的性能优化与安全性平衡研究 sigen520520 笔记
摘要在数字化信息飞速发展的当下，数据安全至关重要，加密算法作为数据保护的核心手段，其性能与安全性直接关乎信息系统的稳定运行。本文深入剖析常见加密算法，详细分析其性能指标与安全性特点，全面探讨在提升加密速度的同时确保安全的有效方法与实践，旨在为构建高效、安全的加密体系提供理论支撑与实践指导。引言随着互联网的普及和信息技术的广泛应用，数据在传输与存储过程中面临诸多安全威胁，如数据泄露、篡改、伪造等。加
基于 Websoft9 平台的 Odoo 教学实践：助力智能制造、物流与财务会计专业教师提升教学效果开源
Websoft9作为企业级开源软件的自动化部署与管理平台，为高校智能制造、物流与财务会计等专业提供了完整的Odoo（开源ERP）教学解决方案。以下从部署、维护及功能扩展三方面解析其核心价值：一、部署：开箱即用的企业级业务场景模拟一键构建复杂业务架构Websoft9预置了Odoo全模块集成模板，部署时可自动关联PostgreSQL数据库、Nginx负载均衡及Let'sEncryptSSL证书，还原真
Websoft9 开源多应用平台：培养学生数字化能力的实战工具开源实践
引言数字化教育转型的核心在于将技术工具与教学场景深度融合，但传统模式常因环境配置复杂、工具链割裂等问题阻碍实践教学效率。Websoft9开源多应用平台以标准化部署、多工具集成、轻量化运维为核心能力，为教育场景提供了一种技术门槛更低、协作效率更高的解决方案。本文基于实际教学需求与技术验证，探讨如何通过该平台构建数字化能力培养体系。一、技术特性与教育场景的适配性开源生态覆盖全技术栈，缩短教学准备周期平
华为仓颉编程语言与医疗领域的深度融合：技术与实践想成为高手499 华为人工智能服务器
引言在数字化浪潮席卷全球的背景下，医疗行业的智能化转型已成为一种不可逆的趋势。从电子病历（EMR）、医疗影像分析，到远程手术和个性化健康管理，技术创新正在不断推动医疗领域的变革。然而，这一过程对底层技术提出了更高的要求：高效的计算性能、强大的硬件适配性、分布式计算能力以及生态系统的支持。华为推出的自研编程语言仓颉（Cangjie）正是在此背景下应运而生。仓颉语言以其高效、灵活和强大的硬件整合能力，
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
不要再走弯路了2025最全的黑客入门学习路线在这渗透代老师学习网络安全 web安全网络 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包在大多数的思维里总觉得[学习]得先收集资料、学习编程、学习计算机基础，这样不是不可以，但是这样学效率太低了！你要知道网络安全是一门技术，任何技术的学习一定是以实践为主的。也就是说很多的理论知识其实是可以在实践中去验证拓展的，这样学习比起你啃原理、啃书本要好理解很多。所以想要学习网络安全选对正确的学习方法很重要，这可以帮你少走很多弯路。
C语言的五套标准：C89、C99、C11、C17和C23（新手必看） xiecoding.cn c语言开发语言 C语言入门 C++C/C++数据结构
作为一门经典的编程语言，C语言标准随着时间不断演进，以适应新的编程需求和技术发展。本文将详细介绍C语言的五套标准：C89、C99、C11、C17和C23。我们将从每套标准的背景、主要特性入手，逐步深入，帮助你理解它们之间的差异以及对编程实践的影响。C89：奠定基础的第一个标准C89，也称为ANSIC，是C语言的第一个正式标准，由美国国家标准协会（ANSI）于1989年发布，后在1990年被国际标准
Kafka集群部署实战 Gold Steps. 技术博文分享 kafka 分布式
服务背景ApacheKafka作为分布式流处理平台，在金融交易系统、物联网数据处理、实时日志分析等场景中发挥关键作用。某电商平台日均处理订单消息1.2亿条，峰值QPS达5万，采用Kafka集群实现订单状态流转、用户行为追踪和库存同步等功能。以下是经过生产验证的集群部署方案及典型故障处理经验。集群运维最佳实践1.容量规划建议指标推荐值监控阈值分区数量/Broker≤4000≥3500告警副本同步延迟
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
Node.js 中使用 RabbitMQ 海上彼尚 node.js node.js rabbitmq 分布式
目录一、RabbitMQ简介二、核心概念解析三、环境搭建（以Ubuntu为例）四、Node.js实战：生产者与消费者1.安装依赖2.生产者代码（发送消息）3.消费者代码（处理消息）五、高级配置与最佳实践六、常见问题与解决方案七、总结一、RabbitMQ简介RabbitMQ是一个基于AMQP协议的开源消息代理工具，专为分布式系统设计。它通过解耦生产者和消费者实现异步通信，支持流量削峰、任务队列、服务
设计模式-单一职责原则 qq_26920109 java java 设计模式深圳
单一职责原则（SRP：Singleresponsibilityprinciple）又称单一功能原则，原话解释是：thereshouldneverbemorethanareasonofaclasstochange,也就是引起类的变化原因不能超过一个，面向对象五个基本原则（SOLID）之一。该原则由罗伯特·C·马丁（RobertC.Martin）于《敏捷软件开发：原则、模式和实践》一书中给出的。马丁表
QR二维码开发实战：生成、管理与扫描的最佳实践 34号树洞 javascript 二维码开发 Python Javascript URL QRCode
目录一、QR二维码是什么？1.QR二维码的基础知识2.QR二维码的生成3.QR二维码的应用场景4.QR二维码的管理二、开发QR二维码1.生成二维码（支持移动端+网页）2.生成“活码”（可修改目标URL的二维码）3.扫描二维码4.嵌入二维码功能到App5.高级功能6.推荐技术栈7.开发注意事项一、QR二维码是什么？1.QR二维码的基础知识QR码结构：了解QR码的组成部分，如定位图案、校正图案、数据区
Rust为Node.js开发者设计：入门到实战平依佩Ula
Rust为Node.js开发者设计：入门到实战rust-for-node-developersAnintroductiontotheRustprogramminglanguageforNodedevelopers.项目地址:https://gitcode.com/gh_mirrors/ru/rust-for-node-developers项目介绍欢迎来到《Rust为Node.js开发者设计》的实践
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
纯血鸿蒙系统 HarmonyOS NEXT自动化测试实践夜阑卧听风吹雨，铁马冰河入梦来 python Appium自动化测试 harmonyos 华为
1、测试框架选择hdc：类似android系统的adb命令，提供设备信息查询，包管理，调试相关的命令@ohos.UiTest：鸿蒙sdk的一部分，类似androidsdk里的uiautomator，基于Accessibility服务，提供模拟UI操作的能力。但是需要用arkTS语言来写自动化case，并且用例需要打包到被测app里面hypium：鸿蒙官方的自动化框架，功能比较完善，可以基于pyth
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio