凡人的AI工具箱

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（二）

第二部分：策略梯度算法及其方差优化策略

2.1 策略梯度方法概述

策略梯度方法是强化学习的另一个重要分支，与Q-learning不同，它直接对策略函数进行参数化和优化，而不是通过值函数间接得到策略。

2.1.1 从值函数方法到策略梯度方法

值函数方法（如Q-learning）和策略梯度方法有以下区别：

方法	直接优化对象	策略表示	适用场景
值函数方法	值函数	隐式（从值函数导出）	离散动作空间
策略梯度方法	策略函数	显式（直接参数化）	连续动作空间、随机策略

策略梯度方法的优势在于：

可以处理连续动作空间
可以学习随机策略，这在部分可观察环境中很重要
通常收敛更稳定（虽然可能更慢）

2.1.2 策略梯度的数学基础

在策略梯度方法中，我们用参数 $\theta$ 来表示策略 $\pi_\theta(a|s)$ 。我们的目标是最大化期望回报：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$

其中 $\tau$ 是一条轨迹（状态-动作序列）， $R(\tau)$ 是轨迹的累积奖励。

为了最大化 $J(\theta)$ ，我们需要计算其梯度 $\nabla_\theta J(\theta)$ ，并沿梯度方向更新参数：

$\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$

这就是策略梯度方法的核心思想。

2.2 策略梯度定理

策略梯度定理给出了 $\nabla_\theta J(\theta)$ 的解析表达式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot R(\tau)\right]$

我们可以从轨迹的似然来理解这个公式：

$\nabla_\theta \log \pi_\theta(a_t|s_t)$ 表示如何调整参数 $\theta$ 来增加动作 $a_t$ 在状态 $s_t$ 下的概率
$R(\tau)$ 是轨迹的累积奖励，作为"权重"
如果某轨迹的奖励很高，我们就增加该轨迹中动作的概率；反之则减少

2.3 REINFORCE算法

REINFORCE是最基本的策略梯度算法，它直接使用策略梯度定理来更新策略参数。

下面是REINFORCE算法的PyTorch实现：

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
import gymnasium as gym
import matplotlib.pyplot as plt

# 设置随机种子，确保结果可复现
seed = 42
torch.manual_seed(seed)
np.random.seed(seed)

# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 策略网络
class PolicyNetwork(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=128):
        super(PolicyNetwork, self).__init__()
        self.fc1 = nn.Linear(state_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        self.fc3 = nn.Linear(hidden_size, action_size)
    
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = F.softmax(self.fc3(x), dim=1)
        return x
    
    def act(self, state):
        state = torch.from_numpy(state).float().unsqueeze(0).to(device)
        probs = self.forward(state)
        m = Categorical(probs)
        action = m.sample()
        return action.item(), m.log_prob(action)

# REINFORCE算法
class REINFORCE:
    def __init__(self, state_size, action_size, hidden_size=128, lr=1e-3, gamma=0.99):
        self.policy = PolicyNetwork(state_size, action_size, hidden_size).to(device)
        self.optimizer = optim.Adam(self.policy.parameters(), lr=lr)
        self.gamma = gamma
    
    def train_episode(self, env):
        # 收集一条轨迹
        state, _ = env.reset()
        log_probs = []
        rewards = []
        done = False
        
        while not done:
            action, log_prob = self.policy.act(state)
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            log_probs.append(log_prob)
            rewards.append(reward)
            state = next_state
        
        # 计算折扣奖励
        returns = self.compute_returns(rewards)
        
        # 计算策略损失
        policy_loss = []
        for log_prob, R in zip(log_probs, returns):
            policy_loss.append(-log_prob * R)  # 负号是因为我们要最大化期望奖励
        
        policy_loss = torch.cat(policy_loss).sum()
        
        # 更新策略
        self.optimizer.zero_grad()
        policy_loss.backward()
        self.optimizer.step()
        
        return sum(rewards)
    
    def compute_returns(self, rewards):
        """计算每个时间步的回报"""
        returns = []
        G = 0
        
        # 从后向前计算回报
        for r in reversed(rewards):
            G = r + self.gamma * G
            returns.insert(0, G)
        
        # 标准化回报（可选，但有助于减少方差）
        returns = torch.tensor(returns)
        if len(returns) > 1:
            returns = (returns - returns.mean()) / (returns.std() + 1e-9)
        
        return returns

# 训练REINFORCE智能体
def train_reinforce(env_name="CartPole-v1", num_episodes=1000, 
                   hidden_size=128, lr=1e-3, gamma=0.99):
    """训练REINFORCE策略梯度智能体"""
    # 创建环境
    env = gym.make(env_name)
    
    # 获取状态和动作空间大小
    if isinstance(env.observation_space, gym.spaces.Discrete):
        state_size = env.observation_space.n
    else:
        state_size = env.observation_space.shape[0]
    
    action_size = env.action_space.n
    
    # 创建智能体
    agent = REINFORCE(state_size, action_size, hidden_size, lr, gamma)
    
    # 训练日志
    scores = []
    
    for i_episode in range(1, num_episodes+1):
        score = agent.train_episode(env)
        scores.append(score)
        
        # 打印训练进度
        if i_episode % 100 == 0:
            avg_score = np.mean(scores[-100:])
            print(f"Episode {i_episode}/{num_episodes} | Average Score: {avg_score:.2f}")
    
    return agent, scores

# 添加基线以减少方差的REINFORCE
class REINFORCEWithBaseline:
    def __init__(self, state_size, action_size, hidden_size=128, lr=1e-3, gamma=0.99):
        self.policy = PolicyNetwork(state_size, action_size, hidden_size).to(device)
        
        # 添加一个值网络作为基线
        self.value_network = nn.Sequential(
            nn.Linear(state_size, hidden_size),
            nn.ReLU(),
            nn.Linear(hidden_size, hidden_size),
            nn.ReLU(),
            nn.Linear(hidden_size, 1)
        ).to(device)
        
        self.optimizer_policy = optim.Adam(self.policy.parameters(), lr=lr)
        self.optimizer_value = optim.Adam(self.value_network.parameters(), lr=lr)
        
        self.gamma = gamma
    
    def train_episode(self, env):
        # 收集一条轨迹
        state, _ = env.reset()
        log_probs = []
        values = []
        rewards = []
        states = []
        done = False
        
        while not done:
            states.append(state)
            action, log_prob = self.policy.act(state)
            state_tensor = torch.FloatTensor(state).unsqueeze(0).to(device)
            value = self.value_network(state_tensor)
            
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            log_probs.append(log_prob)
            values.append(value)
            rewards.append(reward)
            state = next_state
        
        # 计算折扣奖励和优势
        returns = self.compute_returns(rewards)
        advantages = self.compute_advantages(returns, values)
        
        # 计算策略损失
        policy_loss = []
        for log_prob, advantage in zip(log_probs, advantages):
            policy_loss.append(-log_prob * advantage)  # 负号是因为我们要最大化期望奖励
        
        policy_loss = torch.cat(policy_loss).sum()
        
        # 计算值网络损失
        value_loss = 0
        for value, R in zip(values, returns):
            value_loss += F.mse_loss(value, torch.tensor([[R]]).to(device))
        
        # 更新策略网络
        self.optimizer_policy.zero_grad()
        policy_loss.backward()
        self.optimizer_policy.step()
        
        # 更新值网络
        self.optimizer_value.zero_grad()
        value_loss.backward()
        self.optimizer_value.step()
        
        return sum(rewards)
    
    def compute_returns(self, rewards):
        """计算每个时间步的回报"""
        returns = []
        G = 0
        
        # 从后向前计算回报
        for r in reversed(rewards):
            G = r + self.gamma * G
            returns.insert(0, G)
        
        # 转换为tensor
        returns = torch.tensor(returns, dtype=torch.float)
        
        return returns
    
    def compute_advantages(self, returns, values):
        """计算优势值"""
        advantages = []
        for R, V in zip(returns, values):
            advantages.append(R - V.item())
        
        # 标准化优势值（可选，但有助于减少方差）
        advantages = torch.tensor(advantages)
        if len(advantages) > 1:
            advantages = (advantages - advantages.mean()) / (advantages.std() + 1e-9)
        
        return advantages

# 训练带基线的REINFORCE智能体
def train_reinforce_with_baseline(env_name="CartPole-v1", num_episodes=1000, 
                                 hidden_size=128, lr=1e-3, gamma=0.99):
    """训练带基线的REINFORCE策略梯度智能体"""
    # 创建环境
    env = gym.make(env_name)
    
    # 获取状态和动作空间大小
    if isinstance(env.observation_space, gym.spaces.Discrete):
        state_size = env.observation_space.n
    else:
        state_size = env.observation_space.shape[0]
    
    action_size = env.action_space.n
    
    # 创建智能体
    agent = REINFORCEWithBaseline(state_size, action_size, hidden_size, lr, gamma)
    
    # 训练日志
    scores = []
    
    for i_episode in range(1, num_episodes+1):
        score = agent.train_episode(env)
        scores.append(score)
        
        # 打印训练进度
        if i_episode % 100 == 0:
            avg_score = np.mean(scores[-100:])
            print(f"Episode {i_episode}/{num_episodes} | Average Score: {avg_score:.2f}")
    
    return agent, scores

# 比较REINFORCE与带基线的REINFORCE
def compare_algorithms(env_name="CartPole-v1", num_episodes=1000):
    """比较REINFORCE和带基线的REINFORCE"""
    print("训练原始REINFORCE...")
    agent1, scores1 = train_reinforce(env_name, num_episodes)
    
    print("\n训练带基线的REINFORCE...")
    agent2, scores2 = train_reinforce_with_baseline(env_name, num_episodes)
    
    # 绘制对比图
    plt.figure(figsize=(12, 6))
    
    # 计算滑动平均分数
    def moving_average(data, window_size=100):
        return np.convolve(data, np.ones(window_size)/window_size, mode='valid')
    
    scores1_avg = moving_average(scores1)
    scores2_avg = moving_average(scores2)
    
    plt.plot(scores1_avg, label='REINFORCE')
    plt.plot(scores2_avg, label='REINFORCE with Baseline')
    plt.xlabel('Episode')
    plt.ylabel('Average Score')
    plt.title(f'Performance Comparison on {env_name}')
    plt.legend()
    plt.grid(True)
    plt.savefig('reinforce_comparison.png')
    plt.show()
    
    return agent1, scores1, agent2, scores2

# 示例用法
if __name__ == "__main__":
    # 训练并比较两种算法
    agent1, scores1, agent2, scores2 = compare_algorithms(env_name="CartPole-v1", num_episodes=800)
    
    # 评估最终性能
    print("\n最终性能评估（最后100个episode的平均分数）:")
    print(f"REINFORCE: {np.mean(scores1[-100:]):.2f}")
    print(f"REINFORCE with Baseline: {np.mean(scores2[-100:]):.2f}")

2.4 策略梯度方法的高方差问题

策略梯度方法的一个主要挑战是估计的梯度通常具有很高的方差，这会导致训练不稳定，收敛缓慢。高方差的主要原因包括：

时间相关性：轨迹中不同时间步的动作回报不应同等对待
随机性：环境和策略的随机性导致相似轨迹可能有很不同的回报
长期依赖：远期奖励与当前动作的关系通常较弱

2.5 方差优化策略

为了减少策略梯度估计的方差，研究者提出了多种方法：

2.5.1 使用基线(Baseline)

使用基线是减少策略梯度方差最常用的方法。我们将原始公式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot R(\tau)\right]$

修改为：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot (R(\tau) - b)\right]$

其中 $b$ 是一个基线，通常选择为状态值函数 $V^\pi(s_t)$ 。

数学证明：添加基线不会改变梯度的期望，但可以减少方差：

$\mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot b\right] = 0$

因为 $\mathbb{E}_{a \sim \pi_\theta(a|s)}[\nabla_\theta \log \pi_\theta(a|s)] = 0$ 。

2.5.2 优势函数(Advantage Function)

优势函数 $A^\pi(s,a)$ 度量了动作 $a$ 相对于平均水平的"好坏"：

$A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$

使用优势函数替代原始回报，可以得到：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A^\pi(s_t,a_t)\right]$

优势函数作为基线的好处是，它告诉我们一个动作是否比平均水平好，而不仅仅是绝对回报值。

2.5.3 时序差分误差(TD Error)

优势函数 $A^\pi(s,a)$ 的一个简单近似是单步时序差分误差：

$\delta_t = r_t + \gamma V^\pi(s_{t+1}) - V^\pi(s_t)$

这可以被看作是 $A^\pi(s_t,a_t)$ 的无偏估计。使用TD误差可以进一步减少方差。

策略梯度方差减少技术比较

方法	优势	缺点	方差减少效果
原始REINFORCE	实现简单，不需要额外网络	方差大，训练不稳定	低
带基线的REINFORCE	实现相对简单，显著减少方差	需要学习额外的值函数	中
优势Actor-Critic	方差更低，可以进行在线更新	系统更复杂，需要调整更多超参数	高
GAE (广义优势估计)	平衡偏差和方差，适应不同时间尺度	实现复杂，计算开销大	很高
TRPO/PPO	稳定性极高，适合复杂环境	算法复杂，计算效率可能较低	非常高

方差减少对训练性能的影响

通常，方差减少技术能够带来以下性能提升：

学习速度：随着方差的减少，同样数量的样本可以提供更准确的梯度估计，加快收敛
稳定性：较低的方差意味着更稳定的训练过程，减少策略崩溃或大幅波动的情况
样本效率：方差较低时，算法可以从更少的样本中学习，提高样本利用效率

实验结果：方差对比

在CartPole-v1环境上，不同方法的方差比较：

方法	策略梯度估计方差	收敛所需回合数	最终平均得分
原始REINFORCE	3842.5	650	180.3
带基线的REINFORCE	986.7	420	189.5
A2C (Advantage Actor-Critic)	574.2	340	195.2
PPO	231.8	280	198.7

注：数据仅作示例，实际结果会因实现细节和超参数选择而异。

2.5.4 Actor-Critic 方法

Actor-Critic方法结合了策略梯度（Actor）和值函数估计（Critic）的优点：

Actor根据策略选择动作
Critic评估动作的价值

这种结构可以显著减少方差，提高样本效率。下面是一个简单的Actor-Critic实现：

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
import gymnasium as gym
import matplotlib.pyplot as plt

# 设置随机种子
seed = 42
torch.manual_seed(seed)
np.random.seed(seed)

# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Actor-Critic网络
class ActorCritic(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=128):
        super(ActorCritic, self).__init__()
        
        # 共享特征提取层
        self.fc1 = nn.Linear(state_size, hidden_size)
        
        # Actor网络（策略）
        self.actor = nn.Linear(hidden_size, action_size)
        
        # Critic网络（值函数）
        self.critic = nn.Linear(hidden_size, 1)
    
    def forward(self, x):
        x = F.relu(self.fc1(x))
        
        # Actor: 输出动作概率
        action_probs = F.softmax(self.actor(x), dim=1)
        
        # Critic: 输出状态值
        state_values = self.critic(x)
        
        return action_probs, state_values
    
    def act(self, state):
        state = torch.from_numpy(state).float().unsqueeze(0).to(device)
        action_probs, state_value = self.forward(state)
        
        # 从动作概率分布中采样
        m = Categorical(action_probs)
        action = m.sample()
        
        return action.item(), m.log_prob(action), state_value

# Advantage Actor-Critic (A2C)算法
class A2C:
    def __init__(self, state_size, action_size, hidden_size=128, lr=3e-4, gamma=0.99):
        self.gamma = gamma
        
        # Actor-Critic网络
        self.network = ActorCritic(state_size, action_size, hidden_size).to(device)
        
        # 优化器
        self.optimizer = optim.Adam(self.network.parameters(), lr=lr)
    
    def train_episode(self, env, max_steps=1000):
        state, _ = env.reset()
        
        log_probs = []
        values = []
        rewards = []
        masks = []
        
        done = False
        total_reward = 0
        step = 0
        
        while not done and step < max_steps:
            # 选择动作
            action, log_prob, value = self.network.act(state)
            
            # 执行动作
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            # 记录信息
            log_probs.append(log_prob)
            values.append(value)
            rewards.append(reward)
            masks.append(1 - done)
            
            state = next_state
            total_reward += reward
            step += 1
        
        # 计算回报和优势
        returns = self.compute_returns(rewards, masks)
        returns = torch.cat(returns).detach()
        values = torch.cat(values)
        log_probs = torch.cat(log_probs)
        
        # 计算优势值
        advantages = returns - values
        
        # 计算Actor和Critic损失
        actor_loss = -(log_probs * advantages.detach()).mean()
        critic_loss = F.mse_loss(values, returns)
        
        # 总损失
        loss = actor_loss + 0.5 * critic_loss
        
        # 优化网络
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        return total_reward, actor_loss.item(), critic_loss.item()
    
    def compute_returns(self, rewards, masks, next_value=0):
        """计算每个时间步的折扣回报（使用完整轨迹）"""
        returns = []
        R = next_value
        
        for step in reversed(range(len(rewards))):
            R = rewards[step] + self.gamma * R * masks[step]
            returns.insert(0, torch.tensor([[R]], device=device))
        
        return returns

# 带n步回报的Advantage Actor-Critic (A2C)
class A2C_nstep:
    def __init__(self, state_size, action_size, hidden_size=128, lr=3e-4, gamma=0.99, n_steps=5):
        self.gamma = gamma
        self.n_steps = n_steps
        
        # Actor-Critic网络
        self.network = ActorCritic(state_size, action_size, hidden_size).to(device)
        
        # 优化器
        self.optimizer = optim.Adam(self.network.parameters(), lr=lr)
    
    def train_episode(self, env, max_steps=1000):
        state, _ = env.reset()
        
        log_probs = []
        values = []
        rewards = []
        masks = []
        
        done = False
        total_reward = 0
        step = 0
        
        # 对每个n步进行一次更新
        while not done and step < max_steps:
            step_rewards = []
            step_values = []
            step_masks = []
            step_log_probs = []
            
            # 收集n步数据
            for _ in range(self.n_steps):
                if done:
                    break
                    
                # 选择动作
                action, log_prob, value = self.network.act(state)
                
                # 执行动作
                next_state, reward, terminated, truncated, _ = env.step(action)
                done = terminated or truncated
                
                # 记录信息
                step_log_probs.append(log_prob)
                step_values.append(value)
                step_rewards.append(reward)
                step_masks.append(1 - done)
                
                state = next_state
                total_reward += reward
                step += 1
            
            # 如果收集到了数据，进行一次更新
            if len(step_rewards) > 0:
                # 计算n步回报
                if not done:
                    # 获取下一个状态的值作为引导值
                    _, _, next_value = self.network.act(state)
                else:
                    next_value = torch.zeros(1, 1).to(device)
                
                # 计算n步回报
                returns = self.compute_n_step_returns(step_rewards, step_masks, next_value)
                returns = torch.cat(returns).detach()
                step_values = torch.cat(step_values)
                step_log_probs = torch.cat(step_log_probs)
                
                # 计算优势值
                advantages = returns - step_values
                
                # 计算Actor和Critic损失
                actor_loss = -(step_log_probs * advantages.detach()).mean()
                critic_loss = F.mse_loss(step_values, returns)
                
                # 总损失
                loss = actor_loss + 0.5 * critic_loss
                
                # 优化网络
                self.optimizer.zero_grad()
                loss.backward()
                self.optimizer.step()
                
                # 保存统计信息
                log_probs.extend(step_log_probs)
                values.extend(step_values)
                rewards.extend(step_rewards)
                masks.extend(step_masks)
        
        return total_reward
    
    def compute_n_step_returns(self, rewards, masks, next_value):
        """计算n步回报"""
        returns = []
        R = next_value
        
        for step in reversed(range(len(rewards))):
            R = rewards[step] + self.gamma * R * masks[step]
            returns.insert(0, torch.tensor([[R]], device=device))
        
        return returns

# 广义优势估计(GAE)
class A2C_GAE:
    def __init__(self, state_size, action_size, hidden_size=128, lr=3e-4, gamma=0.99, gae_lambda=0.95):
        self.gamma = gamma
        self.gae_lambda = gae_lambda
        
        # Actor-Critic网络
        self.network = ActorCritic(state_size, action_size, hidden_size).to(device)
        
        # 优化器
        self.optimizer = optim.Adam(self.network.parameters(), lr=lr)
    
    def train_episode(self, env, max_steps=1000):
        state, _ = env.reset()
        
        log_probs = []
        values = []
        rewards = []
        masks = []
        
        done = False
        total_reward = 0
        step = 0
        
        while not done and step < max_steps:
            # 选择动作
            action, log_prob, value = self.network.act(state)
            
            # 执行动作
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            # 记录信息
            log_probs.append(log_prob)
            values.append(value)
            rewards.append(reward)
            masks.append(1 - done)
            
            state = next_state
            total_reward += reward
            step += 1
        
        # 计算回报和优势
        next_value = torch.zeros(1, 1).to(device) if done else self.network.act(state)[2]
        advantages = self.compute_gae(rewards, masks, values, next_value)
        returns = advantages + torch.cat(values)
        
        # 处理形状
        advantages = advantages.detach()
        values = torch.cat(values)
        log_probs = torch.cat(log_probs)
        
        # 计算Actor和Critic损失
        actor_loss = -(log_probs * advantages).mean()
        critic_loss = F.mse_loss(values, returns)
        
        # 总损失
        loss = actor_loss + 0.5 * critic_loss
        
        # 优化网络
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        return total_reward
    
    def compute_gae(self, rewards, masks, values, next_value):
        """计算广义优势估计(GAE)"""
        values = torch.cat(values + [next_value])
        gae = 0
        returns = []
        
        for step in reversed(range(len(rewards))):
            delta = rewards[step] + self.gamma * values[step + 1] * masks[step] - values[step]
            gae = delta + self.gamma * self.gae_lambda * masks[step] * gae
            returns.insert(0, gae + values[step])
        
        returns = torch.cat([r.detach() for r in returns])
        advantages = returns - torch.cat(values[:-1])
        
        return advantages

# 训练函数
def train_a2c(env_name="CartPole-v1", num_episodes=1000, hidden_size=128, lr=3e-4, gamma=0.99):
    """训练A2C智能体"""
    # 创建环境
    env = gym.make(env_name)
    
    # 获取状态和动作空间大小
    if isinstance(env.observation_space, gym.spaces.Discrete):
        state_size = env.observation_space.n
    else:
        state_size = env.observation_space.shape[0]
    
    action_size = env.action_space.n
    
    # 创建智能体
    agent = A2C(state_size, action_size, hidden_size, lr, gamma)
    
    # 训练日志
    scores = []
    
    for i_episode in range(1, num_episodes+1):
        score, actor_loss, critic_loss = agent.train_episode(env)
        scores.append(score)
        
        # 打印训练进度
        if i_episode % 100 == 0:
            avg_score = np.mean(scores[-100:])
            print(f"Episode {i_episode}/{num_episodes} | Average Score: {avg_score:.2f}")
    
    return agent, scores

# 比较不同方差优化技术的函数
def compare_variance_reduction_techniques(env_name="CartPole-v1", num_episodes=1000):
    """比较不同的方差优化技术"""
    # 创建环境
    env = gym.make(env_name)
    
    # 获取状态和动作空间大小
    if isinstance(env.observation_space, gym.spaces.Discrete):
        state_size = env.observation_space.n
    else:
        state_size = env.observation_space.shape[0]
    
    action_size = env.action_space.n
    
    # 超参数
    hidden_size = 128
    lr = 3e-4
    gamma = 0.99
    
    # 创建智能体
    reinforce_agent = REINFORCE(state_size, action_size, hidden_size, lr, gamma)
    reinforce_baseline_agent = REINFORCEWithBaseline(state_size, action_size, hidden_size, lr, gamma)
    a2c_agent = A2C(state_size, action_size, hidden_size, lr, gamma)
    a2c_gae_agent = A2C_GAE(state_size, action_size, hidden_size, lr, gamma)
    
    # 训练日志
    reinforce_scores = []
    baseline_scores = []
    a2c_scores = []
    gae_scores = []
    
    # 训练轮数
    num_episodes = 500  # 减少轮数以节省时间
    
    # 训练REINFORCE
    print("训练REINFORCE...")
    for i_episode in range(1, num_episodes+1):
        score = reinforce_agent.train_episode(env)
        reinforce_scores.append(score)
        if i_episode % 100 == 0:
            print(f"Episode {i_episode}/{num_episodes}")
    
    # 训练带基线的REINFORCE
    print("\n训练带基线的REINFORCE...")
    for i_episode in range(1, num_episodes+1):
        score = reinforce_baseline_agent.train_episode(env)
        baseline_scores.append(score)
        if i_episode % 100 == 0:
            print(f"Episode {i_episode}/{num_episodes}")
    
    # 训练A2C
    print("\n训练A2C...")
    for i_episode in range(1, num_episodes+1):
        score, _, _ = a2c_agent.train_episode(env)
        a2c_scores.append(score)
        if i_episode % 100 == 0:
            print(f"Episode {i_episode}/{num_episodes}")
    
    # 训练带GAE的A2C
    print("\n训练带GAE的A2C...")
    for i_episode in range(1, num_episodes+1):
        score = a2c_gae_agent.train_episode(env)
        gae_scores.append(score)
        if i_episode % 100 == 0:
            print(f"Episode {i_episode}/{num_episodes}")
    
    # 绘制对比图
    plt.figure(figsize=(12, 8))
    
    # 计算滑动平均
    def smooth(data, window=50):
        """计算滑动平均"""
        return np.convolve(data, np.ones(window)/window, mode='valid')
    
    # 绘制滑动平均得分
    plt.plot(smooth(reinforce_scores), label='REINFORCE')
    plt.plot(smooth(baseline_scores), label='REINFORCE with Baseline')
    plt.plot(smooth(a2c_scores), label='A2C')
    plt.plot(smooth(gae_scores), label='A2C with GAE')
    
    plt.xlabel('Episode')
    plt.ylabel('Score')
    plt.title(f'Performance Comparison of Variance Reduction Techniques on {env_name}')
    plt.legend()
    plt.grid(True)
    plt.savefig('variance_reduction_comparison.png')
    plt.show()
    
    # 打印最终性能
    print("\n最终性能（最后100个回合的平均得分）:")
    print(f"REINFORCE: {np.mean(reinforce_scores[-100:]):.2f}")
    print(f"REINFORCE with Baseline: {np.mean(baseline_scores[-100:]):.2f}")
    print(f"A2C: {np.mean(a2c_scores[-100:]):.2f}")
    print(f"A2C with GAE: {np.mean(gae_scores[-100:]):.2f}")
    
    return reinforce_scores, baseline_scores, a2c_scores, gae_scores

# 主函数
if __name__ == "__main__":
    # 比较不同的方差优化技术
    reinforce_scores, baseline_scores, a2c_scores, gae_scores = compare_variance_reduction_techniques()

2.6 近端策略优化(PPO)：当前最流行的方差优化算法

PPO (Proximal Policy Optimization) 是目前最流行的策略梯度算法之一，特别是在实际应用中。它结合了置信区间策略优化 (TRPO) 的稳定性和实现简便性，是一种高效的方差优化方法。

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.distributions import Categorical
import numpy as np
import gymnasium as gym
import matplotlib.pyplot as plt
from torch.utils.data import Dataset, DataLoader

# 设置随机种子
seed = 42
torch.manual_seed(seed)
np.random.seed(seed)

# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# PPO的Actor-Critic网络
class PPOActorCritic(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=64):
        super(PPOActorCritic, self).__init__()
        
        # 共享特征提取层
        self.fc1 = nn.Linear(state_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        
        # Actor网络（策略）
        self.actor = nn.Linear(hidden_size, action_size)
        
        # Critic网络（值函数）
        self.critic = nn.Linear(hidden_size, 1)
    
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        
        # Actor: 输出动作概率
        action_probs = F.softmax(self.actor(x), dim=-1)
        
        # Critic: 输出状态值
        state_values = self.critic(x)
        
        return action_probs, state_values
    
    def act(self, state):
        """根据状态选择动作并返回相关值"""
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        action_probs, state_value = self.forward(state)
        
        # 从动作概率分布中采样
        m = Categorical(action_probs)
        action = m.sample()
        
        return action.item(), m.log_prob(action), state_value, action_probs

    def evaluate(self, state, action):
        """评估已选择的动作"""
        action_probs, state_value = self.forward(state)
        
        m = Categorical(action_probs)
        log_prob = m.log_prob(action)
        entropy = m.entropy()
        
        return log_prob, state_value, entropy

# 经验回放数据集
class PPODataset(Dataset):
    def __init__(self, states, actions, old_log_probs, returns, advantages):
        self.states = states
        self.actions = actions
        self.old_log_probs = old_log_probs
        self.returns = returns
        self.advantages = advantages
    
    def __len__(self):
        return len(self.states)
    
    def __getitem__(self, idx):
        return (
            self.states[idx],
            self.actions[idx],
            self.old_log_probs[idx],
            self.returns[idx],
            self.advantages[idx]
        )

# PPO算法
class PPO:
    def __init__(self, state_size, action_size, hidden_size=64, lr=3e-4, gamma=0.99, 
                gae_lambda=0.95, clip_ratio=0.2, target_kl=0.01, entropy_coef=0.01, 
                value_coef=0.5, max_grad_norm=0.5, update_epochs=4, batch_size=64):
        """
        PPO算法实现
        
        Args:
            state_size: 状态空间大小
            action_size: 动作空间大小
            hidden_size: 隐藏层大小
            lr: 学习率
            gamma: 折扣因子
            gae_lambda: GAE参数
            clip_ratio: PPO剪切参数，用于限制策略更新
            target_kl: 目标KL散度，用于早停
            entropy_coef: 熵正则化系数
            value_coef: 值函数损失系数
            max_grad_norm: 梯度裁剪阈值
            update_epochs: 每次更新的epoch数
            batch_size: 批次大小
        """
        self.gamma = gamma
        self.gae_lambda = gae_lambda
        self.clip_ratio = clip_ratio
        self.target_kl = target_kl
        self.entropy_coef = entropy_coef
        self.value_coef = value_coef
        self.max_grad_norm = max_grad_norm
        self.update_epochs = update_epochs
        self.batch_size = batch_size
        
        # Actor-Critic网络
        self.policy = PPOActorCritic(state_size, action_size, hidden_size).to(device)
        
        # 优化器
        self.optimizer = optim.Adam(self.policy.parameters(), lr=lr)
    
    def compute_gae(self, rewards, values, masks, next_value):
        """计算广义优势估计(GAE)"""
        values = values + [next_value]
        advantages = []
        gae = 0
        
        for step in reversed(range(len(rewards))):
            delta = rewards[step] + self.gamma * values[step + 1] * masks[step] - values[step]
            gae = delta + self.gamma * self.gae_lambda * masks[step] * gae
            advantages.insert(0, gae)
        
        returns = [adv + val for adv, val in zip(advantages, values[:-1])]
        
        return advantages, returns
    
    def collect_rollouts(self, env, num_steps=2048):
        """收集轨迹数据"""
        states = []
        actions = []
        log_probs = []
        rewards = []
        values = []
        masks = []
        
        state, _ = env.reset()
        done = False
        episode_reward = 0
        
        for _ in range(num_steps):
            # 选择动作
            action, log_prob, value, _ = self.policy.act(state)
            
            # 存储状态、动作等信息
            states.append(state)
            actions.append(action)
            log_probs.append(log_prob.detach())
            values.append(value.detach().item())
            
            # 执行动作
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            masks.append(1 - done)
            rewards.append(reward)
            
            episode_reward += reward
            
            # 更新状态
            state = next_state
            
            # 如果回合结束，重置环境
            if done:
                state, _ = env.reset()
                done = False
        
        # 如果最后一步没有结束，计算下一个状态的值
        if not done:
            _, _, next_value, _ = self.policy.act(state)
            next_value = next_value.detach().item()
        else:
            next_value = 0
        
        # 计算优势和回报
        advantages, returns = self.compute_gae(rewards, values, masks, next_value)
        
        # 转换为tensor
        states = torch.FloatTensor(states).to(device)
        actions = torch.LongTensor(actions).to(device)
        old_log_probs = torch.cat(log_probs).to(device)
        advantages = torch.FloatTensor(advantages).to(device)
        returns = torch.FloatTensor(returns).to(device)
        
        # 标准化优势
        advantages = (advantages - advantages.mean()) / (advantages.std() + 1e-8)
        
        return states, actions, old_log_probs, returns, advantages, episode_reward
    
    def update_policy(self, states, actions, old_log_probs, returns, advantages):
        """更新策略和值函数"""
        # 创建数据集和数据加载器
        dataset = PPODataset(states, actions, old_log_probs, returns, advantages)
        dataloader = DataLoader(dataset, batch_size=self.batch_size, shuffle=True)
        
        # 多个epoch的训练
        for _ in range(self.update_epochs):
            # 跟踪KL散度
            approx_kl_divs = []
            
            for state, action, old_log_prob, return_, advantage in dataloader:
                # 计算新的log概率、熵和值估计
                new_log_prob, value, entropy = self.policy.evaluate(state, action)
                
                # 计算比率 r(θ) = π_θ(a|s) / π_θ_old(a|s)
                ratio = torch.exp(new_log_prob - old_log_prob)
                
                # 计算裁剪的目标函数
                obj1 = ratio * advantage
                obj2 = torch.clamp(ratio, 1.0 - self.clip_ratio, 1.0 + self.clip_ratio) * advantage
                policy_loss = -torch.min(obj1, obj2).mean()
                
                # 计算值函数损失
                value_loss = F.mse_loss(value.squeeze(-1), return_)
                
                # 计算熵奖励
                entropy_loss = -entropy.mean()
                
                # 总损失
                loss = policy_loss + self.value_coef * value_loss + self.entropy_coef * entropy_loss
                
                # 优化网络
                self.optimizer.zero_grad()
                loss.backward()
                nn.utils.clip_grad_norm_(self.policy.parameters(), self.max_grad_norm)
                self.optimizer.step()
                
                # 计算近似KL散度
                approx_kl = (old_log_prob - new_log_prob).mean().item()
                approx_kl_divs.append(approx_kl)
            
            # 如果KL散度太大，提前停止更新
            avg_kl = np.mean(approx_kl_divs)
            if avg_kl > self.target_kl * 1.5:
                print(f"Early stopping at epoch due to reaching max KL: {avg_kl:.4f}")
                break
    
    def train(self, env_name, num_episodes=1000, steps_per_epoch=2048, max_steps=1000000):
        """训练PPO智能体"""
        # 创建环境
        env = gym.make(env_name)
        
        # 训练日志
        scores = []
        avg_scores = []
        
        # 总步数计数
        total_steps = 0
        episode_count = 0
        
        while total_steps < max_steps and episode_count < num_episodes:
            # 收集轨迹数据
            states, actions, old_log_probs, returns, advantages, episode_reward = self.collect_rollouts(env, steps_per_epoch)
            total_steps += steps_per_epoch
            episode_count += 1
            
            # 更新策略
            self.update_policy(states, actions, old_log_probs, returns, advantages)
            
            # 记录和打印进度
            scores.append(episode_reward)
            avg_score = np.mean(scores[-100:]) if len(scores) >= 100 else np.mean(scores)
            avg_scores.append(avg_score)
            
            if episode_count % 10 == 0:
                print(f"Episode {episode_count}/{num_episodes} | Total steps: {total_steps} | " \
                      f"Episode reward: {episode_reward:.2f} | Average score: {avg_score:.2f}")
        
        return scores, avg_scores
    
    def evaluate(self, env_name, num_episodes=10, render=False):
        """评估训练好的PPO智能体"""
        # 创建环境
        env = gym.make(env_name, render_mode='human' if render else None)
        
        # 评估日志
        scores = []
        
        for _ in range(num_episodes):
            state, _ = env.reset()
            done = False
            episode_reward = 0
            
            while not done:
                # 选择动作（确定性，取概率最高的动作）
                with torch.no_grad():
                    state_tensor = torch.FloatTensor(state).unsqueeze(0).to(device)
                    action_probs, _ = self.policy(state_tensor)
                    action = torch.argmax(action_probs, dim=1).item()
                
                # 执行动作
                next_state, reward, terminated, truncated, _ = env.step(action)
                done = terminated or truncated
                
                episode_reward += reward
                state = next_state
                
                if render:
                    env.render()
            
            scores.append(episode_reward)
        
        return np.mean(scores), np.std(scores)

# 示例用法
if __name__ == "__main__":
    # 训练PPO智能体
    env_name = "CartPole-v1"
    
    # 创建PPO智能体
    state_size = gym.make(env_name).observation_space.shape[0]
    action_size = gym.make(env_name).action_space.n
    
    ppo_agent = PPO(state_size, action_size, hidden_size=64, lr=3e-4, gamma=0.99,
                   gae_lambda=0.95, clip_ratio=0.2, target_kl=0.01, entropy_coef=0.01,
                   value_coef=0.5, max_grad_norm=0.5, update_epochs=4, batch_size=64)
    
    # 训练智能体
    scores, avg_scores = ppo_agent.train(env_name, num_episodes=100, steps_per_epoch=2048)
    
    # 绘制训练曲线
    plt.figure(figsize=(12, 6))
    plt.plot(scores, alpha=0.6, label='Episode Reward')
    plt.plot(avg_scores, label='Average Reward (100 episodes)')
    plt.xlabel('Episode')
    plt.ylabel('Reward')
    plt.title('PPO Training on CartPole-v1')
    plt.legend()
    plt.grid(True)
    plt.savefig('ppo_training.png')
    plt.show()
    
    # 评估智能体
    mean_score, std_score = ppo_agent.evaluate(env_name, num_episodes=10)
    print(f"Evaluation: Mean Score = {mean_score:.2f} ± {std_score:.2f}")
    
    # 可视化智能体行为（可选）
    # ppo_agent.evaluate(env_name, num_episodes=3, render=True)

2.7 方差优化策略的对比分析

2.7.1 各种方差优化技术的理论对比

2.7.2 改进方差的数学原理

策略梯度估计的方差主要来源于奖励信号和采样过程。我们可以从数学上分析不同方法如何减少方差：

基线减法：如果定义 $A (s, a) = Q (s, a) - b (s)$ ，我们可以证明只要基线 $b (s)$ 只依赖于状态 $s$ ，引入基线不会改变梯度的期望，但会减小方差：

$\text{Var}[\nabla_\theta \log \pi_\theta(a|s) \cdot (Q(s,a) - b(s))] \leq \text{Var}[\nabla_\theta \log \pi_\theta(a|s) \cdot Q(s,a)]$

当 $V^\pi(s)$ 时，方差减少最多。
时序差分学习：使用TD误差替代完整的折扣回报可以显著减少方差，因为它限制了估计的范围：

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$

相比于回报 $G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}$ ，TD误差的方差通常小得多。
λ回报：GAE通过λ参数平衡偏差和方差：

$A^{GAE(\gamma, \lambda)}(s_t, a_t) = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$
- λ = 0: 单步TD估计，低方差但高偏差
- λ = 1: 蒙特卡洛估计，无偏但高方差
- 0 < λ < 1: 两者之间的平衡
置信域约束：TRPO和PPO通过限制每次更新的"步长"来避免过大的策略变化，这间接减小了方差：

PPO的目标函数：

$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min(r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t) \right]$

其中 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 是重要性采样比率。通过剪切这个比率，PPO确保新策略不会与旧策略相差太远，从而提高训练稳定性。

熵正则化：添加策略的熵作为正则项，可以防止策略过早收敛到次优解，间接减少最终性能的方差：

$L(\theta) = \mathbb{E}[\sum_t \log \pi_\theta(a_t|s_t) A_t] + \beta H[\pi_\theta]$

其中 $H[\pi_\theta] = -\mathbb{E}_{a \sim \pi_\theta}[\log \pi_\theta(a|s)]$ 是策略的熵， $\beta$ 是一个控制熵正则化强度的超参数。

2.7.3 实验性能对比分析

在不同环境中，各种方差优化技术的性能并不相同。下面是一些典型环境中的比较：

离散动作环境（如CartPole-v1）：
- REINFORCE通常能够解决问题，但训练不稳定
- 带基线的REINFORCE收敛更快，性能更稳定
- A2C和PPO能够更快地收敛到更高的平均奖励
连续动作环境（如MuJoCo任务）：
- 原始REINFORCE在这些任务上往往失败
- A2C在简单任务上表现尚可
- PPO和SAC（Soft Actor-Critic）在复杂任务上表现最佳
高维状态空间（如图像输入的Atari游戏）：
- 所有算法都需要卷积神经网络处理输入
- A2C和PPO是这类任务的常用选择
- 带基线的REINFORCE很难在这些任务上收敛

2.8 实践中的选择与调优建议

根据不同的应用场景和要求，我们可以给出以下实用建议：

2.8.1 算法选择指南

场景	推荐算法	原因
入门学习	REINFORCE、A2C	实现简单，概念清晰
离散动作问题	PPO	稳定性好，超参数敏感度低
连续动作问题	PPO、SAC	样本效率高，性能稳定
稀疏奖励环境	PPO+内在奖励	更好的探索能力
计算资源有限	A2C	计算开销较小
需要最高性能	PPO、TD3	性能上限较高

2.8.2 超参数调优策略

策略梯度方法的超参数调优关键在于平衡探索和利用、控制更新步长：

学习率：
- 较大学习率（~1e-3）适合初期快速学习
- 较小学习率（~1e-4）适合后期精细调整
- 学习率衰减可以提高稳定性
折扣因子 γ：
- 较小的γ（~0.9）更关注近期奖励，适合短视野任务
- 较大的γ（~0.99）更看重长期回报，适合需要长远规划的任务
GAE的λ参数：
- 较小的λ（~0.9）减少方差但增加偏差
- 较大的λ（~0.99）减少偏差但增加方差
- 一般默认值0.95适用于大多数任务
PPO的剪切比率ε：
- 较小的ε（~0.1）更保守，训练更稳定但可能进展慢
- 较大的ε（~0.3）更激进，训练可能更快但风险更高
- 默认值0.2通常是个不错的平衡点

2.8.3 实际调优流程

在实际应用中，建议遵循以下调优流程：

从基线开始：使用已验证的默认参数设置开始（如PPO的推荐参数）
单变量调优：每次只调整一个参数，观察其影响
从关键参数开始：优先调整学习率、GAE的λ和剪切比率
使用网格搜索或贝叶斯优化：系统性地探索超参数空间
多次运行取平均：由于随机性，每组参数应运行多次取平均评估

2.9 策略梯度在复杂环境中的应用

策略梯度方法已在多个复杂环境中展现出强大能力，一些经典应用包括：

机器人控制：PPO成功应用于四足机器人的步态学习，实现了在复杂地形上的稳健行走
游戏AI：A3C和PPO在Atari游戏和星际争霸等复杂游戏中取得了超越人类水平的成绩
自动驾驶：模拟环境中的自动驾驶策略训练，处理各种复杂交通场景
自然语言处理：使用强化学习微调语言模型，优化特定目标（如减少有害输出）

这些成功应用的共同点是利用了各种方差优化技术，使训练过程更加稳定和高效。

2.10 总结

策略梯度方法从简单的REINFORCE发展到现在的PPO、SAC等先进算法，方差优化一直是核心研究方向。通过引入基线、优势函数、重要性采样剪切等技术，现代策略梯度算法大大提高了样本效率和训练稳定性。

清华大学全五版的《DeepSeek教程》完整的文档需要的朋友，关注我私信：deepseek 即可获得。

怎么样今天的内容还满意吗？再次感谢朋友们的观看，关注GZH：凡人的AI工具箱，回复666，送您价值199的AI大礼包。最后，祝您早日实现财务自由，还请给个赞，谢谢！

你可能感兴趣的:(深度学习,pytorch,学习,人工智能,自动化,python)

组合导航系统重新定义低成本定位方案 EriccoShaanxi 技术文章无人机人工智能
在自动化、无人系统和精准农业等领域，高精度导航是核心需求，但传统高端组合导航系统的高成本往往让许多用户望而却步。ER-GNSS/MINS-05作为一款低成本组合导航系统，通过技术优化与精准性能平衡，以更经济的价格提供厘米级定位、0.03m/s测速精度以及0.1°实时航向精度，满足无人飞行器、智能无人车辆、路基定位定向等多样化场景需求，真正实现“高性能”与“低成本”的兼得。深度融合，精准导航ER-G
Python 3.11.6 Windows 64位版安装程序下载：轻松上手Python最新版本惠凯忱Montague
Python3.11.6Windows64位版安装程序下载：轻松上手Python最新版本去发现同类优质开源项目:https://gitcode.com/项目介绍在编程领域，Python无疑是一种极为流行且强大的编程语言。Python3.11.6Windows64位版安装程序的推出，为Windows用户提供了官方最新版本的安装便利。这个版本不仅包含了许多优化和新特性，而且确保了在64位Windows
【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用 Jackilina_Stone #Deep Learning 【改进】YOLO系列 YOLO 人工智能 python 计算机视觉深度学习
目录一ultralytics公司的最新作品YOLOV111yolov11的创新2安装YOLOv113PYTHONGuide二训练三验证四推理五导出模型六使用文档：https://docs.ultralytics.com/models/yolo11/代码链接：https://github.com/ultralytics/ultralyticsPerformanceMetrics
python中常用函数表_Python列表中几个常用函数总结 weixin_39934613 python中常用函数表
1、append()方法用于在列表末尾添加新的对象。语法：list.append(obj)参数：list定义的列表obj所要添加到列表的对象例：list=['Microsoft','Amazon','Geogle']list.append('Apple')print(list)显示结果为：['Microsoft','Amazon','Geogle','Apple']2、extend()函数用于在列
Python 与面向对象编程（OOP） lanbing 面向对象（OOP）python 开发语言面向对象
Python是一种支持面向对象编程（OOP）的多范式语言，其OOP实现简洁灵活，但在某些设计选择上与传统OOP语言（如Java、C#）存在显著差异。以下是Python面向对象编程的核心特性、优势和局限性的全面解析：一、Python的OOP核心特性1.万物皆对象Python中所有数据类型（如整数、字符串）均为对象，继承自object基类。函数、模块、异常等也都是对象，可以赋值、传递或动态修改。例如n
【学习】微信小程序开发指南：从零开始的完整实践小程序
前言微信小程序作为腾讯推出的轻量级应用平台，自2017年正式发布以来，已经成为移动互联网生态中不可或缺的一部分。小程序具有"用完即走"的特点，无需下载安装，通过微信即可使用，为用户提供了便捷的服务体验，也为开发者提供了新的应用分发渠道。本文将从零开始，详细介绍微信小程序的开发流程，包括环境搭建、基础语法、核心功能实现、发布上线等各个环节，帮助初学者快速掌握小程序开发技能。一、微信小程序概述（一）什
【Python】Python —— 列表 (文末附思维导图）
Python——列表1定义用于存储任意数目、任意类型的数据集合。List（列表）是Python内置的一种数据类型。标准语法格式：1.a=[10,20,30,40]2.a=[10,20,‘abc’,True]是一种有序的集合，可以随时增加或删除其中的元素。标识是中括号[]。2创建2.1基本语法创建a=[10,20,'yangyaqi','石家庄学院',True]a[10,20,‘yangyaqi’,
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
RAG实战指南 Day 2：RAG开发环境搭建与工具选择在未来等你 RAG实战指南 RAG 向量检索 LLM AI开发知识库
【RAG实战指南Day2】RAG开发环境搭建与工具选择开篇欢迎来到"RAG实战指南"系列的第2天！今天我们将聚焦RAG系统的开发环境搭建和工具选择，这是构建高效RAG应用的基础。一个合理的开发环境和工具链不仅能提升开发效率，还能确保系统的稳定性和扩展性。通过本文，你将掌握如何从零开始搭建RAG开发环境，了解主流工具的选择策略，并通过实际案例学习如何将这些工具组合起来构建完整的RAG工作流。理论基础
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
python源码编译安装和常见问题解决运维天坑笔记 python 开发语言 linux
python编译安装1、下载源码包wgethttps://www.python.org/ftp/python/3.9.10/Python-3.9.10.tgztar-zxfPython-3.9.10.tgzcdpython39/2、编译安装./configure--prefix=/usr/local/python39--enable-shared--enable-optimizationsmake
通义灵码+DeepSeek：国产代码生成王炸组合，带你飞！
引言在人工智能飞速发展的当下，AI代码生成工具如雨后春笋般涌现，为开发者们带来了前所未有的编程体验。其中，国产的通义灵码结合DeepSeek模型异军突起，成为众多开发者关注的焦点。它们凭借强大的功能和出色的表现，在代码生成领域崭露头角，不仅提升了开发效率，还为编程工作流注入了新的活力。然而，如同任何新兴技术一样，在使用过程中也会遇到各种问题和挑战。本文将通过实测，深入剖析通义灵码与DeepSeek
Python语法笔记 XiTang1 python 笔记开发语言
Python的基本语法1.计算机相关的名词知识1.1计算机的组成计算机之父：冯.诺依曼，根据冯.诺依曼结构体系，计算机是分为5部分的1.输入设备把信息传递到计算机中，比如键盘、鼠标2.输出设备信息从计算机中传递出来，比如音响、显示器、打印机等等3.存储区计算机被发明出来就是用于数据的存储和计算的计算机上有两个存储数据的设备：内存、硬盘硬盘：电脑上的磁盘分区，存储在硬盘中的数据都是持久化存储【只要不
Python编程：实现文件比对倔强老吕 C++与python交互编程 python 哈希算法
Python提供了多个用于文件比对的库，适用于不同的比较场景。以下是主要的文件比对库及其特点：1.标准库中的比对工具1.1filecmp模块功能：文件和目录比较特点：比较文件内容（浅层和深层比较）比较目录结构内置dircmp类用于目录比较典型用途：importfilecmp#文件比较filecmp.cmp('file1.txt','file2.txt',shallow=False)#目录比较com
Python, C ++,C #开发全球英才阐教版集结令APP Geeker-2025 python c++c语言
以下是为使用**Python、C++和C#**开发**全球英才(阐教版)集结令APP**的深度技术方案，融合三语言优势构建跨平台、高智能的玄门英才聚合系统：---###一、系统架构设计```mermaidgraphTDA[多端客户端]-->B{C#阐道引擎}B-->C[C++玄法核心]C-->D[Python慧识层]D-->E[AI英才匹配]C-->F[天机推演]B-->G[三界通信]G-->H[
Python, Rust 开发教育/医疗/文化资源去中心化分配APP Geeker-2025 python rust
以下是为教育、医疗、文化资源设计的**去中心化分配APP**的完整技术方案，结合Python的灵活性和Rust的高性能与安全性，实现公平透明的资源分配：---###系统架构设计```mermaidgraphTDA[用户终端]-->B[区块链网络]A-->C[分配引擎]B-->D[智能合约]C-->E[资源数据库]D-->F[分配记录]subgraph技术栈C-.Rust.->G[核心分配算法]D-
Python, Go 开发客户服务软件APP Geeker-2025 python golang
以下是一个结合Python和Go开发的**客户服务软件APP**的完整技术方案，充分利用Python的AI能力和Go的高并发特性，构建高性能、智能化的客户服务系统：---###系统架构设计```mermaidgraphTDA[客户端]-->B[GoAPI网关]B-->C[工单管理]B-->D[实时聊天]B-->E[知识库]B-->F[AI引擎]C-->G[工单数据库]D-->H[消息队列]F-->
基于nodejs+vue.js服装商店电子商务管理系统
如果你是一个小白,你不懂得像javaPHP、Python等编程语言，那么Node.js是一个非常好的选择。采用vscode软件开发,配套软件安装.包安装调试部署成功,有视频讲解前端:html+vue+elementui+jQuery、js、css数据库：mysql,Navicatvue框架于Node运行环境的Web框架,随着互联网技术的飞速发展，世界逐渐成了一个地球村，空间的距离也不再是那么重要。
《Effective Python》第十一章性能——延迟加载模块，通过动态导入减少 Python 程序启动时间不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第11章:性能中的Item98：Lazy-LoadModuleswithDynamicImportstoReduceStartupTime。本文旨在总结书中关于延迟加载模块的核心观点，并结合我自己的开发经验，深入探讨其在实际项目中的应用场景与优化价值。Pytho
「日拱一码」010 Python常用库——statistics 胖达不服输「日拱一码」python python常用库 statistics
目录平均值相关mean()：计算算术平均值，即所有数值相加后除以数值的个数fmean()：与mean()类似，但使用浮点运算，速度更快，精度更高geometric_mean()：计算几何平均值，即所有数值相乘后开n次方根（n为数值的个数）harmonic_mean()：计算调和平均值，即数值个数除以每个数值的倒数之和median()：计算中位数，即将一组数值按大小顺序排列后位于中间的数。如果数值个
「日拱一码」013 Python常用库——Numpy 胖达不服输「日拱一码」python numpy 常用库
目录数组创建numpy.array：创建一个ndarray对象numpy.zeros：创建一个指定形状和数据类型的全零数组numpy.ones：创建一个指定形状和数据类型的全1数组numpy.empty：创建一个指定形状和数据类型的未初始化数组。其元素值是随机的，取决于内存中的初始状态numpy.arange：类似于Python内置的range函数，但返回的是ndarraynumpy.linspa
python日记Day17——Pandas之Excel处理石石石大帅 Python笔记 excel python 数据分析
python日记——Pandas之Excel处理创建文件importpandasaspddf=pd.DataFrame({'ID':[1,2,3],'Name':['Tom','BOb','Gigi']})df.to_excel("C:/Temp/Output.xlsx")print("done!")读取文件importpandasaspdpeople=pd.read_excel("C:/Temp
FinalShell 4：Linux系统SSH连接与远程管理工具应用指南虾仁芝麻卷
本文还有配套的精品资源，点击获取简介：FinalShell4是专为Linux系统打造的集成化远程管理工具，以其强大的SSH连接功能著称，支持多种操作系统平台。该软件集成了丰富的终端模拟、会话管理、文件传输和性能优化等特性，提高了IT运维的效率和安全性。其内置的脚本支持和实时监控功能进一步加强了服务器管理的自动化和便捷性，使其成为IT专业人员的得力助手。1.SSH连接与安全远程操作SSH（Secur
尚未调用 CoInitialize 问题解决
在线程开头处添加即可importpythoncompythoncom.CoInitialize()执行完成需要用pythoncom.CoUninitialize释放资源
机器学习：集成算法的装袋法（Bagging）：随机森林（Random Forest） rubyw #概念及理论机器学习算法随机森林
随机森林（RandomForest）是一种集成学习方法，通过构建多个决策树并结合其预测结果来提升模型的性能和稳定性。它由LeoBreiman于2001年提出，广泛应用于分类和回归任务。以下是随机森林的详细介绍，包括其基本概念、构建过程、优缺点及应用场景。基本概念随机森林是一种基于决策树的集成算法，通过生成多棵决策树，并将这些树的预测结果结合起来，以提高整体模型的预测准确性和稳定性。每棵决策树都是在
计算机网络基础知识+学习路线早起的小懒虫计算机网络网络
计算机网络是一种将多个计算机设备通过通信线路连接在一起，使其能够相互传输数据和共享资源的技术和设施。1.基础知识学习计算机网络需要了解计算机硬件、操作系统、编程语言等基础知识。计算机硬件：计算机硬件包括中央处理器（CPU）、存储器、输入输出设备等。CPU是计算机的核心，负责执行程序和控制计算机的各种操作。存储器主要有随机存储器（RAM）和只读存储器（ROM），用于存储数据和程序。输入输出设备包括键
uni-app 多端开发中 AI 的集成与适配：一次开发，智能多端运行欧阳天羲大前端与 AI 的深度融合 #AI 与大前端框架结合篇 uni-app 人工智能前端
一、引言：uni-app与AI多端集成的背景在当今跨平台开发趋势下，uni-app凭借"一次编写，多端运行"的特性成为企业级应用开发的首选框架之一。随着人工智能技术的普及，将AI能力集成到多端应用中已成为提升用户体验的关键需求。然而，小程序、APP、Web等不同端的运行环境差异显著，如何实现AI功能的统一集成与高效适配成为开发难点。本文将系统讲解在uni-app框架中集成AI能力的完整方案，涵盖跨
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
【常见问题】Python自动化办公，打开输出的word文件，报错AttributeError: module ‘win32com.gen_py.00020905-0000-0000-
Python自动化办公，打开输出的word文件，出现ERROR：File"D:\Develop\Building_save_energy\BuildingDiagnoseRenovationTool.py",line2930,inopen_docdoc_app=win32.gencache.EnsureDispatch('Word.Application')File"C:\Users\Jay\.c
森林的智慧：随机森林与集成学习的民主之道田园Coder 人工智能科普人工智能科普
当约阿夫·弗罗因德和罗伯特·沙皮尔提出的AdaBoost算法在90年代末期以其强大的预测精度震惊机器学习界，展示了“团结弱者为强者”的集成魅力时，另一种集成思想也在悄然孕育。这种思想同样信奉“众人拾柴火焰高”，但走的是一条与AdaBoost截然不同的路径：它不执着于反复调整数据权重去“关注”被前序模型分错的困难样本，而是致力于创造尽可能多样化的模型，然后让这些模型平等地投票。它的核心哲学是：如果每
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l