燕双嘤

强化学习：确定性策略梯度（DDPG）

1，确定性策略梯度

1.1，基本概念

随机性策略梯度算法被广泛应用于解决大型动作空间或者连续动作空间的强化学习问题。其基本思想是将策略表示成以 $\theta$ 为参数的策略函数 $\pi_{\theta}(a|s)=p(a|s,\theta)$ 。基于采样数据，通过调整参数 $\theta$ 使得最终的累计回报最大。即：通过一个概率分布函数 $\pi_{\theta}(a|s)$ ，来表示每一步的最优策略，在每一步根据该概率分布进行行为采样，获得当前的最佳行为取值；生成行为过程，本质上是一个随机过程；最后学习到的策略也是一个随机策略。

使用确定性策略的主要原因是随机策略梯度方法有以下缺陷：

即使通过随机策略梯度学习到了随机策略，在每一步行为时，还需要对得到的最优策略概率分布进行采样，才能获得行为的具体值；而行为通常是高维的向量，如20维，50维，在高维的行为空间频繁采样，是很耗费计算能力的。

在随机策略梯度的学习过程中，每一步计算策略梯度都需要在整个行为空间进行积分，同样很耗费计算能力。

$\triangledown _{\theta}J(\theta)=E_{s\sim u,a\sim \pi}\left [ \triangledown _{\theta}\,log\pi_{\theta}(a|s,\theta)\, Q_{\pi}(s,a) \right ]$

由于公式可见其是关于状态和动作的期望，在求期望时，需要对状态分布和动作分布进行积分。这就要求在状态空间和动作空间采集大量的样本，这样得到的均值才能近似期望。

而确定性策略的动作是确定的，所以在确定性策略梯度存在的情况下，对确定性策略梯度的求解不需要在动作空间进行采样积分。因此，相比于随机策略方法，确定性策略需要的样本数据要小，确定性策略方法的效率比随机策略的效率高很多，这也是确定性策略方法的主要优点。

1.2，确定性策略梯度定理

整个确定性策略梯度方法沿用了行动者-评论家学习框架，评论家（Critie）使用可微近似函数估计行为值函数，行动者（Actor）朝着行为值函数梯度方向更新策略参数。在引入AC框架之前，大多数无模型强化学习算法都是基于广义策略迭代框架，将策略评估与策略改进相结合求解最优值。其中，策略评估方法通过蒙特卡罗评估或者时序差分方法学习行为值函数 $Q_{\pi}(s,a)$ 或 $Q_{\mu}(s,a)$ 。策略改进方法根据（估计的）行动价值函数更新策略，最常见的方法是使用贪心算法最大化动作值函数 $\mu_{k+1}(s)=arg\, max\, Q_{\mu}(s,a)$ 。在连续行为空间场景下，针对每个状态求取最大行为值函数不切实际。很多研究者想到是否可以让策略朝着行为值函数梯度的方向进行更新，这是一个相对简单、计算量相对较小的替代性方案。具体来说，就是针对每个访问状态  ，让策略参数 $\theta_{k+1}$ 按比例朝着值函数梯度 $\triangledown _{\theta}Q_{\mu_{k}}(s,\mu_{\theta}(s))$ 方向更新。每个状态  都可以计算出不同的更新量，最终的更新总量就是以状态  的分布 $\rho_{\mu}(s)$ 为该类对这些更新量求期望。

$\theta_{k+1}=\theta_{k}+\alpha E_{s\sim \rho_{\mu_k}}\left [ \triangledown _{\theta}Q_{\mu_k}(s,\mu_{\theta}(s)) \right ]$

应用链式求导法则，策略更新被分解为两部分，第一部分行为值函数对行为的梯度，第二部分为策略相对于策略参数的梯度。

$\theta_{k+1}=\theta_{k}+\alpha E_{s\sim \rho_{\mu_k}}\left [ \triangledown _{\theta_{\mu_{\theta}}}\triangledown_a Q_{\mu_k}(s,a) |_{a=\mu_{\theta(s)}}\right ]$

其中， $\triangledown _{\theta}\mu_{\theta}(s)$ 是一个雅克比矩阵，该矩阵的第  列表示策略的第  个维度相对于策略参数 $\theta$ 的梯度 $\triangledown _{\theta}(\mu_{\theta}(s))_d$ 。

理论上认为，当策略改变时，状态分布 $\rho_{\mu}(s)$ 也会改变。事实上，在不考虑策略变化对状态分布的影响时，更新策略对结果的影响并不大。正如确定性梯度定理所表明的那样，计算策略梯度时，不需要计算状态分布的梯度。

假设在一个马尔可夫决策过程模型中， $p(s^{'}|s,a)$ ， $\triangledown _{\mu}p(s^{'}|s,a)$ ， $\mu_{\theta}(s)$ ， $\triangledown _{\mu}\mu_{\theta}(s)$ ，， $\triangledown _{a}r(s,a)$ ，分别存在，并且对于 $s,s^{'},a,\theta$ 都是连续函数，其中  表示初始状态概率分布， $p(s^{'}|s,a)$ 表示状态转移概率。以上条件是为了保证 $\triangledown_{\theta}\mu_{\theta}(s)$ 和 $\triangledown _aQ_{\mu}(s,a)$ 存在，那么确定性策略梯度一定存在且满足：

$\triangledown _{\theta}J(\mu_{\theta})=\int_S\rho_{\mu}(s)\triangledown _{\theta}\mu_{\theta}(s)\triangledown _{a}Q_{\mu}(s,a)|_{a=\mu_{\theta}(s)}ds$

$=E_{s\sim \rho_{\mu}}\left [ \triangledown _{\theta}\mu_{\theta}(s)\triangledown _{a}Q_{\mu}(s,a)|_{a=\mu_{\theta}(s)} \right ]$

2，DPG算法

2.1，在线策略确定性AC算法

一般来说，通过确定性策略进行采样无法确保充分探索，最终可能导致一个次优解决方案。因此，在线策略确定性行动者-评论家算法仅有理论意义。但是考虑到环境噪声的影响，在某些情况下，即使是采用了确定性策略，但只要环境中存在足够的噪声，也可以确保我们能够对环境进行充分探索。这种情况下，在线策略方法也可以找到最优解。

就像随机的行动者-评论家方法一样，确定性的行动者-评论家方法也由两部分组成。评论家评估动作值函数，而行动家对行为值函数才用梯度上升法更新策略参数。不同的是，行动者更新 $\mu_{\theta}$ 的参数 $\theta$ 时遵循的是确定性策略梯度定理。

与随机的行动者-评论家方法一样，评论家可以使用可微近似函数代替真实动作值函数 $Q_{\mu}(s,a)$ ， $Q_{w}(s,a)\approx Q_{\mu}(s,a)$ ，并通过策略评估方法（如Sarsa）来进行迭代更新得到参数值。

$\delta _t=r_t+\gamma Q_w(s_{t+1},a_{t+1})-Q_w(s_t,a_t)$

$\theta_{t+1}=\theta_t+\alpha \triangledown _{\theta}\mu_{\theta}(s_t)\,\triangledown _{\theta}Q_w(s_t,a_t)|_{a=\mu_{\theta}(s)}$

$w_{t+1}=w_t+\beta _w\delta _t\triangledown _wQ_w(s_t,a_t)$

2.2，离线策略确定性 AC

确定性策略算法在进行强化学习时，存在一个问题：给定状态  和策略参数时，动作是固定的。也就是说，当初始状态确定，通过确定性策略所产生的的轨迹永远都是固定的，智能体无法探索其他的轨迹或访问其他的状态。为了确保在使用确定性策略梯度方法的前提下，依然能够对状态进行充分探索，引入离线学习策略学习方法。即：行动策略是随机策略，评估策略是确定性策略。

离线策略方法使用行为策略 $\pi(a|s)$ 采样生成样本数据，基于样本数据对目标策略 $\mu_{\theta}(s)$ 进行改进。目标策略 $\mu_{\theta}(s)$ 是确定性策略。对应地，将目标函数修改为目标策略的值函数 $V_{\mu}(s)$ 基于行为策略 $\pi(a|s)$ 状态分布的积分：

$J_{\beta}(\mu_{\theta})=\int_S\rho_{\beta}(s)V_{\mu}(s)ds=\int_S\rho_{\beta}(s)Q_{\mu}(s,\mu_{\theta}(s))ds$

其中， $\rho_{\mu_{\theta}}(s)$ 表示行为策略 $\pi(a|s)$ 下的状态折扣分布。根据确定性策略梯度定理得到离线策略梯度：

$\triangledown _{\theta}J_{\beta}(\mu_{\theta})=\int_S\rho_{\beta}(s)\triangledown _{\theta}(a|s)\triangledown _aQ_{\mu}(s,a)|_{a=\mu_{\theta}(s)}ds$

$=E_{s\sim \rho^{\mu}}\left [\triangledown _{\theta}(a|s)\triangledown _aQ_{\mu}(s,a)|_{a=\mu_{\theta}(s)} \right ]$

同样地，评论家使用可微近似函数  代替真实的动作值函数 $Q_{\mu}(s,a)$ ， $Q_w(s,a)\approx Q_{\mu}(s,a)$ 。

离线策略确定性行动者-评论家（OPDAC）：评论者使用 Q-learning 来估计和更新值函数。

$\delta _t=r_t+\gamma Q_w(s_{t+1},\mu_{\theta}(s_{t+1}))-Q_w(s_t,a_t)$

$w_{t+1}=w_t+\alpha _w\delta _t\triangledown _wQ_w(s_t,a_t)$

$\theta_{t+1}=\theta_t+\alpha_{\theta}\triangledown _{\theta}\mu_{\theta}(s_t)\triangledown _{\alpha }Q_w(s_t,a_t)|_{a=\mu_{\theta}(s)}$

随机离线策略  算法通常对行动者和评论家都使用了重要性采样，但是，因为确定性策略梯度省去了对动作空间的积分，则避免了在行动者（Actor）中进行重要性采样，并且通过使用  ，避免了评论家（Critic）的重要采用。

3，DDPG算法

3.1，DDPG简介

DQN是第一个将深度学习与强化学习结合在一起的方法，通过将大型神经网络作为函数逼近器，成功地掌握了直接从高维视频像素中学习控制策略的方法。然而，因为DQN在每次迭代中都需要寻找行为值函数的最大值，因此它只能处理离散的、低维的动作空间。针对连续动作空间，DQN没有办法输出每个动作的行为值函数。解决上述连续动作空间问题的一个简单方法是将动作空间离散化，但是动作空间是随着动作的自由度呈现指数增长的。但是，针对大部分任务来说这个方法不现实。而确定性策略梯度法（DPG），可以解决动作空间连续的问题。它通过把策略表示为策略函数 $\mu_{\theta}(s)$ ，将状态  映射为一个确定性的动作。当策略为确定性策略后，使用贝尔曼方程计算行为值函数  的公式，由：

$Q_{\pi}(s_t,a_t)=E_{s_{t+1}\sim E,a_t\sim \pi}\left [ r(s_t,a_t)+\gamma E_{\pi}\left [ Q_{\pi}(s_{t+1},a_{t+1}) \right ] \right ]$

变为：

$Q_{\mu}(s_t,a_t)=E_{s_{t+1}\sim E}\left [ r(s_t,a_t)+\gamma Q_{\mu}(s_{t+1},\mu(s_{t+1})) \right ]$

于是内部期望的求解就被避免，外部期望只需根据环境求期望即可。也就是说动作-状态值函数  只和环境有关系，与求解动作无关。

有了  值，就可以通过下式迭代求解最优策略：

$\triangledown _{\theta_{\mu}u}\approx E_{\mu^{'}}\left [ \triangledown _{\theta_{\mu}}Q(s,a|\theta_{Q})|_{s=s_t,a=\mu(s_t|\theta_{\mu})} \right ]$

$=E_{\mu^{'}}\left [ \triangledown _{\theta_{\mu}}Q(s,a|\theta_{Q})|_{s=s_t,a=\mu(s_t)\triangledown _{\theta_{\mu}}\mu(s|\theta_{\mu})}|_{s=s_t} \right ]$

确定性策略梯度（DPG）可以处理连续动作空间的任务，但是无法直接从高维输入中学习策略；而DQN可以直接进行端对端的学习，却仅能处理离散动作空间问题。将两者结合起来，在DPG算法的基础上引入DQN算法的成功经验，就有了深度确定策略梯度算法（DDPG）。DDPG分别用神经网络逼近行为值函数（Critic网络）和 $\mu_{\theta}(s)$ （Actor网络），实现了直接从原始数据中进行端对端的学习。

3.2，算法要点

因为强化学习的数据存在马尔可夫性，不满足训练神经网络需要样本独立同分布的前提假设，在使用神经网络进行强化学习时，训练过程很不稳定。为了保证学习效果，需要打破训练数据的相关性。DDPG借鉴了DQN的成功经验，使用了经历回放来解决这个问题。在生成样本数据时，DDPG将从环境中探索得到的数据，以一个状态转换序列为单元 $(s_t,a_t,r_t,s_{t+1})$ ，存放在记忆库中。记忆库的容量置为某个值，如500万，当记忆库充满数据时，则需要删掉最旧的样本数据，保证记忆库中永远存放着最新的500万个转换序列。每次更新时，行动者和评论家都会从中随机地抽取一部分样本进行优化，来减少一些不稳定性。

进行神经网络训练时，如果使用同一张神经网络来表示目标网络（target network）和当前更新网络（online），学习过程会很不稳定。因为同一个网络参数在频繁地进行梯度更新的同时，还需要被用于计算网络的梯度。DDPG的解决方案是分别为评论家网络 $Q(s,a|\theta_Q)$ 和行动者网络 $\mu(s|\theta_{\mu})$ ，创建两个神经网络的拷贝。即：分别创建两个独立的目标网络 $Q^{'}(s,a|\theta_{Q^{'}})$ 和 $\mu^{'}(s|\theta_{\mu^{'}})$ 。

Actor网络：策略网络： $\left\{\begin{matrix} online:\mu(s|\theta_{\mu}) &gradient\,update\, \theta_{\mu} \\ target:\mu^{'}(s|\theta_{\mu^{'}}) & soft\,update\,\theta_{\mu^{'}} \end{matrix}\right.$

Critic网络： 网络： $\left\{\begin{matrix} online:Q(s|\theta_{\mu}) &gradient\,update\, \theta_{\mu} \\ target:Q^{'}(s|\theta_{\mu^{'}}) & soft\,update\,\theta_{\mu^{'}} \end{matrix}\right.$

在训练完一个批量（mini-batch）的数据之后，DDPG通过梯度上升/梯度下降算法更新当前（online）网络的参数。然后再通过滑动平均（soft update）方法更新目标（target）网络的参数。滑动平均指的是在进行目标网络参数更新时，不同于 DQN 直接将 Q 网络的参数复制到目标 Q 网络，DDPG遵循的是： $\theta^{'}\leftarrow \tau \theta +(1-\tau)\theta^{'}$ ，且 $r\ll 1$ 。这就意味着目标网络参数只能缓慢变化，大大提高了学习的稳定性。

$soft\,update_{\tau=0.001}:\left\{\begin{matrix} \theta_{Q^{'}}\leftarrow \tau\theta_Q+(1-\tau)\theta_{Q^{'}}\\ \theta_{\mu^{'}}\leftarrow \tau\theta_{\mu}+(1-\tau)\theta_{{\mu}^{'}} \end{matrix}\right.$

其中 0.001 根据历史经验得到

在连续行为空间学习的一个最主要挑战是如何保证有效的探索。DDPG通过给确定性策略 $\mu(s_t|\theta_t^{\mu})$ 添加噪声来构建行为策略，行为策略和评估策略不同，可以保证算法高效“探索”。

$\mu^{'}(s_t)=\mu(s_t|\theta_t^{''})+N$

除此之外，DDPG还使用了一个被称为批量标准化（BN）的深度学习技术来应对不同量纲问题。比如，位置及速度，显然不能将它们当成一种数据进行处理。因为不同量纲难以找到在具有不同的状态值尺度的环境中泛化的超参数，可能导致网络难以有效学习。批量标准化技术能够对小批量样本中的每个维度进行归一化，以得到单位均值和方差。在探索和评估期间，保持均值和方差平均值用来对得到的数据进行处理，实现不同任务、不同类型的数据进行有效学习。

3.3，算法流程

因为采用行动者-评论家架构，所以DDPG有行动者（Actor）和评论家（Critic）两个部分。目标网络和当前更新的网络是两个独立的网络，整个DDPG一共涉及四个神经网络：

Critic目标网络（target） $Q^{'}$

Critic 当前网络（online）

Actor 目标网络（target） $\mu^{'}$

Actor 当前网络（online） $\mu$

Critic 网络（online）Q 对参数 $\theta_Q$ 的更新，采用 DQN 中的 TD error 方式，损失函数为最小化均方差：

$L=\frac{1}{N}\sum_i\left ( y_i-Q(s_i,a_i|\theta_Q) \right )^2$

其中， $y_i=r_i+Q^{'}\left ( s_{i+1},\mu^{'}(s_{i+1}|\theta_{\mu^{'}})|\theta_{Q^{'}} \right )$ ，的计算用到了目标 Critic 网络 $Q^{'}$ 和目标Actor 网络 $\mu^{'}$ ，这样做是为了网络参数的学习过程更加稳定，易于收敛。有了损失函数，就可以基于标准的后向传播方法，求得针对 $\theta_Q$ 的梯度 $\triangledown _{\theta_Q}L$ 。对其进行优化更新，得到 $\theta_Q$ 。

Actor 网络（online） $\mu$ 的网络参数 $\theta_{\mu}$ 的更新，遵循确定性策略，公式为（详细请看确定性策略梯度定理的证明）：

$\triangledown _{\theta_{\mu}}\mu|s_i=\frac{1}{N}\sum_i\triangledown_aQ(s,a|\theta_Q)|_{s=s_i,a=\mu(s_i)}\triangledown_{\theta_{\mu}}\mu(s|\theta_{\mu})|_{s=s_t}$

目标网络（target） $Q^{'}$ 和 $\mu^{'}$ 采用滑动平均方式：

$\theta_{Q^{'}}\leftarrow \tau\theta_Q+(1-\tau)\theta_{Q^{'}}$

$\theta_{\mu^{'}}\leftarrow \tau\theta_{\mu}+(1-\tau)\theta_{\mu^{'}}$

target Actor 网络 $\mu^{'}$ ，其输入为下一状态 $s_{t+1}$ ，在计算目标 Critic 的值 $Q^{'}(s_{i+1},\mu^{'}(s_{t+1}|\theta_{\mu^{'}})|\theta_{Q^{'}})$ 时， $\mu^{'}$ 用于预测下一状态的行为取值。

online Actor 网络 $\mu$ ，输入当前状态，输出为当前状态的行为取值。它和 online 的 Critic 一起更新 Actor 神经网络的参数，即：

$\triangledown _{\theta_{\mu}}\mu|s_i=\frac{1}{N}\sum_i\triangledown_aQ(s,a|\theta_Q)|_{s=s_i,a=\mu(s_i)}\triangledown_{\theta_{\mu}}\mu(s|\theta_{\mu})|_{s=s_t}$

target Critic 网络 $Q^{'}$ ，输入为下一状态 $s_{i+1}$ 和 Actor target 网络中输出的策略 $\mu^{'}(s_{i+1}|\theta_{\mu^{'}})$ ，输出用于计算 TD 目标，即：

$y_i=r_i+Q^{'}(s_{i+1},\mu^{'}(s_{i+1}|\theta_{\mu^{'}})|\theta_{Q^{'}})$

online Critic 网络，输出为当前状态和实际执行的动作，其输出首先用于计算损失函数，公式为 $L=\frac{1}{N}\sum_i\left ( y_i-Q(s_i,a_i|\theta_Q) \right )^2$ 。还用于 Actor 部分的参数更新，即：

$\triangledown _{\theta_{\mu}}\mu|s_i=\frac{1}{N}\sum_i\triangledown_aQ(s,a|\theta_Q)|_{s=s_i,a=\mu(s_i)}\triangledown_{\theta_{\mu}}\mu(s|\theta_{\mu})|_{s=s_t}$

具体流程：

DDPG算法吸收了DQN的改进方案，使得算法的效率和效果都得到了保障。比如，通过，通过使用经验库，降低了采样数据的相关性。算法执行过程中，用到了两套 AC 网络，因为 $\tau$ 很小，所以目标网络通过滑动平均缓慢更新，使得学习过程更加稳定。

3.4，算法实现（连续动作空间）

以倒立摆作为环境：

import random
import gym
import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import rl_utils

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim, action_bound):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)
        self.action_bound = action_bound  # action_bound是环境可以接受的动作最大值

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return torch.tanh(self.fc2(x)) * self.action_bound
class QValueNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(QValueNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim + action_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, 1)

    def forward(self, x, a):
        cat = torch.cat([x, a], dim=1)  # 拼接状态和动作
        x = F.relu(self.fc1(cat))
        return self.fc2(x)
class TwoLayerFC(torch.nn.Module):
    # 这是一个简单的两层神经网络
    def __init__(self,num_in,num_out,hidden_dim,activation=F.relu,out_fn=lambda x: x):
        super().__init__()
        self.fc1 = nn.Linear(num_in, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, num_out)

        self.activation = activation
        self.out_fn = out_fn

    def forward(self, x):
        x = self.activation(self.fc1(x))
        x = self.activation(self.fc2(x))
        x = self.out_fn(self.fc3(x))
        return x

对于策略网络和价值网络，都采用只有一层隐藏层的神经网络，策略网络的输出层用正切函数（y=tanhx）作为激活函数，这是因为正切函数的值域是，方便按比例调整成环境可以接受的动作范围。在DDPG中处理的是与连续动作交互的环境，Q网络的输入是状态和动作拼接后的向量，Q网络的输出是一个值，表示该动作对的价值。

def train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size):
    return_list = []
    for i in range(10):
        with tqdm(total=int(num_episodes/10), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes/10)):
                episode_return = 0
                state = env.reset()
                done = False
                while not done:
                    action = agent.take_action(state)
                    next_state, reward, done, _ = env.step(action)
                    replay_buffer.add(state, action, reward, next_state, done)
                    state = next_state
                    episode_return += reward
                    if replay_buffer.size() > minimal_size:
                        b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)
                        transition_dict = {'states': b_s, 'actions': b_a, 'next_states': b_ns, 'rewards': b_r, 'dones': b_d}
                        agent.update(transition_dict)
                return_list.append(episode_return)
                if (i_episode+1) % 10 == 0:
                    pbar.set_postfix({'episode': '%d' % (num_episodes/10 * i + i_episode+1), 'return': '%.3f' % np.mean(return_list[-10:])})
                pbar.update(1)
    return return_list

class DDPG:
    ''' DDPG算法 '''
    def __init__(self, num_in_actor, num_out_actor, num_in_critic, hidden_dim, discrete, action_bound, sigma, actor_lr, critic_lr, tau,gamma, device):
        # self.actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)
        # self.critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)
        # self.target_actor = PolicyNet(state_dim, hidden_dim, action_dim, action_bound).to(device)
        # self.target_critic = QValueNet(state_dim, hidden_dim, action_dim).to(device)
        out_fn = (lambda x: x) if discrete else (lambda x: torch.tanh(x) * action_bound)
        self.actor = TwoLayerFC(num_in_actor,num_out_actor,hidden_dim,activation=F.relu,out_fn=out_fn).to(device)
        self.target_actor = TwoLayerFC(num_in_actor, num_out_actor,hidden_dim,activation=F.relu,out_fn=out_fn).to(device)
        self.critic = TwoLayerFC(num_in_critic, 1, hidden_dim).to(device)
        self.target_critic = TwoLayerFC(num_in_critic, 1, hidden_dim).to(device)
        # 初始化目标价值网络并设置和价值网络相同的参数
        self.target_critic.load_state_dict(self.critic.state_dict())
        # 初始化目标策略网络并设置和策略相同的参数
        self.target_actor.load_state_dict(self.actor.state_dict())
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(),lr=actor_lr)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(),lr=critic_lr)

        self.gamma = gamma
        self.sigma = sigma  # 高斯噪声的标准差,均值直接设为0
        self.action_bound = action_bound  # action_bound是环境可以接受的动作最大值
        self.tau = tau  # 目标网络软更新参数
        self.action_dim = num_out_actor
        self.device = device

    def take_action(self, state):
        state = torch.tensor([state], dtype=torch.float).to(self.device)
        action = self.actor(state).item()
        # 给动作添加噪声，增加探索
        action = action + self.sigma * np.random.randn(self.action_dim)
        return action

    def soft_update(self, net, target_net):
        for param_target, param in zip(target_net.parameters(),net.parameters()):
            param_target.data.copy_(param_target.data * (1.0 - self.tau) +param.data * self.tau)

    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'],dtype=torch.float).to(self.device)
        actions = torch.tensor(transition_dict['actions'],dtype=torch.float).view(-1, 1).to(self.device)
        rewards = torch.tensor(transition_dict['rewards'],dtype=torch.float).view(-1, 1).to(self.device)
        next_states = torch.tensor(transition_dict['next_states'],dtype=torch.float).to(self.device)
        dones = torch.tensor(transition_dict['dones'],dtype=torch.float).view(-1, 1).to(self.device)

        next_q_values = self.target_critic(
            torch.cat(
                [next_states, self.target_actor(next_states)], dim=1))
        q_targets = rewards + self.gamma * next_q_values * (1 - dones)
        critic_loss = torch.mean(
            F.mse_loss(
                # MSE损失函数
                self.critic(torch.cat([states, actions], dim=1)),
                q_targets))
        self.critic_optimizer.zero_grad()
        critic_loss.backward()
        self.critic_optimizer.step()

        actor_loss = -torch.mean(
            self.critic(
                # 策略网络就是为了使得Q值最大化
                torch.cat([states, self.actor(states)], dim=1)))
        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

        self.soft_update(self.actor, self.target_actor)  # 软更新策略网络
        self.soft_update(self.critic, self.target_critic)  # 软更新价值网络

actor_lr = 5e-4
critic_lr = 5e-3
num_episodes = 200
hidden_dim = 64
gamma = 0.98
tau = 0.005  # 软更新参数
buffer_size = 10000
minimal_size = 1000
batch_size = 64
sigma = 0.01  # 高斯噪声标准差
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
    "cpu")

env_name = 'Pendulum-v0'
env = gym.make(env_name)
random.seed(0)
np.random.seed(0)
env.seed(0)
torch.manual_seed(0)
replay_buffer = rl_utils.ReplayBuffer(buffer_size)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.shape[0]
action_bound = env.action_space.high[0]  # 动作最大值
agent = DDPG(state_dim, action_dim, state_dim + action_dim, hidden_dim, False,
             action_bound, sigma, actor_lr, critic_lr, tau, gamma, device)

return_list = train_off_policy_agent(env, agent, num_episodes,replay_buffer, minimal_size,batch_size)

episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('DDPG on {}'.format(env_name))
plt.show()

mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('DDPG on {}'.format(env_name))
plt.show()

可以发现DDPG在倒立摆环境中表现出很不错的效果，其学习速度非常快，并且不需要太多样本。

3.4，算法实现（离散动作空间）

强化学习（实践）：多智能体强化学习_燕双嘤的博客-CSDN博客_多智能体强化1，基本概念1.1，环境设置Fully cooperative（完全合作关系）：Agent利益一致，获得的奖励相同，有共同的目标。Fully comperative（完全竞争关系）：一方获得的奖励是另一方的损失。比如比赛场上的两个机器人。Mixed Cooperative & competitive（混合关系）：既有竞争，也有合作。例如：足球机器人，两支球队是竞争关系，每个队伍内部是合作关系。Self-interested （利己主义）：一个Agent的动作会改变环境的状态，此https://blog.csdn.net/qq_42192693/article/details/124164161?spm=1001.2014.3001.5501原理：MADDPG小节Gumbel-Softmax

import random
import gym
import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
from tqdm import tqdm
import rl_utils
from env import  CliffWalkingEnv

class TwoLayerFC(torch.nn.Module):
    def __init__(self, num_in, num_out, hidden_dim):
        super().__init__()
        self.fc1 = torch.nn.Linear(num_in, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = torch.nn.Linear(hidden_dim, num_out)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        return self.fc3(x)
def train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size):
    return_list = []
    for i in range(10):
        with tqdm(total=int(num_episodes/10), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes/10)):
                episode_return = 0
                state = env.reset()
                done = False
                while not done:
                    action = agent.take_action(state,True)
                    next_state, reward, done = env.step(action)
                    #print(next_state, reward, done)
                    replay_buffer.add(state, list(action.detach().numpy()[0]), reward, next_state, done)
                    state = next_state
                    episode_return += reward
                    if replay_buffer.size() > minimal_size:
                        b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)
                        transition_dict = {'states': b_s, 'actions': b_a, 'next_states': b_ns, 'rewards': b_r, 'dones': b_d}
                        agent.update(transition_dict)
                return_list.append(episode_return)
                if (i_episode+1) % 10 == 0:
                    pbar.set_postfix({'episode': '%d' % (num_episodes/10 * i + i_episode+1), 'return': '%.3f' % np.mean(return_list[-10:])})
                pbar.update(1)
    return return_list

class DDPG:
    ''' DDPG算法 '''
    def __init__(self, state_dim, action_dim, critic_input_dim, hidden_dim, sigma, actor_lr,critic_lr, tau, gamma):
        self.actor = TwoLayerFC(state_dim, action_dim, hidden_dim)
        self.target_actor = TwoLayerFC(state_dim, action_dim, hidden_dim)
        self.critic = TwoLayerFC(critic_input_dim, 1, hidden_dim)
        self.target_critic = TwoLayerFC(critic_input_dim, 1, hidden_dim)
        self.target_critic.load_state_dict(self.critic.state_dict())
        self.target_actor.load_state_dict(self.actor.state_dict())
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)
        self.critic_criterion = torch.nn.MSELoss()
        self.gamma = gamma
        self.sigma = sigma  # 高斯噪声的标准差,均值直接设为0
        self.tau = tau  # 目标网络软更新参数
        self.action_dim = action_dim

    def take_action(self, state, explore):
        state=torch.tensor([state], dtype=torch.float)
        action = self.actor(state)
        if explore:
            action = rl_utils.gumbel_softmax(action)
        else:
            action = rl_utils.onehot_from_logits(action)
        return action

    def soft_update(self, net, target_net):
        for param_target, param in zip(target_net.parameters(), net.parameters()):
            param_target.data.copy_(param_target.data * (1.0 - self.tau) + param.data * self.tau)

    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'], dtype=torch.float)
        actions = torch.tensor(transition_dict['actions'], dtype=torch.float)
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float)
        next_states = torch.tensor(transition_dict['next_states'], dtype=torch.float)
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float)
        self.critic_optimizer.zero_grad()
        # next_q_values = self.target_critic(torch.cat([next_states, self.target_actor(next_states)], dim=1))
        # q_targets = rewards.reshape(64,1) + self.gamma * (next_q_values) * (1 - dones.reshape(64,1))
        # critic_loss = torch.mean(F.mse_loss(self.critic(torch.cat([states, actions], dim=1)),q_targets))
        # critic_loss.backward()
        all_target_act = rl_utils.onehot_from_logits(self.target_actor(next_states))
        target_critic_input = torch.cat((next_states, all_target_act), dim=1)
        target_critic_value = rewards.view(-1, 1) + self.gamma * self.target_critic(target_critic_input) * (1 - dones.view(-1, 1))
        critic_input = torch.cat((states, actions), dim=1)
        critic_value = self.critic(critic_input)
        critic_loss = self.critic_criterion(critic_value, target_critic_value.detach())
        critic_loss.backward()
        self.critic_optimizer.step()

        self.actor_optimizer.zero_grad()
        cur_actor_out = self.actor(states)
        cur_act_vf_in = rl_utils.gumbel_softmax(cur_actor_out)
        #actor_loss = -torch.mean(self.critic(torch.cat([states, self.actor(states)], dim=1)))
        vf_in = torch.cat([states, cur_act_vf_in], dim=1)
        actor_loss = -self.critic(vf_in).mean()
        actor_loss += (cur_actor_out ** 2).mean() * 1e-3

        self.actor_optimizer.zero_grad()
        actor_loss.backward()
        self.actor_optimizer.step()

        self.soft_update(self.actor, self.target_actor)  # 软更新策略网络
        self.soft_update(self.critic, self.target_critic)  # 软更新价值网络

actor_lr = 5e-4
critic_lr = 5e-3
num_episodes = 3000
hidden_dim = 64
gamma = 0.98
tau = 0.005  # 软更新参数
buffer_size = 10000
minimal_size = 2000
batch_size = 64
sigma = 0.01  # 高斯噪声标准差

env_name = 'FrozenLake-v0'
ncol = 5
nrow = 5
end = (3,1)
env = CliffWalkingEnv(ncol, nrow,end)
random.seed(0)
np.random.seed(0)
torch.manual_seed(0)
replay_buffer = rl_utils.ReplayBuffer(buffer_size)
state_dim = 25
action_dim = 4
agent = DDPG(state_dim, action_dim, state_dim + action_dim, hidden_dim, sigma, actor_lr, critic_lr, tau, gamma)

return_list = train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size)
print(max(return_list))
episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('DDPG on {}'.format(env_name))
plt.show()

mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('DDPG on {}'.format(env_name))
plt.show()

rl_untils

from tqdm import tqdm
import numpy as np
import torch
import collections
import random
import torch.nn.functional as F

class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = collections.deque(maxlen=capacity)

    def add(self, state, action, reward, next_state, done):
        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):
        transitions = random.sample(self.buffer, batch_size)
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), action, reward, np.array(next_state), done

    def size(self):
        return len(self.buffer)

def onehot_from_logits(logits, eps=0.01):
    ''' 生成最优动作的独热（one-hot）形式 '''
    argmax_acs = (logits == logits.max(1, keepdim=True)[0]).float()
    # 生成随机动作,转换成独热形式
    rand_acs = torch.autograd.Variable(
        torch.eye(logits.shape[1])[[np.random.choice(range(logits.shape[1]), size=logits.shape[0])]],
        requires_grad=False).to(logits.device)
    # 通过epsilon-贪婪算法来选择用哪个动作
    return torch.stack([argmax_acs[i] if r > eps else rand_acs[i] for i, r in enumerate(torch.rand(logits.shape[0]))])

def sample_gumbel(shape, eps=1e-20, tens_type=torch.FloatTensor):
    """从Gumbel(0,1)分布中采样"""
    U = torch.autograd.Variable(tens_type(*shape).uniform_(), requires_grad=False)
    return -torch.log(-torch.log(U + eps) + eps)

def gumbel_softmax_sample(logits, temperature):
    """ 从Gumbel-Softmax分布中采样"""
    y = logits + sample_gumbel(logits.shape, tens_type=type(logits.data)).to(logits.device)
    return F.softmax(y / temperature, dim=1)


def gumbel_softmax(logits, temperature=1.0):
    """从Gumbel-Softmax分布中采样,并进行离散化"""
    y = gumbel_softmax_sample(logits, temperature)
    y_hard = onehot_from_logits(y)
    y = (y_hard.to(logits.device) - y).detach() + y
    # 返回一个y_hard的独热量,但是它的梯度是y,我们既能够得到一个与环境交互的离散动作,又可以
    # 正确地反传梯度
    return y
def moving_average(a, window_size):
    cumulative_sum = np.cumsum(np.insert(a, 0, 0))
    middle = (cumulative_sum[window_size:] - cumulative_sum[:-window_size]) / window_size
    r = np.arange(1, window_size - 1, 2)
    begin = np.cumsum(a[:window_size - 1])[::2] / r
    end = (np.cumsum(a[:-window_size:-1])[::2] / r)[::-1]
    return np.concatenate((begin, middle, end))

env

import matplotlib.pyplot as plt
import numpy as np
from tqdm import tqdm  # tqdm是显示循环进度条的库
import torch

class CliffWalkingEnv:
    def __init__(self, ncol, nrow, end):
        self.nrow = nrow
        self.index = 0
        self.ncol = ncol
        self.x = 0  # 记录当前智能体位置的横坐标
        self.y = 0  # 记录当前智能体位置的纵坐标
        self.end = end
        self.visited= [(0,0)]

    def step(self, action):  # 外部调用这个函数来让当前位置改变
        action = torch.argmax(action[0]).item()
        if action == 0:
            self.x -= 1  # left
        elif action == 1:
            self.x += 1  # right
        elif action == 2:
            self.y += 1  # down
        elif action == 3:
            self.y -= 1  # up
        if self.x < 0:
            self.x = 0
        # reward = -2
        if self.x >= self.nrow:
            self.x = self.nrow - 1
            # reward = -2
        if self.y < 0:
            self.y = 0
            # reward = -2
        if self.y >= self.ncol:
            self.y = self.ncol - 1
            # reward = -2
        next_state = [0] * 25
        next_state[self.y * self.ncol + self.x] = 1
        done = False
        if (self.x,self.y) in self.visited:
            reward = -5
        else:
            reward = -1
        if self.index>=10:
            done = True
        self.index += 1
        self.visited.append((self.x, self.y))
        if self.end == (self.x, self.y) :  # End
            reward = 100
            done = True
        return next_state, reward, done

    def reset(self):  # 回归初始状态，坐标轴原点在左上角
        self.index = 0
        self.x = 0
        self.y = 0
        self.visited = [(0, 0)]
        next_state = [0] * 25
        next_state[0] = 1
        return next_state

Iteration 0: 100%|██████████| 300/300 [00:08<00:00, 35.10it/s, episode=300, return=96.500]
Iteration 1: 100%|██████████| 300/300 [00:09<00:00, 30.35it/s, episode=600, return=97.000]
Iteration 2: 100%|██████████| 300/300 [00:12<00:00, 24.88it/s, episode=900, return=96.000]
Iteration 3: 100%|██████████| 300/300 [00:10<00:00, 27.47it/s, episode=1200, return=96.000]
Iteration 4: 100%|██████████| 300/300 [00:10<00:00, 28.82it/s, episode=1500, return=96.000]
Iteration 5: 100%|██████████| 300/300 [00:10<00:00, 29.16it/s, episode=1800, return=97.000]
Iteration 6: 100%|██████████| 300/300 [00:10<00:00, 28.16it/s, episode=2100, return=97.000]
Iteration 7: 100%|██████████| 300/300 [00:18<00:00, 16.40it/s, episode=2400, return=97.000]
Iteration 8: 100%|██████████| 300/300 [00:15<00:00, 19.88it/s, episode=2700, return=97.000]
Iteration 9: 100%|██████████| 300/300 [00:13<00:00, 22.37it/s, episode=3000, return=97.000]

你可能感兴趣的:(机器学习/深度学习/强化学习,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它