卡拉比丘流形

深度强化学习Task2：策略梯度算法

本篇博客是本人参加Datawhale组队学习第二次任务的笔记
【教程地址】

文章目录

基于价值算法和基于策略算法的比较
策略梯度算法
- 策略梯度算法的直观理解
- 策略梯度算法
- REINFORCE算法
- 基于平稳分布的策略梯度算法
- REINFORCE算法实现
- - 策略函数设计
  - 模型设计
  - 更新函数设计
练习
总结

基于价值算法和基于策略算法的比较

基于价值的算法是通过学习价值函数来指导策略的，而基于策略的算法则是对策略进行优化，并且通过计算轨迹的价值期望来指导策略的更新
基于价值算法的缺点：
- 无法表示连续动作。由于 $\text{DQN}$ 等算法是通过学习状态和动作的价值函数来间接指导策略的，因此它们只能处理离散动作空间的问题，无法表示连续动作空间的问题。而在一些问题中，比如机器人的运动控制问题，连续动作空间是非常常见的，比如要控制机器人的运动速度、角度等等，这些都是连续的量。
- 高方差。基于价值的方法通常都是通过采样的方式来估计价值函数，这样会导致估计的方差很高，从而影响算法的收敛性。尽管一些 $\text{DQN}$ 改进算法，通过改善经验回放、目标网络等方式，可以在一定程度上减小方差，但是这些方法并不能完全解决这个问题。
- 探索与利用的平衡问题。 $\text{DQN}$ 等算法在实现时通常选择贪心的确定性策略，而很多问题的最优策略是随机策略，即需要以不同的概率选择不同的动作。虽然可以通过 $\epsilon\text{-greedy}$ 策略等方式来实现一定程度的随机策略，但是实际上这种方式并不是很理想，因为它并不能很好地平衡探索与利用的关系。
探索（Exploration）：这一方面是关于尝试新的可能性。在算法层面，这意味着偶尔选择不是当前看起来最优的行为，以获得更多信息。
利用（Exploitation）：这是基于目前已知信息去做最优决策的过程，即“赚取”阶段。
这两者之间需要权衡，因为过多的探索可能导致错过即时的奖励，而过多的利用则可能陷入局部最优而错过更好的选择。
相比于 $\text{DQN}$ 之类的基于价值的算法，策略梯度算法的优缺点：
- 优点：
  - 适配连续动作空间。将策略描述成一个带有参数 $\theta$ 的连续函数，该函数将某个状态作为输入，输出的不再是某个确定性（ $\text{deterministic}$ ）的离散动作，而是对应的动作概率分布，通常用 $\pi_{\theta}(a|s)$ 表示，称作随机性（ $\text{stochastic}$ ）策略。
  - 适配随机策略。由于策略梯度算法是基于策略函数的，因此可以适配随机策略，而基于价值的算法则需要一个确定的策略。此外其计算出来的策略梯度是无偏的，而基于价值的算法则是有偏的。
- 缺点：
  - 采样效率低。由于使用的是蒙特卡洛估计，与基于价值算法的时序差分估计相比其采样速度必然是要慢很多的，这个问题在前面相关章节中也提到过。
  - 高方差。虽然跟基于价值的算法一样都会导致高方差，但是策略梯度算法通常是在估计梯度时蒙特卡洛采样引起的高方差，这样的方差甚至比基于价值的算法还要高。
  - 收敛性差。容易陷入局部最优，策略梯度方法并不保证全局最优解，因为它们可能会陷入局部最优点。策略空间可能非常复杂，存在多个局部最优点，因此算法可能会在局部最优点附近停滞。
  - 难以处理高维离散动作空间：对于离散动作空间，采样的效率可能会受到限制，因为对每个动作的采样都需要计算一次策略。当动作空间非常大时，这可能会导致计算成本的急剧增加。

策略梯度算法

策略梯度算法的直观理解

基于价值的算法相当于是在学一个地图导航工具，它会告诉并指导驾驶员从当前位置到目的地的最佳路径。但是这样会出现一个问题，就是当地图导航工具在学习过程中产生偏差时会容易一步错步步错，也就是估计价值的方差会很高，从而影响算法的收敛性。
而基于策略的算法则是直接训练驾驶员自身，并且同时也在学地图导航，只是这个时候地图导航只会告诉驾驶员当前驾驶的方向是不是对的，而不会直接让驾驶员去做什么。换句话说，这个过程，驾驶员和地图导航工具的训练是相互独立的，地图导航工具并不会干涉驾驶员的决策，只是会给出建议。这样的好处就是驾驶员可以结合经验自己去探索，当导航工具出现偏差的时候也可以及时纠正，反过来当驾驶员决策错误的时候，导航工具也可以及时矫正错误。

策略梯度算法

以下内容仅仅考虑算法流程的完整性，证明过程请参考原书第九章：策略梯度。
我们对生成每条轨迹的概率和相应的奖励的乘积进行求和，可以得到价值期望，我们的目标就是最大化策略的价值期望 。

由于我们的目标是最大化目标函数，因此我们使用梯度上升的方法，之后进行一系列计算得到了梯度：

REINFORCE算法

由于采样的轨迹是无限多的，难以进行计算，因此采用蒙特卡洛的方法近似求解，采样一部分且数量足够多的轨迹，然后利用这些轨迹的平均值来近似求解目标函数的梯度。这种方法就是蒙特卡洛策略梯度算法，也称作
$\text{REINFORCE}$ 算法

其中 $N$ 理论上越大越好，但实际上我们可能只采样几个回合的轨迹就能近似求解梯度了。此外，注意这里我们把奖励函数换成了带有折扣因子的回报 $G_{t}^{n}=\sum_{k=t}^{T_{n}} \gamma^{k-t} r_{k}^{n}$ ，其中 $T_n$ 表示第 $n$ 条轨迹的长度， $\gamma$ 表示折扣因子， $r_{k}^{n}$ 表示第 $n$ 条轨迹在第 $k$ 步的奖励。尽管回报计算起来麻烦，但可以结合前面章节讲到的贝尔曼公式将当前时刻和下一时刻的回报联系起来，从而在一定程度上简化计算。

$\begin{aligned} G_{t} &=\sum_{k=t+1}^{T} \gamma^{k-t-1} r_{k} \\ &=r_{t+1}+\gamma G_{t+1} \end{aligned}$

$\text{REINFORCE}$ 算法的缺点：

最后推导出来的公式实际上不可求，因为理论上有无限条轨迹，所以只能用近似的方法。
我们假定了目标是使得每回合的累积价值最大，每回合的累积奖励或回报会受到很多因素的影响，比如回合的长度、奖励的稀疏性等等，泛化性不够。

基于平稳分布的策略梯度算法

基于平稳分布的策略梯度算法克服了 $\text{REINFORCE}$ 算法的缺点，在正式介绍它之前先介绍一下平稳的马尔可夫过程。
对于任意马尔可夫链，如果满足以下两个条件：

非周期性：由于马尔可夫链需要收敛，那么就一定不能是周期性的，实际上我们处理的问题基本上都是非周期性的，这点不需要做过多的考虑。
状态连通性：即存在概率转移矩阵 $P$ ，能够使得任意状态 $s_0$ 经过有限次转移到达状态 $s$ ，反之亦然。

$\qquad$ 这样我们就可以得出结论，即该马氏链一定存在一个平稳分布，我们用 $d^{\pi}(s)$ 表示。

$d^\pi(s)=\lim _{t \rightarrow \infty} P\left(s_t=s \mid s_0, \pi_\theta\right)$
一言以蔽之就是无论初始状态是什么，经过多次概率转移之后都会存在一个稳定的状态分布。

REINFORCE算法实现

最基础的策略梯度算法就是REINFORCE算法，又称作Monte-Carlo Policy Gradient算法。我们策略优化的目标如下：

$J_{\theta}= \Psi_{\pi} \nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)$

其中 $\Psi_{\pi}$ 在REINFORCE算法中表示衰减的回报(具体公式见伪代码)，也可以用优势来估计，也就是我们熟知的A3C算法，这个在后面包括GAE算法中都会讲到。

策略函数设计

既然策略梯度是直接对策略函数进行梯度计算，有两种设计方式：
softmax函数：用于离散动作空间
高斯分布 $\mathbb{N}\left(\phi(\mathbb{s})^{\mathbb{\pi}} \theta, \sigma^2\right)$ ：多用于连续动作空间

softmax函数可以表示为：
$\pi_\theta(s, a)=\frac{e^{\phi(s, a)^{T_\theta}}}{\sum_b e^{\phi(s, b)^{T^T}}}$
对应的梯度为：
$\nabla_\theta \log \pi_\theta(s, a)=\phi(s, a)-\mathbb{E}_{\pi_\theta}[\phi(s,)$
高斯分布对应的梯度为：
$\nabla_\theta \log \pi_\theta(s, a)=\frac{\left(a-\phi(s)^T \theta\right) \phi(s)}{\sigma^2}$
但是对于一些特殊的情况，例如在本次演示中动作维度=2且为离散空间，这个时候可以用伯努利分布来实现，这种方式其实是不推荐的，这里给大家做演示也是为了展现一些特殊情况，启发大家一些思考，例如Bernoulli，Binomial，Gaussian分布之间的关系。简单说来，Binomial分布， $n = 1$ 时就是Bernoulli分布， $\rightarrow \infty$ 时就是Gaussian分布。

模型设计

前面讲到，尽管本次演示是离散空间，但是由于动作维度等于2，此时就可以用特殊的高斯分布来表示策略函数，即伯努利分布。伯努利的分布实际上是用一个概率作为输入，然后从中采样动作，伯努利采样出来的动作只可能是0或1，就像投掷出硬币的正反面。在这种情况下，我们的策略模型就需要在MLP的基础上，将状态作为输入，将动作作为倒数第二层输出，并在最后一层增加激活函数来输出对应动作的概率。不清楚激活函数作用的同学可以再看一遍深度学习相关的知识，简单来说其作用就是增加神经网络的非线性。既然需要输出对应动作的概率，那么输出的值需要处于0-1之间，此时sigmoid函数刚好满足我们的需求，实现代码参考如下。

import torch
import torch.nn as nn
import torch.nn.functional as F
class PGNet(nn.Module):
    def __init__(self, input_dim,output_dim,hidden_dim=128):
        """ 初始化q网络，为全连接网络
            input_dim: 输入的特征数即环境的状态维度
            output_dim: 输出的动作维度
        """
        super(PGNet, self).__init__()
        self.fc1 = nn.Linear(input_dim, hidden_dim) # 输入层
        self.fc2 = nn.Linear(hidden_dim,hidden_dim) # 隐藏层
        self.fc3 = nn.Linear(hidden_dim, output_dim) # 输出层
    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = torch.sigmoid(self.fc3(x))
        return x

更新函数设计

前面提到我们的优化目标也就是策略梯度算法的损失函数如下：
$J_{\theta}= \Psi_{\pi} \nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)$

我们需要拆开成两个部分 $\Psi_{\pi}$ 和 $\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)$ 分开计算，首先看值函数部分 $\Psi_{\pi}$ ，在REINFORCE算法中值函数是从当前时刻开始的衰减回报，如下：
$\leftarrow \sum_{k=t+1}^{T} \gamma^{k-1} r_{k}$

这个实际用代码来实现的时候可能有点绕，我们可以倒过来看，在同一回合下，我们的终止时刻是 $T$ ，那么对应的回报 $G_T=\gamma^{T-1}r_T$ ，而对应的 $G_{T-1}=\gamma^{T-2}r_{T-1}+\gamma^{T-1}r_T$ ，在这里代码中我们使用了一个动态规划的技巧，如下：

running_add = running_add * self.gamma + reward_pool[i] # running_add初始值为0

这个公式也是倒过来循环的，第一次的值等于：
$running\_add = r_T$
第二次的值则等于：
$running\_add = r_T*\gamma+r_{T-1}$
第三次的值等于：
$running\_add = (r_T*\gamma+r_{T-1})*\gamma+r_{T-2} = r_T*\gamma^2+r_{T-1}*\gamma+r_{T-2}$

import torch
from torch.distributions import Bernoulli
from torch.autograd import Variable
import numpy as np

class PolicyGradient:
    
    def __init__(self, model,memory,cfg):
        self.gamma = cfg['gamma']
        self.device = torch.device(cfg['device']) 
        self.memory = memory
        self.policy_net = model.to(self.device)
        self.optimizer = torch.optim.RMSprop(self.policy_net.parameters(), lr=cfg['lr'])

    def sample_action(self,state):

        state = torch.from_numpy(state).float()
        state = Variable(state)
        probs = self.policy_net(state)
        m = Bernoulli(probs) # 伯努利分布
        action = m.sample()
        
        action = action.data.numpy().astype(int)[0] # 转为标量
        return action
    def predict_action(self,state):

        state = torch.from_numpy(state).float()
        state = Variable(state)
        probs = self.policy_net(state)
        m = Bernoulli(probs) # 伯努利分布
        action = m.sample()
        action = action.data.numpy().astype(int)[0] # 转为标量
        return action
        
    def update(self):
        state_pool,action_pool,reward_pool= self.memory.sample()
        state_pool,action_pool,reward_pool = list(state_pool),list(action_pool),list(reward_pool)
        # Discount reward
        running_add = 0
        for i in reversed(range(len(reward_pool))):
            if reward_pool[i] == 0:
                running_add = 0
            else:
                running_add = running_add * self.gamma + reward_pool[i]
                reward_pool[i] = running_add

        # Normalize reward
        reward_mean = np.mean(reward_pool)
        reward_std = np.std(reward_pool)
        for i in range(len(reward_pool)):
            reward_pool[i] = (reward_pool[i] - reward_mean) / reward_std

        # Gradient Desent
        self.optimizer.zero_grad()

        for i in range(len(reward_pool)):
            state = state_pool[i]
            action = Variable(torch.FloatTensor([action_pool[i]]))
            reward = reward_pool[i]
            state = Variable(torch.from_numpy(state).float())
            probs = self.policy_net(state)
            m = Bernoulli(probs)
            loss = -m.log_prob(action) * reward  # Negtive score function x reward
            # print(loss)
            loss.backward()
        self.optimizer.step()
        self.memory.clear()

练习

基于价值和基于策略的算法各有什么优缺点？

基于价值的算法：

优点有：简单易用：通常只需要学习一个值函数，往往收敛性也会更好。保守更新：更新策略通常是隐式的，通过更新价值函数来间接地改变策略，这使得学习可能更加稳定。

缺点有：受限于离散动作；可能存在多个等价最优策略：当存在多个等效的最优策略时，基于价值的方法可能会在它们之间不停地切换。

基于策略的算法：

后者的优点有：直接优化策略：由于这些算法直接操作在策略上，所以它们可能更容易找到更好的策略；适用于连续动作空间；更高效的探索：通过调整策略的随机性，基于策略的方法可能会有更高效的探索策略。

缺点有：高方差：策略更新可能会带来高方差，这可能导致需要更多的样本来学习。可能会收敛到局部最优：基于策略的方法可能会收敛到策略的局部最优，而不是全局最优，且收敛较缓慢。在实践中，还存在结合了基于价值和基于策略方法的算法，即
$\text{Actor-Critic}$ 算法，试图结合两者的优点来克服各自的缺点。选择哪种方法通常取决于具体的应用和其特点。

马尔可夫平稳分布需要满足什么条件？

状态连通性：从任何一个状态可以在有限的步数内到达另一个状态；
非周期性：由于马尔可夫链需要收敛，那么就一定不能是周期性的。

$\text{REINFORCE}$ 算法会比 $\text{Q-learning}$ 算法训练速度更快吗？为什么？

两者的速度不能一概而论，尽管前者往往会比后者慢。主要考虑几个因素：

样本效率：因为 $\text{REINFORCE}$ 算法是一个无偏的估计，但其方差可能很高，这意味着为了得到一个稳定和准确的策略更新，它可能需要与环境交互更多的样本，如果与环境交互的成本很高， $\text{REINFORCE}$
算法将会显得更加劣势。

稳定性与收敛： $\text{Q-learning}$ 和其他基于值的方法，特别是当与深度神经网络结合时，可能会遇到训练不稳定的问题。这可能会影响其训练速度。

确定性策略与随机性策略的区别？

对于同一个状态，确定性策略会给出一个明确的、固定的动作，随机性策略则会为每一个可能的动作（legal action）提供一个概率分布。

前者在训练中往往需要额外的探索策略，后者则只需要调整动作概率。

但前者相对更容易优化，因为不需要考虑所有可能的动作，但也容易受到噪声的影响。后者则相对更加鲁棒，适用面更广，因为很多的实际问题中，我们往往无法得到一个确定的最优策略，而只能得到一个概率分布，尤其是在博弈场景中。

总结

本文从对比基于价值的算法和基于梯度的算法，分析了它们各自的优缺点，之后用一个直观的例子引入了策略梯度算法，REINFORCE算法用来解决轨迹无限多而无法计算的问题，但是这个算法由于假定了目标是使得每回合的累积价值最大，而每回合的累积奖励或回报会受到很多因素的影响，比如回合的长度、奖励的稀疏性等等，从而泛化性不够。为了解决这个问题，提出了基于平稳分布的策略梯度算法。最后介绍了一下策略函数的实现。

leetcode字节面试高频题思路总结（二叉树专栏） hust_yrh leetcode 算法面试二叉树
leetcode刷题，一个好的思路很重要，刷leetcode不如就只看好的解题思路，记下来关键思路然后面试的时候就会容易很多。自己的算法思路可能就会有很多冗余代码，跟好的算法思路比起来差距很大，并且看了很多题解就不会出现有没有一点思路的情况。举例：顺时针打印数组，寻找重复数lc287，k个一组翻转链表。(乱序)顺时针打印：先第一行，然后消去，再最后一列，然后消去，最下一行，然后消去…287：给定一
PyTorch动态计算图:如何灵活构建复杂模型 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PyTorch动态计算图:如何灵活构建复杂模型关键词：PyTorch、动态计算图、自动微分、反向传播、神经网络、模型构建、计算图优化文章目录PyTorch动态计算图:如何灵活构建复杂模型1.背景介绍1.1深度学习框架的发展1.2静态图与动态图的对比1.3PyTorch的崛起及其优势2.核心概念与联系2.1PyTorch中的张量(Tensor)2.2自动微分(Autograd)机制2.3动态计算图的
深度学习框架PyTorch原理与实践 AI天才研究院 AI实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.简介2.背景介绍3.基本概念和术语3.1PyTorch简介3.2PyTorch的特点1）自动求导机制2）GPU加速3）模型部署4）数据管道5）代码阅读友好4.核心算法原理4.1神经网络结构4.2神经网络层4.3激活函数5.实际案例——MNIST手写数字识别数据准备模型定义训练测试整体代码1.简介Deeplearning(DL)hasbeenanincreas
LeetCode--347. 前 K 个高频元素/Golang中的堆(container/heap) Rinai_R LeetCode leetcode golang 算法数据结构
例题链接-前k个高频元素前言以前都是用的C++写算法题，最近也想熟悉一下golang的数据结构，故来一篇题解+堆分析。正文这里重点不在分析题目，在于golang中的container/heap对于内部实现逻辑有兴趣的可以去看看源码。这里先给出题解的代码packagemainimport("container/heap""fmt")//IHeap是一个最小堆的实现typeIHeap[][2]intf
自动生成关于软件程序开发的100个文件并可提供下载入口唐城 postgresql 数据库人工智能电脑机器人
创建一个包含100个关于软件程序开发的文件并提供下载入口是一个庞大的任务，因为这需要编写大量的代码、文档和示例。不过，我可以提供一个大致的框架和指导，帮助你生成这些文件，并说明如何设置下载入口。文件生成思路编程语言文件：每种主流编程语言（如Python、Java、C++、JavaScript等）的HelloWorld程序。数据结构示例（链表、树、图等）。算法实现（排序、搜索等）。项目模板：Web项
Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
R语言环境下载和RStudio安装教程 CyberXZ r语言开发语言 R语言
R语言环境下载和RStudio安装教程R语言是一种广泛应用于统计计算和数据分析的编程语言。它提供了丰富的统计和图形功能，被广泛用于数据科学、机器学习和数据可视化等领域。本教程将向您介绍如何下载和安装R语言环境以及RStudio集成开发环境。步骤1：下载R语言环境首先，您需要下载R语言环境。请按照以下步骤进行操作：在您的Web浏览器中打开R官方网站（https://www.r-project.org
自动驾驶系列—深度剖析自动驾驶芯片SoC架构：选型指南与应用实战学步_技术自动驾驶自动驾驶架构人工智能 SoC 芯片
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
分布式id-雪花算法精通HelloWorld! 分布式 java 算法
通常我们在生成用户id或者订单id时都需要一个全局唯一的id来唯一标识，在单体情况下我们可以使用UUID、时间戳、数据库自增id而在分布式情况下，需要考虑大量服务器之间生成的id全局唯一，所以就使用了今天要介绍的雪花算法来生成分布式下的全局id单体服务UUID、时间戳、数据库自增id存在以下问题：UUID是无序的且数据非常大（128bit），且一般会使用36位长度的字符串存储，这样会导致id存入数
排序算法--基数排序和风化雨代码库排序算法算法数据结构 c语言 c++
核心思想是按位排序（低位到高位）。适用于定长的整数或字符串，如例如：手机号、身份证号排序。按数据的每一位从低位到高位（或相反）依次排序，每次排序使用稳定的算法（如计数排序）。#include//获取数组中最大值（用于确定位数）intgetMax(intarr[],intn){intmax=arr[0];for(inti=1;imax){max=arr[i];}}returnmax;}//使用计数排
前端导出Excel实践：探索xlsl的实现方式 linwu-hi 前端 excel 状态模式 javascript ecmascript typescript
点击在线阅读，体验更好链接现代JavaScript高级小册链接深入浅出Dart链接现代TypeScript高级小册链接linwu的算法笔记链接前言最近写管理端的需求，发现有一个excel导出的需求，本来是后端同学负责，但是因为他们太忙了，把这块任务交给前端了，起初产品觉得前端实现不了，一听这话，这我哪里受得了，赶紧写了个demo给她看，前端是可以实现的。enen,产品看了直夸牛逼接下来，我来分享导
DeepSeek R1 AI 论文翻译老马啸西风 java
摘要原文地址：DeepSeekR1AI论文翻译我们介绍了我们的第一代推理模型，DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，且在此过程中未使用监督微调（SFT）作为预处理步骤，展现出了显著的推理能力。通过RL，DeepSeek-R1-Zero自然而然地展现了许多强大且引人注目的推理行为。然而，它也遇到了一些挑战
构建由局部观测、分布式决策与全局奖励协同作用的多智能体强化学习系统由数入道分布式强化学习智能体
1.问题背景与建模：从自治调度到POMDP1.1自治调度问题与多智能体环境在实际应用中（例如生产调度、资源分配等），多个自治决策单元（智能体）需要在一个共享的环境中协同工作，每个智能体只能获取局部信息（例如自身状态或部分环境观测），但它们的行为会相互影响。传统的单智能体强化学习（RL）模型难以直接适用于这种场景，因此需要多智能体强化学习（MARL）的方法。1.2将问题转化为部分可观测马尔可夫决策过
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
无线电罗盘改进自KerberosSDR 平替KrakenSDR 老邵的科创世界 KerberosSDR krakensdr kerberossdr 无线电测向
大约5年前，一款易上手的无线电测向机——KerberosSDR横空出世。它是一款多通道相参接收机，由4通道rtlsdr组成。相信大家都是知道，要实现无线电测向，除了硬件上需要特殊的电路设计外，还需要一些软件校准算法。而KerberosSDR相比之前其它同类SDR（如USRPQR210,X310或LimeSDRQPCIe），它的优势就在于事先做好了这个软件，用户只需要把树莓派烧录好配套镜像就能使用。
算法：蓝桥杯——四平方和（C语言） _DonQuijote C语言算法 c语言算法
目录问题说明设计思路程序代码运行结果反思什么是二分法？什么是打表法？数组排序函数qsort（）问题说明四平方和定理，又称为拉格朗日定理：每个正整数都可以表示为至多4个正整数的平方和，如果把0包括进去，就正好可以表示为4个数的平方和。比如：5=0^2+0^2+1^2+2^27=1^2+1^2+1^2+2^2（^符号表示乘方的意思）对于一个给定的正整数，可能存在多种平方和的表示法。要求你对4个数排序：
JS混合加密,JS混淆加密,js混合加密工具-站长工具网 zhaoxiaoming4444 javascript 网络开发语言 php html5 c语言
JS混合加密、JS混淆加密和JS混合加密工具随着互联网技术的发展，网页安全问题越来越受到关注。为了提高网页的安全性，一些加密技术被广泛应用。其中，JS混合加密、JS混淆加密和JS混合加密工具是三种常用的技术。本文将介绍这些技术的概念、应用和工具，帮助站长更好地保护网站的安全。一、JS混合加密JS混合加密是一种将加密算法与JavaScript代码相结合的技术。它通过将敏感信息加密后存储在JavaSc
Diffusion--人工智能领域的革命性技术油泼辣子多加专业名词解释人工智能
在人工智能领域，“diffusion”一词通常指的是“扩散模型”（DiffusionModels），其全称为“DenoisingDiffusionProbabilisticModels”（DDPMs）。扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机
python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
探索2025年的编程新趋势：技术、工具与未来展望桂月二二 wasm 人工智能前端
随着2025年的到来，编程技术领域依旧在高速发展。一些新兴的技术方向、工具和方法正在悄然改变开发者的日常实践。如果您是一名开发者，无论是资深还是初入门道，跟上这些趋势将让您的技能保持前沿，并为职业发展打下坚实基础。本文将从多个维度深入探讨当前最值得关注的编程技术，希望为您的技术提升带来启发。一、AI驱动的编程辅助工具人工智能已成为程序开发的重要组成部分。以下是几款2025年值得关注的AI驱动编程工
基于Hexo的主题Fluid搭建Github博客 qq742234984 计算机 github git npm node.js hexo
公众号：数学建模与人工智能基于Hexo的主题Fluid搭建Github博客一、Github配置1.安装Git2.部署本地Git与Github连接（SSH）二、node.js安装和环境配置1.安装node.js2.查看安装是否成功（版本号）3.配置环境变量三、下载Hexo并配置fluid主题1.下载Hexo2.配置fluid主题1.安装fluid2.配置fluid3.更新部署博客页面4.部署到git
Android研发去美团面试，被面试官用各种原理蹂躏，所幸最终拿到Offer 2401_87029500 android 面试职场和发展
一个线程是否只有一个Looper？如何保证一个线程只有一个Looper？多线程的方式有哪些？生产者消费者模式wait和sleep的区别String、StringBuffer、StringBuilder的区别ANR异常发生条件如何分析ANR自定义View和ViewGroup事件处理分发，拦截，处理。GC算法四大引用强，软，弱，虚，并说明下合适GC动画View动画，属性动画，帧动画。再说下View和属
机器学习--学习计划 kyle~ 机器学习机器学习学习人工智能
3周机器学习速成计划基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为理论学习+项目实战，每周学习后通过5个递进项目巩固知识。第1周：数据与监督学习基础学习目标：掌握数据预处理、线性模型与分类任务的基础流程。核心概念（20%关键内容）：数据预处理缺失值处理（均值填充、删除）特征缩放（标准化、归一化）分类变量编码（独热编码、标签编码）监督学习基础线性回归（原理、损失函
机器学习--概览 kyle~ 机器学习机器学习人工智能
一、机器学习基础概念1.定义机器学习（MachineLearning,ML）：通过算法让计算机从数据中自动学习规律，并利用学习到的模型进行预测或决策，而无需显式编程。2.与编程的区别传统编程机器学习输入：规则+数据→输出：结果输入：数据+结果→输出：规则需要人工编写逻辑自动发现数据中的模式3.核心要素数据：模型学习的原材料（结构化/非结构化）特征（Feature）：数据的可量化属性（如房价预测中的
机器学习笔记20241017 tt555555555555 学习笔记深度学习机器学习笔记人工智能
文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing）梯度消失原因解决方法梯度爆炸（GradientExplosion）定义原因解决方法总结继续跟着小土堆学pytorchtorchvision#导入torchvision库，主要用于处理图像数据集
基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究（python进行数据处理并完成建模，对品种进行预测） Life is a joke PYTHON 人工智能机器学习机器学习集成学习人工智能
1.前言金线莲为兰科开唇兰属植物，别名金丝兰、金丝线、金耳环、乌人参、金钱草等，是一种名贵中药材，国内主要产地为较低纬度地区如：福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1]，被当地人民誉为“药中之王”，福建品种和台湾品种更是其中的上等品种，在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
关于双塔模型的简单介绍 eso1983 python 算法推荐算法
双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构，其核心思想是将用户和物品分别映射到不同的向量空间，通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例使用python语言来简单示例一下实现过程如下：importtensorflowastffromtensorflow.keras.layersimportInput,Dense,Embedding,Concaten
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

深度强化学习Task2：策略梯度算法

文章目录

基于价值算法和基于策略算法的比较

策略梯度算法

策略梯度算法的直观理解

策略梯度算法

REINFORCE算法

基于平稳分布的策略梯度算法

REINFORCE算法实现

策略函数设计

模型设计

更新函数设计

练习

总结

你可能感兴趣的:(深度学习,算法,机器学习,人工智能,强化学习,深度学习)