yuan〇

【强化学习】12 —— 策略梯度（REINFORCE ）

文章目录

前言
策略梯度
- 基于策略的强化学习的优缺点
- Example:Aliased Gridworld
- 策略目标函数
- 策略优化
- 策略梯度
- 利用有限差分计算策略梯度
- 得分函数和似然比
- 策略梯度定理
- 蒙特卡洛策略梯度（Monte-Carlo Policy Gradient）
- - Puck World Example
- Softmax随机策略
代码实践
- 结果
参考

前言

之前在【强化学习】09——价值和策略近似逼近方法中讨论过使用参数 $\theta$ 来近似价值函数 $V$ 或状态价值函数 $Q$ $\begin{aligned}V_\theta(s)&\approx V^\pi(s)\\Q_\theta(s,a)&\approx Q^\pi(s,a)\end{aligned}$ 之后，再通过价值函数推导出相应的策略（比如利用 $\epsilon$ -贪婪策略）。

本节将主要讨论直接参数化策略的方法 $\pi_{\theta}(s,a)$ 。策略可以是确定性的—— $a=\pi_{\theta}(s)$ ，也可以是随机的—— $\pi_\theta(s,a)=\mathbb{P}[a\mid s,\theta]$ 。通过参数化策略可以将可见的已知状态泛化到未知的状态上。在本节中我们主要讨论的是模型无关的强化学习。

强化学习算法主要可以分为基于价值函数(Value-Based)的、基于策略的(Policy-Based)以及基于Actor-Critic（后文会进行介绍）框架的。

三者区别如下表所示：

Methods	Value	Policy
Value Based	学习到的价值函数	隐式的策略，如 $\epsilon$ -贪婪策略
Policy Based	没有价值函数	学习到的策略
Actor-Critic	学习到的价值函数	学习到的策略

策略梯度

基于策略的强化学习的优缺点

优点

具有更好的收敛性质
在高维度或连续的动作空间中更有效
- 这是最重要的因素：基于值函数的方法，通常需要取最大值
能够学习出随机策略

缺点

通常会收敛到局部最优而非全局最优（基于值函数的方法也可能出现）
评估一个策略通常不够高效并具有较大的方差（variance）

Example:Aliased Gridworld

智能体无法区分灰色部分的格子
移动方向N, E, S, W

对于一个确定性的策略，可能会出现以下情况：

在灰色区域同时向W方向移动
或在灰色区域同时向E方向移动

因此，就无法抵达终点，获得奖励。基于价值函数的策略是近于确定性的策略（greedy or $\epsilon$ -greedy），因此会在上面的区域经过很长的时间才可能获得奖励。

对于随机性的策略，在灰色区域向W或E方向移动的概率五五开。 $\begin{aligned}\pi_\theta(\text{wall to N and S, move E})&=0.5\\\pi_\theta(\text{wall to N and S, move W})&=0.5\end{aligned}$ 随机性的策略很有可能在几步内达到目标状态。基于策略的方法可以学习到最优的随机性策略。

策略目标函数

目标：给定策略 $\pi_{\theta}(s,a)$ ，找到最优的 $\theta$ 。以下为几种衡量策略 $\pi_{\theta}(s,a)$ 质量的方法：

在离散episodic的环境中使用起始价值（start value）： $J_1(\theta)=V^{\pi_\theta}(s_1)=\mathbb{E}_{\pi_\theta}\left[v_1\right]$
在连续 continuing的环境中使用平均价值（average value）： $J_{avV}(\theta)=\sum_sd^{\pi_\theta}(s)V^{\pi_\theta}(s)$
或者是每步的平均奖励average reward per time-step： $J_{avR}(\theta)=\sum_sd^{\pi_\theta}(s)\sum_a\pi_\theta(s,a)R_s^a$
$\pi_{\theta}$ 服从 $d^{\pi_\theta}(s)$ 分布

策略优化

基于策略的强化学习本质是一个优化问题，对于目标函数 $J({\theta})$ ，找到合适的 $\theta$ ，使得目标函数最大化。

未使用梯度的方法
- Hill climbing
- Simplex / amoeba / Nelder Mead
- Genetic algorithms
使用梯度的方法
- Gradient descent
- Conjugate gradient
- Quasi-newton
  在本节中，主要讨论基于梯度下降的方法。

策略梯度

同样的，对于目标函数 $J({\theta})$ ，策略梯度算法需要通过不断提升策略的梯度以找到 $J({\theta})$ 的局部最大值， $\Delta\theta=\alpha\nabla_\theta J(\theta)$ 。其中 $\nabla_\theta J(\theta)$ 为策略梯度 $\nabla_\theta J(\theta)=\begin{pmatrix}\frac{\partial J(\theta)}{\partial\theta_1}\\\vdots\\\frac{\partial J(\theta)}{\partial\theta_n}\end{pmatrix}$

利用有限差分计算策略梯度

对于维度 $k\in[1,n]$
- 估计滴 $k$ 维上目标函数 $J({\theta})$ 对 $\theta$ 的偏微分
- 引入偏移量 $\epsilon u_k$ ，用差分近似微分。其中 $u_k$ 是单位向量，第 $k$ 个分量中为1，其他分量中为0. $\frac{\partial J(\theta)}{\partial\theta_k}\approx\frac{J(\theta+\epsilon u_k)-J(\theta)}\epsilon$
简单、噪声大、效率低，但有时有效
适用于任意策略，即使策略不可微分

得分函数和似然比

似然比（Likelihood ratios）利用下列特性 $\begin{aligned} \nabla_\theta\pi_\theta(s,a)& =\pi_\theta(s,a)\frac{\nabla_\theta\pi_\theta(s,a)}{\pi_\theta(s,a)} \\ &=\pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a) \end{aligned}$ 其中， $\nabla_\theta\log\pi_\theta(s,a)$ 是得分函数（score function）

考虑一个简单的单步马尔可夫决策过程

起始状态为~()
决策过程在进行一步决策后结束，获得奖励值为 $r=\mathcal R_{s,a}$

所以策略的价值期望可以写成 $\begin{aligned} J(\theta)& =\mathbb{E}_{\pi_\theta}\left[r\right] \\ &=\sum_{s\in\mathcal{S}}d(s)\sum_{a\in\mathcal{A}}\pi_\theta(s,a)\mathcal{R}_{s,a} \\ \nabla_\theta J(\theta)&=\sum_{s\in\mathcal{S}}d(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi_\theta(s,a)\\& =\sum_{s\in\mathcal{S}}d(s)\sum_{a\in\mathcal{A}}\color{red}\pi_\theta(s,a)\nabla_\theta\log\pi_\theta(s,a)\mathcal{R}_{s,a} \\ &=\mathbb{E}_{\pi_\theta}\left[\nabla_\theta\log\pi_\theta(s,a)r\right] \end{aligned}$

这一结果可以通过从 $d (s)$ 中采样状态 $s$ 和从 $π_θ$ 中采样动作来近似估计

策略梯度定理

策略梯度定理把似然比的推导过程泛化到多步马尔可夫决策过程.用长期的价值函数 $Q^{\pi_\theta}(s,a)$ 代替前面的瞬时奖励 $r=\mathcal R_{s,a}$ 。策略梯度定理涉及起始状态目标函数 $J_1$ ，平均奖励目标函数 $J_{avR}$ ，和平均价值目标函数 $J_{avV}$ .
定理
对任意可微的策略 $\pi_{\theta}(s,a)$ ，任意策略的目标函数 $J_1，J_{avR}，J_{avV}$ ，其策略梯度是 $\nabla_\theta J(\theta)=\color{red}{\mathbb{E}_{\pi_\theta}\left[\nabla_\theta\log\pi_\theta(s,a)\right.Q^{\pi_\theta}(s,a)}]$ 这种形式也是 $\frac{\partial J(\theta)}{\partial\theta}=\mathbb{E}_{\pi_\theta}\left[\frac{\partial\mathrm{log}\pi_\theta(a|s)}{\partial\theta}Q^{\pi_\theta}(s,a)\right]$

详细证明过程请参考:

Rich Sutton’s Reinforcement Learning: An Introduction (2nd Edition)第13章
动手学强化学习策略梯度的附录

蒙特卡洛策略梯度（Monte-Carlo Policy Gradient）

利用随机梯度上升更新参数
利用策略梯度定理
利用累计奖励值 $G_t$ 作为 $Q^{\pi_\theta}(s,a)$ 的无偏采样 $\Delta\theta_t=\alpha\frac{\partial\log\pi_\theta(a_t|s_t)}{\partial\theta}G_t$

REINFORCE算法伪代码

Puck World Example

连续的动作对冰球施加较小的力
冰球接近目标可以得到奖励
目标位置每30秒重置一次
使用蒙特卡洛策略梯度方法训练策略

Softmax随机策略

对于具体策略的设计，通常使用Softmax随机策略。Softmax策略是一种非常常用的随机策略 $\pi_\theta(a|s)=\frac{e^{f_\theta(s,a)}}{\sum_{a^{\prime}}e^{f_\theta(s,a^{\prime})}}$ 式中， $f_\theta(s,a)$ 是用参数化的状态-动作对得分函数，可以预先定义。其对数似然的梯度是 $\begin{gathered} \frac{\partial\text{log}\pi_\theta(a|s)}{\partial\theta} \begin{aligned}=\frac{\partial f_\theta(s,a)}{\partial\theta}-\frac{1}{\sum_{a^{\prime}}e^{f_\theta(s,a^{\prime})}}\sum_{a^{\prime\prime}}e^{f_\theta(s,a^{\prime\prime})}\frac{\partial f_\theta(s,a^{\prime\prime})}{\partial\theta}\end{aligned} \\ =\frac{\partial f_\theta(s,a)}{\partial\theta}-\mathbb{E}_{a^{\prime}\sim\pi_\theta(a^{\prime}|s)}\left[\frac{\partial f_\theta(s,a^{\prime})}{\partial\theta}\right] \end{gathered}$

举线性得分函数为例，则有 $\begin{aligned} &f_{\theta}(s,a)=\theta^{\mathrm{T}}x(s,a) \\ \frac{\partial\text{log}\pi_\theta(a|s)}{\partial\theta}& =\frac{\partial f_{\theta}(s,a)}{\partial\theta}-\mathbb{E}_{a^{\prime}\sim\pi_{\theta}(a^{\prime}|s)}\left[\frac{\partial f_{\theta}(s,a^{\prime})}{\partial\theta}\right] \\ &=x(s,a)-\mathbb{E}_{a^{\prime}\sim\pi_{\theta}(a^{\prime}|s)}[x(s,a^{\prime})] \end{aligned}$

代码实践

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return F.softmax(self.fc2(x), dim=1)

class REINFORCE:
    def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma,
                device, numOfEpisodes, env):
        self.policy_net = PolicyNet(state_dim, hidden_dim, action_dim).to(device)
        self.optimizer = torch.optim.Adam(self.policy_net.parameters(), lr=learning_rate)
        self.gamma = gamma
        self.device = device
        self.env = env
        self.numOfEpisodes = numOfEpisodes

    # 根据动作概率分布随机采样
    def takeAction(self, state):
        state = torch.tensor(np.array([state]), dtype=torch.float).to(self.device)
        action_probs = self.policy_net(state)
        action_dist = torch.distributions.Categorical(action_probs)
        action = action_dist.sample()
        return action.item()

    def update(self, transition_dict):
        reward_list = transition_dict['rewards']
        state_list = transition_dict['states']
        action_list = transition_dict['actions']
        G = 0
        self.optimizer.zero_grad()
        for i in reversed(range(len(reward_list))):
            reward = reward_list[i]
            state = torch.tensor(np.array([state_list[i]]), dtype=torch.float).to(self.device)
            action = torch.tensor(np.array([action_list[i]]), dtype=torch.int64).view(-1, 1).to(self.device)
            log_prob = torch.log(self.policy_net(state).gather(1, action))
            G = self.gamma * G + reward
            loss = -log_prob * G  # 每一步的损失函数
            loss.backward()  # 反向传播计算梯度
        self.optimizer.step()  # 梯度下降

    def REINFORCERun(self):
        returnList = []
        for i in range(10):
            with tqdm(total=int(self.numOfEpisodes / 10), desc='Iteration %d' % i) as pbar:
                for episode in range(int(self.numOfEpisodes / 10)):
                    # initialize state
                    state, info = self.env.reset()
                    terminated = False
                    truncated = False
                    episodeReward = 0
                    transition_dict = {
                        'states': [],
                        'actions': [],
                        'next_states': [],
                        'rewards': [],
                        'terminateds': [],
                        'truncateds':[]
                    }
                    # Loop for each step of episode:
                    while (not terminated) or (not truncated):
                        action = self.takeAction(state)
                        next_state, reward, terminated, truncated, info = self.env.step(action)
                        if terminated or truncated:
                            break
                        transition_dict['states'].append(state)
                        transition_dict['actions'].append(action)
                        transition_dict['next_states'].append(next_state)
                        transition_dict['rewards'].append(reward)
                        transition_dict['terminateds'].append(terminated)
                        transition_dict['truncateds'].append(truncated)
                        state = next_state
                        episodeReward += reward
                    self.update(transition_dict)
                    returnList.append(episodeReward)
                    if (episode + 1) % 10 == 0:  # 每10条序列打印一下这10条序列的平均回报
                        pbar.set_postfix({
                            'episode':
                                '%d' % (self.numOfEpisodes / 10 * i + episode + 1),
                            'return':
                                '%.3f' % np.mean(returnList[-10:])
                        })
                    pbar.update(1)
        return returnList

结果

可以看到，随着收集到的轨迹越来越多，REINFORCE 算法有效地学习到了最优策略。不过，相比于前面的 DQN 算法，REINFORCE 算法使用了更多的序列，这是因为 REINFORCE 算法是一个在线策略算法，之前收集到的轨迹数据不会被再次利用。此外，REINFORCE 算法的性能也有一定程度的波动，这主要是因为每条采样轨迹的回报值波动比较大，这也是 REINFORCE 算法主要的不足。

REINFORCE 算法是策略梯度乃至强化学习的典型代表，智能体根据当前策略直接和环境交互，通过采样得到的轨迹数据直接计算出策略参数的梯度，进而更新当前策略，使其向最大化策略期望回报的目标靠近。这种学习方式是典型的从交互中学习，并且其优化的目标（即策略期望回报）正是最终所使用策略的性能，这比基于价值的强化学习算法的优化目标（一般是时序差分误差的最小化）要更加直接。 REINFORCE 算法理论上是能保证局部最优的，它实际上是借助蒙特卡洛方法采样轨迹来估计动作价值，这种做法的一大优点是可以得到无偏的梯度。但是，正是因为使用了蒙特卡洛方法，REINFORCE 算法的梯度估计的方差很大，可能会造成一定程度上的不稳定，这也是后面将介绍的 Actor-Critic 算法要解决的问题。

参考

[1] 伯禹AI
[2] https://www.davidsilver.uk/teaching/
[3] 动手学强化学习
[4] Reinforcement Learning

【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
Python 爬虫实战：解析接口爬取搜狐新闻评论（评论情感极性判断） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、项目概述在信息爆炸的时代，新闻评论成为公众表达意见和情感的重要渠道。搜狐新闻作为国内领先的新闻平台，积累了海量的用户评论数据。本项目旨在通过Python爬虫技术解析搜狐新闻评论接口，高效抓取评论数据，并借助情感分析算法判断评论情感极性，洞察公众舆论倾向，为舆情分析、内容优化等提供数据支撑。二、环境搭建与技术选型（一）Python环境配置安装Python：推荐使用Python3.8+版本，确保兼
嵌套列表与二维列表的遍历方法
在Python的世界中，列表（list）是最为基础而强大的数据结构之一。而当一个列表的元素本身又是列表时，我们便进入了嵌套列表（NestedList）或更通用的二维列表（2DList）的语境中。无论是在软件开发、测试数据构造、数据分析、机器学习、自动化运维还是教育教学场景中，嵌套结构的遍历与处理都是工程能力的一项基本功。本文将系统剖析Python中处理嵌套列表和二维列表的常用遍历方式，从基础语法到
【软件系统架构】系列四：多核处理器架构与调度（Deep Dive） 34号树洞自学软件系统架构系统架构嵌入式硬件嵌入式软件
目录一、多核处理器架构1.缓存结构与内存一致性2.超线程技术（Hyper-Threading）3.多核架构的优势二、多核架构类型详解（1）对称多核结构（SymmetricMulti-Processing,SMP）（2）非对称多核结构（AsymmetricMulti-Processing,AMP）（3）混合式多核结构（HeterogeneousMulti-Core）三、多核调度算法与策略1.调度目标
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
设计模式之策略模式码蚁Q 设计模式设计模式策略模式
一、定义策略模式定义了一系列的算法，把它们一个个封装起来，并且使它们可以互相替换。本模式使得算法可独立于使用它的客户端而变化。通俗理解：将一组相似的行为抽象出来，通过统一的接口进行约束，客户端根据实际情况选择使用哪种行为策略。二、适用场景策略模式适用于以下场景：系统中有许多类仅在行为上略有不同，使用条件语句（if-else或switch-case）判断行为；希望将算法的使用与实现解耦，使代码更加灵
探索生成式 AI Agent：12类，40+个AI Agent实例应用场景的宝藏库和老莫一起学AI 人工智能产品经理职场和发展面试自然语言处理 ai 大模型
在人工智能的璀璨星空中，生成式AI智能体（GenAIAgents）无疑是最耀眼的星辰之一，正以前所未有的速度改变着我们与技术互动的方式。今天，我将分享GitHub上一个宝藏级的项目——“NirDiamant/GenAI_Agents”，这里汇聚了从基础到高级的各种GenAI智能体技术教程与实现案例，堪称一座智能体开发的知识宝库。1.适合初学者的智能体简单会话智能体概览通过集成语言模型、提示模板和历
VSCode-Copilot的系统提示词 youngqqcn AI vscode copilot ide
title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat,以下是其系统提示词的摘录。https://github.com/microsoft/vscode-copilot-chat/blob/main/src/extension/prom
电商导购系统佣金计算引擎设计：高并发场景下的实时分润算法与规则引擎实现省赚客APP开发者@聚娃科技算法
电商导购系统佣金计算引擎设计：高并发场景下的实时分润算法与规则引擎实现大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！在电商导购系统中，佣金计算引擎是核心模块之一，尤其是在高并发场景下，如何实现高效的实时分润算法和灵活的规则引擎，是系统设计的关键。本文将详细探讨如何设计一个高性能、高可用的佣金计算引擎，以满足电商导购系统的需求。一、佣金计算引擎的挑战电商
算法——寻找重复的数努力撸代码的小刑 java 数据结构算法 java
案例分析：给定一个包含n+1个整数的数组nums，其数字都在1到n之间（包括1和n），可知至少存在一个重复的整数。假设只有一个重复的整数，找出这个重复的数。示例1:输入:[1,3,4,2,2]输出:2示例2:输入:[3,1,3,4,2]输出:3说明：不能更改原数组（假设数组是只读的）。
力扣网C语言编程题：快慢指针来解决 “寻找重复数” 魏劭 C语言逻辑编程题算法 c语言 leetcode
一.简介上一篇文章解决力扣网上"查找重复数"的题目，提供了两种思路：哈希表和二分法。文章如下：力扣网C语言编程题：寻找重复数-CSDN博客本文提供另外两种解决思路：快慢指针和位运算。二.力扣网C语言编程题：快慢指针来解决“寻找重复数”解题思路三：（快慢指针）什么是快慢指针？快慢指针（FastandSlowPointers）是一种在链表或数组中高效检测环、查找中点或特定位置的算法技巧。其核心思想是使
java面试题47你工作过程用过哪些设计模式？说出“代理模式”的原理？码农颜 java 设计模式代理模式
在工作中，我虽然没有直接的“开发经历”，但处理用户请求和设计响应时，设计模式是解决问题的核心逻辑。我高频使用的模式包括：策略模式（动态切换算法/行为）观察者模式（事件通知/状态更新）责任链模式（分步处理请求）工厂模式（封装对象创建）代理模式（控制对象访问）深入解析：代理模式（ProxyPattern）核心思想：用一个代理对象作为真实对象的替身，从而控制对真实对象的访问。本质：在客户端和目标对象之间
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
《二分枚举答案(配合经典算法)》题集英雄哪里出来算法数据结构英雄算法联盟二分
文章目录1、模板题集2、课内题集3、课后题集1.差分2.贪心/排序3.二维前缀和4.K大数5.BFS6.最短路7.数位DP1、模板题集分巧克力2、课内题集倒水冶炼金属连续子序列的个数3、课后题集括号内的整数代表完整代码行数。1.差分粉刷小能手小蓝(42)操作数组的最小次数(43)森林的最大美丽值(44)2.贪心/排序信号塔(33)可得到的最大团队默契(35)3.二维前缀和小秋的矩阵(48)4.K大
量子算法：微算法科技用于定位未知哈希图的量子算法，网络安全中的哈希映射突破 MicroTech2025 量子计算哈希算法
近年来，量子计算的飞速发展使其成为各个领域的变革力量。特别是在网络安全领域，量子算法展示了加速并增强威胁检测（如恶意软件识别）方法的巨大潜力。微算法科技（NASDAQ:MLGO）用于定位未知哈希图的量子算法，是针对未知哈希图定位而设计的量子算法。这项技术可能会彻底改变在数据处理中利用哈希值的方式，特别是在恶意软件模式识别中。传统网络安全框架通常依赖哈希函数来生成不同数据结构的唯一标识符，或称之为“
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
LeetCode - #106 从中序与后序遍历序列构造二叉树网罗开发 Swift #LeetCode leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到105期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
LeetCode - #144 二叉树的前序遍历网罗开发 Swift leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到143期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
【PHP开发900个实用技巧】405.API限流技术：Redis实现令牌桶算法的高级用法精通代码大仙 PHP开发900个实用技巧 php redis 算法程序员创富
百万并发下的生存法则：用Redis+Lua构建坚不可摧的API流量防线！本文将揭示令牌桶算法在PHP高并发场景的核心实现技巧，包括Lua原子操作、动态策略配置与深度避坑指南，让你的API从此从容应对流量风暴。API限流技术：Redis实现令牌桶高级用法01.令牌桶原理解析02.Redis为何是最强拍档03.PHP实战四步曲3.1Lua脚本原子操作3.2对象封装技巧3.3动态参数配置3.4平滑突发流
国密算法如何守护金融安全？7大核心场景全解析南京首传信安科技有限公司密码应用密码应用金融安全
目录一、主要应用场景1.基础设施安全2.身份认证与访问管理3.交易安全与不可否认性4.数据安全5.支付清算与结算6.移动金融安全7.风控与反欺诈二、商用密码应用带来的核心价值三、面临的挑战与趋势四、首传信安解决方案总结金融领域的安全需求是一个极其严苛、多层次、动态演进的体系，其核心目标是构建信任基础，确保资金安全、系统稳定、隐私合规、业务连续。商用密码算法在金融领域的应用是保障金融安全的核心技术支
算法复杂度分析每天一个秃顶小技巧算法 java 后端数据结构
算法复杂度分析前言算法（Algorithm）是指用来操作数据、解决程序问题的一组方法。对于同一个问题，使用不同的算法，也许最终得到的结果是一样的，但在过程中消耗的资源和时间却会有很大的区别。那么我们应该如何去衡量不同算法之间的优劣呢？主要还是从算法所占用的「时间」和「空间」两个维度去考量。时间维度：是指执行当前算法所消耗的时间，我们通常用时间复杂度来描述。空间维度：是指执行当前算法需要占用多少内存
数据结构—数组每天一个秃顶小技巧数据结构 golang 后端
数据结构—数组相关数据结构实现用go语言实现相关代码做题合集：https://github.com/longpi1/algorithm-pattern数组（Array）在Go中，数组是固定长度的连续内存块，长度在定义时确定且不可变。数组的使用场景较少，因为切片（slice）更加灵活，通常更常用。所以在做算法题时一般用切片进行编写定义和特点数组的长度是类型的一部分，例如[3]int和[4]int是不
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

【强化学习】12 —— 策略梯度（REINFORCE ）

文章目录

前言

策略梯度

基于策略的强化学习的优缺点

Example:Aliased Gridworld

策略目标函数

策略优化

策略梯度

利用有限差分计算策略梯度

得分函数和似然比

策略梯度定理

蒙特卡洛策略梯度（Monte-Carlo Policy Gradient）

Puck World Example

Softmax随机策略

代码实践

结果

参考

你可能感兴趣的:(强化学习,机器学习,强化学习,人工智能,算法)