Jasper0420

动手强化学习（九）：策略梯度算法

动手强化学习（七）：DQN 改进算法——Dueling DQN

1. 简介
2. 策略梯度
3. REINFORCE
4. REINFORCE 代码实践
5. 小结
6. 扩展：策略梯度证明

文章转于 伯禹学习平台-动手学强化学习 （强推）
本文所有代码均可在jupyter notebook运行
与君共勉，一起学习。

1. 简介

之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值（value-based）的方法，其中 Q-learning 是处理有限状态的算法，而 DQN 可以用来解决连续状态的问题。在强化学习中，除了基于值函数的方法，还有一支非常经典的方法，那就是基于策略（policy-based）的方法。对比两者，基于值函数的方法主要是学习值函数，然后根据值函数导出一个策略，学习过程中并不存在一个显式的策略；而基于策略的方法则是直接显式地学习一个目标策略。策略梯度是基于策略的方法的基础，本章从策略梯度算法说起。

2. 策略梯度

基于策略的方法首先需要将策略参数化。假设目标策略 $\pi_{\theta}$ 是一个随机性策略，并且处处可微，其中 ${\theta}$ 是对应的参数。我们可以用一个线性模型或者神经网络模型来为这样一个策略函数建模，输入某个状态，然后输出一个动作的概率分布。我们的目标是要寻找一个最优策略并最大化这个策略在环境中的期望回报。我们将策略学习的目标函数定义为
$J(\theta)=\mathbb{E}_{s_{0}}\left[V^{\pi_{\theta}}\left(s_{0}\right)\right]$
其中， $s_{0}$ 表示初始状态。现在有了目标函数，我们将目标函数对策略 $\theta$ 求导，得到导数后，就可以用梯度上升方法来最大化这个目标函数，从而得到最优策略。
第 3 章讲解过策略 $\pi$ 下的状态访问分布，在此用 $\nu \pi$ 表示。然后我们对目标函数求梯度，可以得到如下式子，更详细的推导过程将在后面给出。
$\begin{aligned} \nabla_{\theta} J(\theta) & \propto \sum_{s \in \mathcal{S}} \nu^{\pi_{\theta}}(s) \sum_{a \in A} Q^{\pi_{\theta}}(s, a) \nabla_{\theta} \pi_{\theta}(a \mid s) \\ &=\sum_{s \in \mathcal{S}} \nu^{\pi_{\theta}}(s) \sum_{a \in A} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a) \frac{\nabla_{\theta} \pi_{\theta}(a \mid s)}{\pi_{\theta}(a \mid s)} \\ &=\mathbb{E}_{\pi_{\theta}}\left[Q^{\pi_{\theta}}(s, a) \nabla_{\theta} \log \pi_{\theta}(a \mid s)\right] \end{aligned}$
一个状态下，梯度的修改是让策略更多地去采样到带来较高 $Q$ 值的动作，更少地去采样到带来较低 $Q$ 值的动作，如图所示。

$\nabla_{\theta} J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[\sum_{t=0}^{T}\left(\sum_{t^{\prime}=t}^{T} \gamma^{t^{\prime}-t} r_{t^{\prime}}\right) \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right]$
其中， $T$ 是和环境交互的最大步数。例如，在车杆环境中， $T = 200$ 。

3. REINFORCE

REINFORCE 算法的具体算法流程如下:

初始化策略参数 $\theta$
for 序列 $\rightarrow E$ do :
用当前策略 $\pi_{\theta}$ 采样轨迹 $\left\{s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2}, \ldots s_{T}, a_{T}, r_{T}\right\}$
计算当前轨迹每个时刻 $t$ 往后的回报 $\sum_{t^{\prime}=t}^{T} \gamma^{t^{\prime}-t} r_{t^{\prime}}$ ，记为 $\psi_{t}$
对 $\theta$ 进行更新, $\theta=\theta+\alpha \sum_{t}^{T} \psi_{t} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)$
end for

这便是 REINFORCE 算法的全部流程了。接下来让我们来用代码来实现它，看看效果如何吧!

4. REINFORCE 代码实践

我们在车杆环境中进行 REINFORCE 算法的实验。

import gym
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import rl_utils

首先定义策略网络PolicyNet，其输入是某个状态，输出则是该状态下的动作概率分布，这里采用在离散动作空间上的softmax()函数来实现一个可学习的多项分布（multinomial distribution）。


class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return F.softmax(self.fc2(x), dim=1)

再定义我们的 REINFORCE 算法。在函数take_action()函数中，我们通过动作概率分布对离散的动作进行采样。在更新过程中，我们按照算法将损失函数写为策略回报的负数，即，对求导后就可以通过梯度下降来更新策略。

class REINFORCE:
    def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma,
                 device):
        self.policy_net = PolicyNet(state_dim, hidden_dim,
                                    action_dim).to(device)
        self.optimizer = torch.optim.Adam(self.policy_net.parameters(),
                                          lr=learning_rate)  # 使用Adam优化器
        self.gamma = gamma  # 折扣因子
        self.device = device

    def take_action(self, state):  # 根据动作概率分布随机采样
        state = torch.tensor([state], dtype=torch.float).to(self.device)
        probs = self.policy_net(state)
        action_dist = torch.distributions.Categorical(probs)
        action = action_dist.sample()
        return action.item()

    def update(self, transition_dict):
        reward_list = transition_dict['rewards']
        state_list = transition_dict['states']
        action_list = transition_dict['actions']

        G = 0
        self.optimizer.zero_grad()
        for i in reversed(range(len(reward_list))):  # 从最后一步算起
            reward = reward_list[i]
            state = torch.tensor([state_list[i]],
                                 dtype=torch.float).to(self.device)
            action = torch.tensor([action_list[i]]).view(-1, 1).to(self.device)
            log_prob = torch.log(self.policy_net(state).gather(1, action))
            G = self.gamma * G + reward
            loss = -log_prob * G  # 每一步的损失函数
            loss.backward()  # 反向传播计算梯度
        self.optimizer.step()  # 梯度下降

定义好策略，我们就可以开始实验了，看看 REINFORCE 算法在车杆环境上表现如何吧！

learning_rate = 1e-3
num_episodes = 1000
hidden_dim = 128
gamma = 0.98
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
    "cpu")

env_name = "CartPole-v0"
env = gym.make(env_name)
env.seed(0)
torch.manual_seed(0)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
agent = REINFORCE(state_dim, hidden_dim, action_dim, learning_rate, gamma,
                  device)

return_list = []
for i in range(10):
    with tqdm(total=int(num_episodes / 10), desc='Iteration %d' % i) as pbar:
        for i_episode in range(int(num_episodes / 10)):
            episode_return = 0
            transition_dict = {
                'states': [],
                'actions': [],
                'next_states': [],
                'rewards': [],
                'dones': []
            }
            state = env.reset()
            done = False
            while not done:
                action = agent.take_action(state)
                next_state, reward, done, _ = env.step(action)
                transition_dict['states'].append(state)
                transition_dict['actions'].append(action)
                transition_dict['next_states'].append(next_state)
                transition_dict['rewards'].append(reward)
                transition_dict['dones'].append(done)
                state = next_state
                episode_return += reward
            return_list.append(episode_return)
            agent.update(transition_dict)
            if (i_episode + 1) % 10 == 0:
                pbar.set_postfix({
                    'episode':
                    '%d' % (num_episodes / 10 * i + i_episode + 1),
                    'return':
                    '%.3f' % np.mean(return_list[-10:])
                })
            pbar.update(1)
-------------------------------------------------------------------------------------------
Iteration 0: 100%|███████████████████████████████████████| 100/100 [00:02<00:00, 47.36it/s, episode=100, return=55.500]
Iteration 1: 100%|███████████████████████████████████████| 100/100 [00:04<00:00, 21.26it/s, episode=200, return=75.300]
Iteration 2: 100%|██████████████████████████████████████| 100/100 [00:09<00:00, 10.55it/s, episode=300, return=178.800]
Iteration 3: 100%|██████████████████████████████████████| 100/100 [00:11<00:00,  8.74it/s, episode=400, return=164.600]
Iteration 4: 100%|██████████████████████████████████████| 100/100 [00:11<00:00,  8.74it/s, episode=500, return=156.500]
Iteration 5: 100%|██████████████████████████████████████| 100/100 [00:11<00:00,  8.54it/s, episode=600, return=187.400]
Iteration 6: 100%|██████████████████████████████████████| 100/100 [00:11<00:00,  8.52it/s, episode=700, return=194.500]
Iteration 7: 100%|██████████████████████████████████████| 100/100 [00:13<00:00,  7.57it/s, episode=800, return=200.000]
Iteration 8: 100%|██████████████████████████████████████| 100/100 [00:12<00:00,  7.84it/s, episode=900, return=200.000]
Iteration 9: 100%|█████████████████████████████████████| 100/100 [00:12<00:00,  7.89it/s, episode=1000, return=186.100]

在 CartPole-v0 环境中，满分就是 200 分，我们发现 REINFORCE 算法效果很好，可以达到 200 分。接下来我们绘制训练过程中每一条轨迹的回报变化图。由于回报抖动比较大，往往会进行平滑处理。

episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('REINFORCE on {}'.format(env_name))
plt.show()

mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('REINFORCE on {}'.format(env_name))
plt.show()

以看到，随着收集到的轨迹越来越多，REINFORCE 算法有效地学习到了最优策略。不过，相比于前面的 DQN 算法，REINFORCE 算法使用了更多的序列，这是因为 REINFORCE 算法是一个在线策略算法，之前收集到的轨迹数据不会被再次利用。此外，REINFORCE 算法的性能也有一定程度的波动，这主要是因为每条采样轨迹的回报值波动比较大，这也是 REINFORCE 算法主要的不足。

5. 小结

REINFORCE 算法是策略梯度乃至强化学习的典型代表，智能体根据当前策略直接和环境交互，通过采样得到的轨迹数据直接计算出策略参数的梯度，进而更新当前策略，使其向最大化策略期望回报的目标靠近。这种学习方式是典型的从交互中学习，并且其优化的目标（即策略期望回报）正是最终所使用策略的性能，这比基于价值的强化学习算法的优化目标（一般是时序差分误差的最小化）要更加直接。 REINFORCE 算法理论上是能保证局部最优的，它实际上是借助蒙特卡洛方法采样轨迹来估计动作价值，这种做法的一大优点是可以得到无偏的梯度。但是，正是因为使用了蒙特卡洛方法，REINFORCE 算法的梯度估计的方差很大，可能会造成一定程度上的不稳定，这也是第 10 章将介绍的 Actor-Critic 算法要解决的问题。

6. 扩展：策略梯度证明

策略梯度定理是强化学习中的重要理论。本节我们来证明
$\nabla_{\theta} J(\theta) \propto \sum_{s \in S} \nu^{\pi_{\theta}}(s) \sum_{a \in A} Q^{\pi_{\theta}}(s, a) \nabla_{\theta} \pi_{\theta}(a \mid s)$

先从状态价值函数的推导开始:
$\begin{aligned} \nabla_{\theta} V^{\pi_{\theta}}(s) &=\nabla_{\theta}\left(\sum_{a \in A} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)\right) \\ &=\sum_{a \in A}\left(\nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)+\pi_{\theta}(a \mid s) \nabla_{\theta} Q^{\pi_{\theta}}(s, a)\right) \\ &=\sum_{a \in A}\left(\nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)+\pi_{\theta}(a \mid s) \nabla_{\theta} \sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right)\left(r+\gamma V^{\pi_{\theta}}\left(s^{\prime}\right)\right)\right.\\ &=\sum_{a \in A}\left(\nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)+\gamma \pi_{\theta}(a \mid s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r \mid s, a\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime}\right)\right) \\ &=\sum_{a \in A}\left(\nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)+\gamma \pi_{\theta}(a \mid s) \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime}\right)\right) \end{aligned}$
为了简化表示，我们让 $\phi(s)=\sum_{a \in A} \nabla_{\theta} \pi_{\theta}(a \mid s) Q^{\pi_{\theta}}(s, a)$ , 定义 $d^{\pi_{\theta}}(s \rightarrow x, k)$ 为策略 $\pi$ 从状态 $s$ 出发 $k$ 步后到达状态 $x$ 的概率。我们继续推导:
$\begin{aligned} \nabla_{\theta} V^{\pi_{\theta}}(s) &=\phi(s)+\gamma \sum_{a} \pi_{\theta}(a \mid s) \sum_{s^{\prime}} P\left(s^{\prime} \mid s, a\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime}\right) \\ &=\phi(s)+\gamma \sum_{a} \sum_{s^{\prime}} \pi_{\theta}(a \mid s) P\left(s^{\prime} \mid s, a\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime}\right) \\ &=\phi(s)+\gamma \sum_{s^{\prime}} d^{\pi_{\theta}}\left(s \rightarrow s^{\prime}, 1\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime}\right) \\ &=\phi(s)+\gamma \sum_{s^{\prime}} d^{\pi_{\theta}}\left(s \rightarrow s^{\prime}, 1\right)\left[\phi\left(s^{\prime}\right)+\gamma \sum_{s^{\prime \prime}} d^{\pi_{\theta}}\left(s^{\prime} \rightarrow s^{\prime \prime}, 1\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime \prime}\right)\right] \\ &=\phi(s)+\gamma \sum_{s^{\prime}} d^{\pi_{\theta}}\left(s \rightarrow s^{\prime}, 1\right) \phi\left(s^{\prime}\right)+\gamma^{2} \sum_{s^{\prime \prime}} d^{\pi_{\theta}}\left(s \rightarrow s^{\prime \prime}, 2\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime \prime}\right) \\ &=\phi(s)+\gamma \sum_{s^{\prime}} d^{\pi_{0}}\left(s \rightarrow s^{\prime}, 1\right) \phi\left(s^{\prime}\right)+\gamma^{2} \sum_{s^{\prime \prime}} d^{\pi_{\theta}}\left(s^{\prime} \rightarrow s^{\prime \prime}, 2\right) \phi\left(s^{\prime \prime}\right)+\gamma^{3} \sum_{s^{\prime \prime \prime}} d^{\pi_{\theta}}\left(s \rightarrow s^{\prime \prime \prime}, 3\right) \nabla_{\theta} V^{\pi_{\theta}}\left(s^{\prime \prime \prime}\right) \\ &=\cdots \\ &=\sum_{x \in S} \sum_{k=0}^{\infty} \gamma^{k} d^{\pi_{\theta}}(s \rightarrow x, k) \phi(x) \end{aligned}$
定义 $\eta(s)=\mathbb{E}_{s_{0}}\left[\sum_{k=0}^{\infty} \gamma^{k} d^{\pi_{\theta}}\left(s_{0} \rightarrow s, k\right)\right]_{\text {。至此，回到目标函数: }}$ :
$\begin{aligned} \nabla_{\theta} J(\theta) &=\nabla_{\theta} \mathbb{E}_{s_{0}}\left[V^{\pi_{\theta}}\left(s_{0}\right)\right] \\ &=\sum_{s} \mathbb{E}_{s_{0}}\left[\sum_{k=0}^{\infty} \gamma^{k} d^{\pi_{\theta}}\left(s_{0} \rightarrow s, k\right)\right] \phi(s) \\ &=\sum_{s} \eta(s) \phi(s) \\ &=\left(\sum_{s} \eta(s)\right) \sum_{s} \frac{\eta(s)}{\sum_{s} \eta(s)} \phi(s) \\ & \propto \sum_{s} \frac{\eta(s)}{\sum_{s} \eta(s)} \phi(s) \\ &=\sum_{s} \nu^{\pi_{\theta}}(s) \sum_{a} Q^{\pi_{\theta}}(s, a) \nabla_{\theta} \pi_{\theta}(a \mid s) \end{aligned}$
证明完毕 !

相关资源来自：伯禹学习平台-动手学强化学习

Objective-C实现2 个数字之间的算术几何平均值算法（附完整源码）源代码大师 objective-c 算法开发语言
Objective-C实现2个数字之间的算术几何平均值算法算术几何平均值（Arithmetic-GeometricMean，AGM）是一个在数值分析中非常重要的概念，尤其是在计算平方根和其他数学运算时。算术几何平均值是两个正数的算术平均值和几何平均值的迭代过程，直到两个值收敛为止。以下是一个用Objective-C实现的算术几何平均值算法的完整源码：#importdoublearithmeticG
大一暑假适合学51单片机吗？淘晶驰AK 51单片机嵌入式硬件单片机
大一暑假学51单片机，简直是老天爷赏饭吃的黄金窗口。我当时就是靠着这两个月，把从课本上看来的C语言指针、循环语句，变成了能让LED按节奏跳舞的真本事。学期里总被高数作业和英语背单词挤得没整块时间，焊个电路板还得算着实验室关门时间。暑假就不一样了，早上自然醒后泡杯咖啡，搬个小桌子到阳台，开发板一铺就是一整天。记得第一次烧写程序时，手抖着插杜邦线，结果把VCC接到了GND，开发板瞬间冒出股焦味——后来
能设计算法的，终究是极少数人奇妙的奇
图片发自App听吴伯凡的《认知方法论》，对“算法”有了全新的认识。世界上最早的程序员比第一台计算机要早一百多年，19世纪初期，法国人雅卡尔，就发明了穿孔纸带控制的纺织机，准确说是纺织提花机，这就是后来计算机用的纸带打孔机的原型，这就是算法。更早，1796年，瑞士人法布尔发明了八音盒。在一个轮子上做一些凸起，随着轮子转动，就能够驱使八音盒奏出制定的乐曲。再早呢？可以往前推演很多。所谓的编制算法，就是
AI时代的弯道超车之第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳 Hebron_Deb AI时代-弯道超车-逆袭人生人工智能
在这个AI重塑世界的时代，你还在原地观望吗？是时候弯道超车，抢占先机了！李尚龙倾力打造——《AI时代的弯道超车：用人工智能逆袭人生》专栏，带你系统掌握AI知识，从入门到实战，全方位提升认知与竞争力！内容亮点：AI基础+核心技术讲解职场赋能+创业路径揭秘打破信息差+预测行业未来第十七章：黄仁勋：坚持一件事，哪怕坐足冷板凳我们终于来到了第十七章，也是这本人物传记中该领域的最后一章。前面我们讲到了李飞飞
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
认知革命牧羊少年的时间之旅
看完人类简史后产生了一个想法，人类经过几万年的演化从采集时代，农业社会，再到工业革命和最近的科技革命，每一次的演变升级都是对传统认知的一次革新。但是我们现在的科技发展是如此的迅速，但是认知的进步却非常缓慢。克隆人，基因设计，人工智能，生化科技，量子计算等很多领域都是传统文化所无法理解和接受的，但是这些却依然有条不紊在进行中。所以人类目前急需一次认知的革命才能追上科技的脚步，不然一定会造成认知和现实
十大经典排序算法——冒泡排序 ————————————————— 算法排序排序算法算法
冒泡排序（BubbleSort）是一种简单的排序算法，它通过重复地遍历待排序的列表，比较相邻的元素并交换它们的位置来实现排序。该算法的名称来源于较小的元素会像"气泡"一样逐渐"浮"到列表的顶端。一、算法步骤比较相邻元素：从列表的第一个元素开始，比较相邻的两个元素。交换位置：如果前一个元素比后一个元素大，则交换它们的位置。重复遍历：对列表中的每一对相邻元素重复上述步骤，直到列表的末尾。这样，最大的元
PyTorch数据准备：从基础Dataset到高效DataLoader 慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch数据加载核心组件在PyTorch中，数据准备主要涉及两个核心类：Dataset和DataLoader。它们共同构成了PyTorch灵活高效的数据管道系统。Dataset类：作为数据集的抽象基类，需要实现三个关键方法：len():返回数据集大小getitem():获取单个数据样本(可选)init():初始化逻辑常见实现方式：继承torch.utils.data.Dataset使用T
VUE解决Error: error:0308010C:digital envelope routines::unsupported的四种解决方案
问题描述：报错：Error:error:0308010C:digitalenveloperoutines::unsupported报错原因：主要是因为nodeJsV17版本发布了OpenSSL3.0对算法和秘钥大小增加了更为严格的限制，nodeJsv17之前版本没影响，但V17和之后版本会出现这个错误。我的node版本是v18+报错详细信息：rror:error:0308010C:digitale
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
天文图像处理：星系分类与天体定位 xcLeigh 计算机视觉CV 图像处理分类人工智能 AI 计算机视觉
天文图像处理：星系分类与天体定位一、前言二、天文图像处理基础2.1天文图像的获取2.2天文图像的格式2.3天文图像处理的基本流程三、天文图像预处理3.1去噪处理3.2平场校正3.3偏置校正四、星系分类4.1星系的分类体系4.2基于特征提取的星系分类方法4.3基于深度学习的星系分类方法五、天体定位5.1天体坐标系统5.2基于星图匹配的天体定位方法5.3基于深度学习的天体定位方法六、总结与展望致读者一
深度学习——CNN（3）飘涯
前言：前面介绍了最基本的Lenet，下面介绍几种其他的网络结构CNN-AlexNet网络结构如下图：从图中可以看出，采用双gpu训练增加LRN归一化层：本质上，这个层也是为了防止激活函数的饱和的。采用dropout防止过拟合基于AlexNet进行微调，诞生了ZF-netCNN-GoogleNetGoogLeNet借鉴了NIN的特性，在原先的卷积过程中附加了11的卷积核加上ReLU激活。这不仅仅提升
亲子日记388篇2018.10.20大宝的朋友过生日明懿妈妈
上周末大宝就收到了好朋友的邀请贺卡，他的朋友20号过生日。这可把大宝愁坏了，送个什么礼物呢？最后喜欢上了我的幸运星，那我就顺他心意买些让他动手自己折吧！时间原因没顾上和大宝沟通，就从网上选择了一些折纸、折管、小瓶子等。前天到货，昨天晚上才有空拿回家，大宝急急忙忙就想动手，最后在我的建议下，先写作业。到了十点还剩一页，说困了。好吧，心思不在，折纸时那眼神溜溜的。十点半多了才睡下。今早急急忙忙上班前和
AI 人工智能与 Copilot 的融合发展策略 AI天才研究院 AI人工智能与大数据人工智能 copilot ai
AI人工智能与Copilot的融合发展策略关键词：人工智能、Copilot、代码生成、人机协作、机器学习、自然语言处理、软件开发摘要：本文探讨了人工智能与Copilot技术的融合发展策略。我们将从技术原理、实现方法、应用场景等多个维度深入分析，提出一套完整的融合框架和发展路径。文章首先介绍背景和核心概念，然后详细讲解关键技术，包括自然语言处理、代码生成算法等，接着通过实际案例展示应用效果，最后讨论
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
硬件预取的几个问题 1
1.硬件预取的定义和目标是什么？答案：硬件预取是CPU在程序执行前自动预测并加载可能使用的数据到缓存中的技术，目标是减少缓存未命中带来的延迟，提升指令吞吐量。2.硬件预取与软件预取的核心区别？答案：硬件预取由CPU内部逻辑自动触发，透明且通用；软件预取需程序员显式插入指令（如prefetch），可针对特定场景优化，但依赖代码适配。3.预取算法的主要分类？答案：分为规则驱动型（如顺序、步长预取）和机
Zuul的用法——限流 HmilyMing
因为所有的对外提供的接口都是要经过Zuul的转发，所以在这里的Pre过滤器里面做限流是最好的。常用的限流算法有1.计数器法，可以看做是低精度的滑动窗口算法2.滑动窗口，需要更多的存储空间3.漏桶算法，4.令牌桶算法，运行流量在一定程度上的突发，实践简单，对用户更友好，采用得更多。我这里采用的就是令牌桶算法，其原理如下令牌桶算法guava里面有令牌桶算法的实现在浏览器多刷几次就会被限流给禁止访问了代
6月25日（第38天）三省吾身快乐姐星球
一.观人善（阳红梅老师）工作认真负责，性格直爽，有啥说啥，没心计，每天阳光灿烂，与人为善，对孩子很用心，很随和，很乐意助人二.察己过：天热心情烦躁三.日行一善：给朋友分享学校四.为学日益：学习临终安宁缓和医疗课程五.为道日损：天热对学生多一点耐心六.感恩:感恩秀田的自然万物,感恩学校的学生让我有机会种福田,感恩梁老师做了好吃的凉粉
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
新年舞步学习录迎恩
图片发自App听说过“鬼步舞”吧，是不是觉得是小青年的运动，动感的节奏配上烗酷的舞步，踢、点、旋转，跳起来极具喧染力，关健是能减肥。为了减掉爱人的大肚腩，终于在再次去市政府广场散步的时候报名加入。第一天，老师教我们基本小步，一开始就夸我俩姿势正确，学的快。嘿嘿，她不知道这之前我俩已在家就着视频自学了几次。抢跑了，当然上手比较快。只是步伐显的很笨重，好像全身的重量都压在腿上，一小会便会气喘吁吁，汗流
#Datawhale组队学习#7月-强化学习Task1 fzyz123 Datawhale组队学习强化学习人工智能 AI
这里是Datawhale组织的组队学习《强化学习入门202507》，Datawhale是一个开源的社区。第一章绪论1.1为什么要学习强化学习？强化学习（ReinforcementLearning,RL）是机器学习中专注于智能体（Agent）如何通过与环境交互学习最优决策策略的分支。与监督学习依赖静态数据集、无监督学习聚焦数据内在结构不同，强化学习的核心在于序贯决策：智能体通过试错探索环境，根据行动
网易云音乐会员优惠大揭秘，网友：太值了！氧惠佣金真的高
在数字音乐时代，拥有一款高品质的音乐APP是音乐爱好者的必备之选。作为中国音乐市场的佼佼者，网易云音乐凭借其丰富的曲库、出色的推荐算法以及浓厚的社区氛围，吸引了大量用户。近日，网易云音乐推出了一系列会员优惠活动，让我们一起来了解一下吧！大家好，我是氧惠联合创始人七言导师，给大家推荐一款省钱更加赚钱的app——氧惠。氧惠是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主
微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化 MicroTech2025 量子计算区块链
随着量子计算技术的发展，传统加密算法面临被量子计算机破解的风险，LSQb算法也需考虑应对未来可能的量子攻击。微算法科技基于格密码的量子加密技术，融入LSQb算法的信息隐藏与传输过程中，实现抗量子攻击策略强化。格密码在面对量子攻击时具有较高的安全性，通过这种融合，能为LSQb算法提供更强大的抗攻击能力，确保信息在复杂的量子计算环境下的安全性。格密码是一种基于数学格结构的密码学方法，具有在量子计算环境
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
微算法科技研究量子视觉计算，利用量子力学原理提升传统计算机视觉任务的性能
计算机视觉，作为人工智能领域的一个重要分支，致力于模拟人类视觉系统对图像或视频等视觉数据的理解与分析能力。它涵盖了图像识别、目标检测、图像分割等一系列复杂任务，广泛应用于自动驾驶、医疗影像分析、安防监控等多个领域。然而，随着数据规模的不断膨胀和任务复杂度的日益提升，传统计算机视觉算法在处理大规模、高维度数据时遇到了性能瓶颈。微算法科技(NASDAQ：MLGO)研究量子视觉计算，探索量子计算与经典卷
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
PyTorch数据加载与预处理飘若随风 PyTorch pytorch 人工智能 python
数据加载与预处理详解1.数据集类(Dataset和DataLoader)1.1Dataset基类PyTorch中的Dataset是一个抽象类，所有自定义的数据集都应该继承这个类，并实现以下两个方法：__len__():返回数据集的大小__getitem__():根据索引返回一个样本概念解析：Dataset类提供了统一的数据访问接口通过继承Dataset，我们可以轻松地将数据集成到PyTorch的生
Kafka 时间轮深度解析：如何O(1)处理定时任务 lifallen Kafka Java kafka linq 分布式 java 数据库数据结构 apache
TimingWheel（时间轮）TimingWheel是一种高效的、用于实现大量定时任务调度的算法结构。相比于传统的基于优先队列（PriorityQueue）的定时器（其添加/删除操作的时间复杂度为O(logn)），时间轮可以实现近乎O(1)的添加和删除操作，这在需要管理成千上万个定时任务的场景下（例如Kafka中的请求超时、延迟操作等）具有巨大的性能优势。可以把一个TimingWheel想象成一
家庭关系对孩子的性格形成造成影响慧玲家庭教育
欢迎来到博星教育408将讲师朱老师课堂，这里是朱老师第1033天早安问候。孩子心理健康与家庭结构、父母关系和生活环境密不可分。社会学研究指出，家庭是一个互动的系统。在此过程中，父母的信念、情绪、行为等都会影响孩子的心理健康水平，进而影响孩子一生的发展。家庭关系，会对孩子的性格形成造成影响。蒙台梭利说过：每一种性格缺陷，都是由童年的不幸造成的。一个孩子的成长是生物遗传和环境交互作用的结果，不良的家庭
【算法训练营Day12】二叉树part2 十八岁讨厌编程算法训练营算法
文章目录翻转二叉树对称二叉树二叉树的最大深度二叉树的最小深度翻转二叉树题目链接：226.翻转二叉树解题逻辑：翻转二叉树也就是将所有非叶节点的左右孩子相互交换，那么我们就可以采用层序遍历判断非叶节点进行翻转：初始化一个辅助队列将根节点添加到队列中去弹出队头元素如果该元素的两个子节点均不为null则翻转两个子节点然后将子节点入队如此循环往复直到队列为空代码如下：classSolution{public
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class