好奇小圈

强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）

学习目标：

深入了解马尔科夫决策过程(MDP)，包含TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络。基础部分见：强化学习马尔科夫决策过程（价值迭代、策略迭代、雅克比迭代、蒙特卡洛）

学习内容：

0.基础符号

奖励：一局游戏中从开始到结束的所有奖励 $R_1,...,R_t,...,R_n.$
折扣率： $\gamma ∈[0,1]$
折扣回报： $U_t=R_t+\gamma \cdot R_{t+1}+\gamma^2\cdot R_{t+2}+...+\gamma^{n-t}\cdot R_{n}$
动作价值函数： $Q_\pi(s_t,a_t)=\mathbb{E}[U_t|S_t=s_t,A_t=a_t]$
最有动作价值函数：已知 $s_t$ 和 $a_t$ ，不论未来采取什么样的策略 $\pi$ ，回报 $U_t$ 都不可能超过 $Q_\star$ $Q_\star(s_t,a_t)=\max_\pi Q_\pi (s_t,a_t), \forall s_t \in \mathcal{S}, a_t \in \mathcal{A}$

1.时间差分（TD）算法

（1）基础

利用TD训练深度Q网络（DQN），已有四元组 $< s_{t}, a_{t}, r_{t}, s_{t + 1} >$ 。
已知贝尔曼（Bellman）最优方程：
$\underbrace{Q_{\star}\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}[R_t+\gamma \cdot \underbrace{\max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right)}_{U_{t+1} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
得到蒙特卡洛近似：
$Q_{\star}\left(s_t, a_t\right) \approx r_t+\gamma \cdot \max _{a \in \mathcal{A}} Q_{\star}\left(s_{t+1}, a\right) .$
带入神经网络参数：
$Q_{\star}\left(s_t, a_t;\boldsymbol{w}\right) \approx r_t+\gamma \cdot \max _{a \in \mathcal{A}} Q_{\star}\left(s_{t+1}, a;\boldsymbol{w}\right) .$

（2）流程

收集训练数据：我们可以用任何策略函数 $\pi$ 去控制智能体与环境交互, 这个 $\pi$ 就叫做行为策略 (Behavior Policy)。比较常用的是 $\epsilon$ -greedy 策略:
$a_t= \begin{cases}\operatorname{argmax}_a Q\left(s_t, a ; \boldsymbol{w}\right), & \text { 以概率 }(1-\epsilon) ; \\ \text { 均匀抽取 } \mathcal{A} \text { 中的一个动作, } & \text { 以概率 } \epsilon .\end{cases}$
把智能体在一局游戏中的轨迹记作：
$s_1, a_1, r_1, s_2, a_2, r_2, \cdots s_n, a_n, r_n .$
把一条轨迹划分成 $n$ 个 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这种四元组, 存入数组, 这个数组叫做经验回放数组 (Replay Buffer)。
更新 DQN 参数 $w$ : 随机从经验回放数组中取出一个四元组, 记作 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 。设 DQN 当前的参数为 $\boldsymbol{w}_{\text {now }}$ , 执行下面的步骤对参数做一次更新, 得到新的参数 $\boldsymbol{w}_{\text {new }}$ 。

对DQN做正向传播, 得到 $\mathrm{Q}$ 值:
$\widehat{q}_j=Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) \quad \text { 和 } \quad \widehat{q}_{j+1}=\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}_{\text {now }}\right) .$
计算TD目标和TD误差：
$\widehat{y}_j=r_j+\gamma \cdot \widehat{q}_{j+1} \text { 和 } \delta_j=\widehat{q}_j-\widehat{y}_j .$
对DQN做反向传播, 得到梯度:
$\boldsymbol{g}_j=\nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\mathrm{now}}\right) .$
做梯度下降更新DQN的参数:
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_j \cdot \boldsymbol{g}_j .$

智能体收集数据、更新DQN参数这两者可以同时进行。可以在智能体每执行一个动作之后, 对 $\boldsymbol{w}$ 做几次更新。也可以在每完成一局游戏之后, 对 $\boldsymbol{w}$ 做几次更新。

2.Q学习算法

（1）基础

利用Q学习（TD的一种）训练深度Q网络（DQN），已有四元组 $< s_{t}, a_{t}, r_{t}, s_{t + 1} >$ 。
已知贝尔曼（Bellman）最优方程：
$\underbrace{Q_{\star}\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}_{S_{t+1} \sim p\left(\cdot \mid s_t, a_t\right)}[R_t+\gamma \cdot \underbrace{\max _{A \in \mathcal{A}} Q_{\star}\left(S_{t+1}, A\right)}_{U_{t+1} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
公式左侧等效为：
$\widetilde{Q}{(s_t, a_t)}$
公式右侧蒙特卡洛近似等效为：
$\hat{y_t}\triangleq r_t +\gamma \cdot \max_{a \in \mathcal{A} }\widetilde{Q}{(s_{t+1}, a)}$
更新表格 $\widetilde{Q}$ 中 $s_t,a_t)$ 位置上的元素：
$\widetilde{Q}{(s_t, a_t)} \leftarrow (1-\alpha) \cdot \widetilde{Q}{(s_t, a_t)}+\alpha \cdot \hat{y_t}$

（2）流程

收集训练数据：同TD算法。
$a_t= \begin{cases}\operatorname{argmax}_a \widetilde{Q}\left(s_t, a \right), & \text { 以概率 }(1-\epsilon) ; \\ \text {均匀抽取 } \mathcal{A} \text { 中的一个动作, } & \text { 以概率 } \epsilon .\end{cases}$

把一条轨迹划分成 $n$ 个 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这种四元组, 存入数组。
经验回放更新表格 $\tilde{Q}$ : 随机从经验回放数组中抽取一个四元组, 记作 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 。

把当前表格 $\widetilde{Q}_{\text {now }}$ 中第 $\left(s_j, a_j\right)$ 位置上的元素记作:
$\widehat{q}_j=\tilde{Q}_{\text {now }}\left(s_j, a_j\right) .$
查看表格 $\widetilde{Q}_{\text {now }}$ 的第 $s_{j+1}$ 行, 把该行的最大值记作:
$\widehat{q}_{j+1}=\max _a \widetilde{Q}_{\text {now }}\left(s_{j+1}, a\right) .$
计算TD目标和TD误差:
$\widehat{y}_j=r_j+\gamma \cdot \widehat{q}_{j+1}, \quad \delta_j=\widehat{q}_j-\widehat{y}_j .$
更新表格中 $\left(s_j, a_j\right)$ 位置上的元素，得到更新后的表格:
$\tilde{Q}_{\text {new }}\left(s_j, a_j\right) \leftarrow \tilde{Q}_{\text {now }}\left(s_j, a_j\right)-\alpha \cdot \delta_j .$

收集经验与更新表格 $\widetilde{Q}$ 可以同时进行。每当智能体执行一次动作, 我们可以用经验回放对 $\widetilde{Q}$ 做几次更新。也可以当完成一局游戏, 对 $\widetilde{Q}$ 做几次更新。

3.SARSA算法

（1）基础

已知贝尔曼方程：
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}}\left[R_t+\gamma \cdot Q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s_t, A_t=a_t\right]$
左侧等效为： $q\left(s_t, a_t\right)$

右侧根据蒙特卡洛近似为： $\widehat{y}_t \triangleq r_t+\gamma \cdot q\left(s_{t+1}, \tilde{a}_{t+1}\right)$
更新表格 $q$ 中 $s_t,a_t)$ 位置上的元素：
$q\left(s_t, a_t\right) \leftarrow(1-\alpha) \cdot q\left(s_t, a_t\right)+\alpha \cdot \widehat{y}_t$

（2）流程

五元组： $\left(s_t, a_t, r_t, s_{t+1}, \tilde{a}_{t+1}\right)$ 。SARSA算法学到的 $q$ 依赖于策略 $\pi$ , 这是因为五元组中的 $\tilde{a}_{t+1}$ 是根据 $\pi\left(\cdot \mid s_{t+1}\right)$ 抽样得到的。
训练流程：设当前表格为 $q_{\text{now }}$ , 当前策略为 $\pi_{\text {now }}$ 。每一轮更新表格中的一个元素，把更新之后的表格记作 $q_{\text {new}}$ 。

观测到当前状态 $s_t$ , 根据当前策略做抽样: $a_t \sim \pi_{\text {now }}\left(\cdot \mid s_t\right)$ 。
把表格 $q_{\text {now }}$ 中第 $\left(s_t, a_t\right)$ 位置上的元素记作:
$\widehat{q}_t=q_{\text {now }}\left(s_t, a_t\right) .$
智能体执行动作 $a_t$ 之后, 观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据当前策略做抽样: $\tilde{a}_{t+1} \sim \pi_{\text {now }}\left(\cdot \mid s_{t+1}\right)$ 。注意, $\tilde{a}_{t+1}$ 只是假想的动作，智能体不予执行。
把表格 $q_{\text {now }}$ 中第 $\left(s_{t+1}, \tilde{a}_{t+1}\right)$ 位置上的元素记作:
$\widehat{q}_{t+1}=q_{\text {now }}\left(s_{t+1}, \tilde{a}_{t+1}\right) .$
计算 TD 目标和 TD 误差:
$\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1}, \quad \delta_t=\widehat{q}_t-\widehat{y}_t .$
更新表格中 $\left(s_t, a_t\right)$ 位置上的元素:
$q_{\text {new }}\left(s_t, a_t\right) \leftarrow q_{\text {now }}\left(s_t, a_t\right)-\alpha \cdot \delta_t .$
用某种算法更新策略函数。该算法与 SARSA算法无关。

（3）对比

$\begin{array}{|c|c|c|c|} \hline \mathrm{Q} \text { 学习 } & \text { 近似 } Q_{\star} & \text { 异策略 } & \begin{array}{c} \text { 可以使用 } \\ \text { 经验回放 } \end{array} \\ \hline \text { SARSA } & \text { 近似 } Q_\pi & \text { 同策略 } & \begin{array}{l} \text { 不能使用 } \\ \text { 经验回放 } \end{array} \\ \hline \end{array}$

至于神经网络形式的SARSA：在状态空间 $\mathcal{S}$ 为无限集的情况下适用。只需将上述流程中的q函数增加一个神经网络的参数 $w$ ，同时第七步更改为反向传播和梯度下降的求解过程，此处不再赘述。

4.多步TD目标

（1）基础

此时回报可以写作如下形式：
$U_t=\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m U_{t+m}$
由此可得动作值函数为：
$\underbrace{Q_\pi\left(s_t, a_t\right)}_{U_t \text { 的期望 }}=\mathbb{E}[\left(\sum_{i=0}^{m-1} \gamma^i R_{t+i}\right)+\gamma^m \cdot \underbrace{Q_\pi\left(S_{t+m}, A_{t+m}\right)}_{U_{t+m} \text { 的期望 }} \mid S_t=s_t, A_t=a_t]$
左侧等效为：
$\widehat{q_t}=q\left(s_t, a_t ; \boldsymbol{w}\right)$
右侧根据蒙特卡洛近似等效为：
$\widehat{y}_t=\left(\sum_{i=0}^{m-1} \gamma^i r_{t+i}\right)+\gamma^m \cdot q\left(s_{t+m}, a_{t+m} ; \boldsymbol{w}\right)$
损失函数设置为：
$L(\boldsymbol{w}) \triangleq \frac{1}{2}\left[q\left(s_t, a_t ; \boldsymbol{w}\right)-\widehat{y}_t\right]^2$
梯度下降为：
$\boldsymbol{w} \leftarrow \boldsymbol{w}-\alpha \cdot\left(\widehat{q}_t-\widehat{y}_t\right) \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}\right)$
流程与SARAS同理，略。

5.经验回放

（1）基础

定义：把智能体与环境交互的记录（即经验）储存到一个数组，事后反复利用这些经验训练智能体。这个数组被称为经验回放数组 (Replay Buffer)

优点：打破序列相关性。

局限：经验回放数组中的经验通常是过时的行为策略收集的，而我们真正想要学的目标策略不同于过时的行为策略。

（2）扩展

优先经验回放 (Prioritized Experience Replay) 是一种特殊的经验回放方法，它比普通的经验回放效果更好：既能让收敛更快，也能让收敛时的平均回报更高。优先经验回放给每个四元组一个权重，然后根据权重做非均匀随机抽样。

6.高估问题

（1）基础

Q 学习算法有一个缺陷：用 Q 学习训练出的 DQN 会高估真实的价值，而且高估通常是非均匀的。来源有两个：（1）自举导致的误差积累。（2）最大化导致高估。

（2）目标网络（缓和自举高估）

目标网络记作：
$Q\left(s, a ; \boldsymbol{w}^{-}\right)$
其神经网络结构与DQN完全相同，但 $w^-$ 与 $w$ 的值并不完全相同。

对DQN做正向传播，得到:
$\widehat{q}_j=Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) .$
对目标网络做正向传播，得到
$\hat{q}_{j+1}^{-}=\max _{a \in \mathcal{A}} Q\left(s_{j+1}, a ; \boldsymbol{w}_{\mathrm{now}}^{-}\right) .$
计算TD目标和TD误差：
$\widehat{y}_j^{-}=r_j+\gamma \cdot \widehat{q}_{j+1} \quad \text { 和 } \quad \delta_j=\widehat{q}_j-\widehat{y}_j .$
对DQN做反向传播，得到梯度 $\nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right)$ 。
做梯度下降更新DQN的参数：
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_j \cdot \nabla_{\boldsymbol{w}} Q\left(s_j, a_j ; \boldsymbol{w}_{\text {now }}\right) .$
设 $\tau \in(0,1)$ 是需要手动调的超参数。做加权平均更新目标网络的参数：
$\boldsymbol{w}_{\text {new }}^{-} \leftarrow \tau \cdot \boldsymbol{w}_{\text {new }}+(1-\tau) \cdot \boldsymbol{w}_{\text {now }}^{-}$

（3）双Q学习法（解决最大化高估）

此处对比Q学习、目标网络、双Q学习法的区别，流程与上文（2）中类似：

Q学习算法：
选择：即基于状态 $s_{j+1}$ , 选出一个动作使得 DQN 的输出最大化:
$a^{\star}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right) .$
求值：即计算 $\left(s_{j+1}, a^{\star}\right)$ 的价值, 从而算出 TD 目标:
$\widehat{y}_j=r_j+Q\left(s_{j+1}, a^{\star} ; \boldsymbol{w}\right) .$
目标网络：
选择: $\quad a^{-}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}^{-}\right)$ ,
求值: $\quad \widehat{y_t^{-}}=r_t+Q\left(s_{j+1}, a^{-} ; \boldsymbol{w}^{-}\right)$ .
双Q学习，第一步的选择用DQN, 第二步的求值用目标网络：
选择: $\quad a^{\star}=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q\left(s_{j+1}, a ; \boldsymbol{w}\right)$ ,
求值: $\quad \widetilde{y}_t=r_t+Q\left(s_{j+1}, a^{\star} ; \boldsymbol{w}^{-}\right)$ .

对比
$\begin{array}{|l|l|l|l|l|} \hline & \text { 选择 } & \text { 求值 } & \text { 自举造成偏差 } & \text { 最大化造成偏差 } \\ \hline \text { Q学习 } & \text { DQN } & \text { DQN } & \text { 严重 } & \text { 严重 } \\ \hline \text { Q学习+目标网络}& \text {目标网络 } & \text { 目标网络 } & \text { 不严重 } & \text { 严重 } \\ \hline \text { 双Q学习 } & \text { DQN } & \text { 目标网络 } & \text { 不严重 } & \text { 不严重 } \\ \hline \end{array}$

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

强化学习 补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）

学习目标：

学习内容：

0.基础符号

1.时间差分（TD）算法

（1）基础

（2）流程

2.Q学习算法

（1）基础

（2）流程

3.SARSA算法

（1）基础

（2）流程

（3）对比

4.多步TD目标

（1）基础

5.经验回放

（1）基础

（2）扩展

6.高估问题

（1）基础

（2）目标网络（缓和自举高估）

（3）双Q学习法（解决最大化高估）

7.对决网络

（1）基础

（2）流程

8.噪声网络

（1）基础

（2）流程

你可能感兴趣的:(算法,人工智能,算法)

强化学习补充笔记（TD算法、Q学习算法、SARSA算法、多步TD目标、经验回放、高估问题、对决网络、噪声网络）