EdenJin

10. 基于近似的on-policy控制方法--阅读笔记【Reinforcement Learning An Introduction 2nd】

文章目录

基于近似的on-policy控制方法
- 前言
- 1. episodic半梯度控制
- 2.半梯度n-step sarsa
- 3.平均奖励：针对连续任务的一种新的回报形式
- 4.弃用折扣设置deprecating the discounting setting
- 5. 微分半梯度n-step sarsa算法
- 总结

基于近似的on-policy控制方法

前言

本章将讲解控制问题，也就是如何找到一个优化策略。结合上一节参数化的方法，动作值函数的拟合函数 $\hat{q}(s,a,\mathbf{w})\approx q_{*}(s, a)$ ,其中 $\mathbf{w} \in \mathbb{R}^{d}$ .目前我们主要采用on-policy的方法。并且本章将重点关注半梯度Sarsa算法，是基于上一节的半梯度TD(0)扩展而来的。对于episodic task来说，半梯度Sarsa是很自然的，但是对于continuing task来说，就需要回到折扣化的最优策略定义重新进行分析。本章先从episodic task入手，先将之前的关于状态值函数的近似延伸为动作值函数的近似；然后再探讨基于GPI模式和greedy的控制方法。把n-step 线性Sarsa在mountain car环境上进行测试，最后扩展到continuing task。

1. episodic半梯度控制

episodic半梯度Sarsa预测

首先将之前的半梯度预测方法扩展到动作值函数，这样才可以得到半梯度控制方法。主要有以下几个变化：估计目标发生变化 ，现在我们要估计的是 $\hat{q}(s,a,w)$ 。之前对于值函数估计的样本形式是 $S_{t} \mapsto U_{t}$ ，现在对于动作值函数估计的样本形式就变为了 $S_{t},A_{t} \mapsto U_{t}$ 。这里的 $U_{t}$ 可以是任意一种对于 $q_{\pi}(S_t,A_t)$ 的近似。比如MC的回报 $G_t$ ，或者是n-step Sarsa。
$G_{t:t+n} \doteq R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1}R_{t+n}+\gamma^{n}q_{t+n-1}(S_{t+n},A_{t+n},w_t),n≥1,0≤tGt:t+n≐Rt+1+γRt+2+...+γn−1Rt+n+γnqt+n−1(St+n,At+n,wt),n≥1,0≤t<T−n$

episodic半梯度Sarsa控制
按照传统的GPI的思路，在得到动作值函数的预测之后再配合一定的策略提升，就可以逐渐收敛到一个最优策略上。但是对于连续动作空间或者很大的离散动作空间来讲，目前还没有有效的技术可以进行动作选择。对于离散的不太大的动作空间，可以借助之前的方法计算出每个动作的 $\hat{q}(S_t,a,W_t)$ ，然后再通过贪婪策略选择值最大的对应的动作即可。

example:mountain car
任务描述：让一个动力不足的小车按照一定策略越过山顶某个goal。看下图所示。
因为动力不足，所以小车必须先向左边开，积累一定的势能之后再加上自身现有的动力才能到达目标点。小车到达goal则episode结束，如果超过左边的边界就重置task。
状态空间：二维连续空间。-1.2≤ $x_{t+1}$ ≤0.5，-0.07≤ $v_{t+1}$ ≤0.07，位置和速度两个变量
动作空间：+1，-1, 0。分别表示正向马力全开，逆向马力全开，关闭引擎
模型：状态转移方程：
$\begin{array}{l} {x_{t+1} \doteq \text{bound}\left[x_{t}+\dot{x}_{t+1}\right]} \\ {\dot{x}_{t+1} \doteq \text{bound}\left[\dot{x}_{t}+0.001 A_{t}-0.0025 \cos \left(3 x_{t}\right)\right]} \end{array}$
回报： -1/step

线性近似 ：采用线性近似器来表示动作值函数。
$\hat{q}(s, a, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s, a)=\sum_{i=1}^{d} w_{i} \cdot x_{i}(s, a)$
其中x(s,a)是特征向量，借助上一章中提到的任意一种特征构造方法均可。这里采用tile-coding的方法，把连续状态编码为二值特征。
构造堆编码特征 ：采用8个tilings，每个tiling有64个tile，tiling之间采用非对称偏移方式。对于每个状态来说就是一个8维的表征向量。这个8维向量中的每个值就是每个tiling中落在对应状态上的tile的地址/索引。因为要返回索引，所以一般采用哈希表存储。具体关于堆编码的使用，查看：http://incompleteideas.net/tiles/tiles3.html
学习的目标函数是值函数的负数（因为一般的提供的都是梯度下降法，要求一个最小值，如果值函数的负数最小那就意味着值函数本身最大）

2.半梯度n-step sarsa

上一节中我们提到了半梯度单步sarsa预测方法，实际上就是通过单步自举来估计 $U_t$ ，那么对于n-step sarsa来说就是自举到n步。
$G_{t : t+n} \doteq R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{n-1} R_{t+n}+\gamma^{n} \hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right), \quad t+nGt:t+n≐Rt+1+γRt+2+⋯+γn−1Rt+n+γnq^(St+n,At+n,wt+n−1),t+n<T$

3.平均奖励：针对连续任务的一种新的回报形式

对于continuing task来说，在采用值函数近似的方法中需要定义一种新的值函数----平均回报，平均回报是没有折扣因子的，所以所有后续回报对当前状态的值都有等价值的影响作用。下一节我们会讨论为什么折扣的累积回报在带有拟合器的方法中是不合适的，平均回报则表现不错。
平均回报
定义如下：
$\begin{aligned} r(\pi) & \doteq \lim _{h \rightarrow \infty} \frac{1}{h} \sum_{t=1}^{h} \mathbb{E}\left[R_{t} | S_{0}, A_{0 : t-1} \sim \pi\right] && \\ &=\lim _{t \rightarrow \infty} \mathbb{E}\left[R_{t} | S_{0}, A_{0 : t-1} \sim \pi\right] && \\ &=\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}, r} p\left(s^{\prime}, r | s, a\right) r \end{aligned}$
其中 $\mu_{\pi}(s) \doteq \lim_{t \rightarrow \infty} Pr\left\{S_{t}=s | A_{0:t-1} \sim \pi\right\}$ 表示的是状态的稳态分布。假设这个分布一定存在，且和初始状态S0无关，这一特性在MDP中叫做各态遍历性。其含义就是无论MDP从哪个状态开始或者agent早期采取什么样的决策，仅仅只会产生瞬时的影响，长远来看，处于某个状态的概率只与策略和转移概率有关。
能够使得上式 $r(\pi)$ 最大化的策略就是最优策略。 $\mu_\pi(s)$ 叫做稳态分布的含义就是，无论在policy下采取什么样的action或者状态之间如何进行转移，最终状态的分布依然不变:
$\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) p\left(s^{\prime} | s, a\right)=\mu_{\pi}\left(s^{\prime}\right)$

微分值函数
有了上述平均回报的定义，根据这个回报定义一个continuing task对应的新的回报，表示为每步立即回报的值与平均回报之间的差值的和：
$G_{t} \doteq R_{t+1}-r(\pi)+R_{t+2}-r(\pi)+R_{t+3}-r(\pi)+\cdots$
这个回报叫做微分/差分回报 ，对应的值函数叫做微分/差分值函数 。其状态值函数和动作值函数的表示为：
$v_{\pi}(s) \doteq \mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right] \\ q_{\pi}(s, a) \doteq \mathbb{E}_{\pi}\left[G_t|S_{t}=s, A_{t}=a\right]$
微分值函数对应的贝尔曼方程和最优贝尔曼方程为 ：
$\begin{array}{l} {v_{\pi}(s)=\sum_{a} \pi(a | s) \sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-r(\pi)+v_{\pi}\left(s^{\prime}\right)\right]} \\ {q_{\pi}(s, a)=\sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-r(\pi)+\sum_{a^{\prime}} \pi\left(a^{\prime} | s^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right)\right]} \\ {v_{*}(s)=\max _{a} \sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-\max _{\pi} r(\pi)+v_{*}\left(s^{\prime}\right)\right], \text { }} \\ {q_{*}(s, a)=\sum_{r, s^{\prime}} p\left(s^{\prime}, r | s, a\right)\left[r-\max _{\pi} r(\pi)+\max _{a^{\prime}} q_{*}\left(s^{\prime}, a^{\prime}\right)\right]} \end{array}$
这里没有了折扣系数并且r也发生了变化。
对应微分形式的TD error可以表示为：
$\delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right) \\ \delta_{t} \doteq R_{t+1}-\overline{R}_{t}+\hat{q}\left(S_{t+1}, A_{t+1}, \mathbf{w}_{t}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$
其中 $\overline{R}_{t}$ 是t时刻的平均回报 $r(\pi)$ 。结合上面的定义，之前所讲过的所有算法和结论都可以适用于平均回报的情况，例如微分形式的半梯度sarsa算法只需要把 $\mathbf{w}_{t+1} \doteq \mathbf{w}_{t}+\alpha \delta_{t} \nabla \hat{q}\left(S_{t}, A_{t}, \mathbf{w}_{t}\right)$ 中的 $\delta_{t}$ 换成对应的微分形式的求解方式即可。
微分形式的半梯度sarsa预测方法伪代码：（注意 $\overline{R}_{t}$ 的求解过程）

example:
来自：https://blog.csdn.net/u013695457/article/details/91353072

4.弃用折扣设置deprecating the discounting setting

对于基于表格的问题，之前介绍的折扣方法会取得较好的结果，但是对于采用近似拟合器的情况这种办法就会有一些问题。
假设对于一个没有始终的无穷序列，那么没有明确定义的状态，状态只能用特征向量来表示，假设特征向量不变。我们需要利用回报序列和动作序列来评价策略的好坏。由于没有明确定义的状态，所以无法给出每个状态的值。那么我们可以计算从当前时刻起很长区间的折扣累积回报，但是不同时间的累积折扣汇报不同，所以可以算不同时刻的累积回报的均值，以此作为序列好坏的衡量标准。最终得到的结果实际上是 $r(\pi)/(1-\gamma)$ ，折扣因子实际上没有任何意义。
证明：
$\begin{aligned} J(\pi) &=\sum_{s} \mu_{\pi}(s) v_{\pi}^{\gamma}(s) & \text { (其中 } v_{\pi}^{\gamma} \text { 是折扣价值函数) } \\ &=\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}} \sum_{r} p\left(s^{\prime}, r | s, a\right)\left[r+\gamma v_{\pi}^{\gamma}\left(s^{\prime}\right)\right] &\text {(Bellman 方程)} \\ &=r(\pi)+\sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) \sum_{s^{\prime}} \sum_{r} p\left(s^{\prime}, r | s, a\right) \gamma v_{\pi}^{\gamma}\left(s^{\prime}\right) & \\ &=r(\pi)+\gamma \sum_{s^{\prime}} v_{\pi}^{\gamma}\left(s^{\prime}\right) \sum_{s} \mu_{\pi}(s) \sum_{a} \pi(a | s) p\left(s^{\prime} | s, a\right) & \\ &=r(\pi)+\gamma \sum_{s^{\prime}} v_{\pi}^{\gamma}\left(s^{\prime}\right) \mu_{\pi}\left(s^{\prime}\right) & \\ &=r(\pi)+\gamma J(\pi) \\ &=r(\pi)+\gamma r(\pi)+\gamma^{2} J(\pi) \\ &=r(\pi)+\gamma r(\pi)+\gamma^{2} r(\pi)+\gamma^{3} r(\pi)+\cdots \\ &=\frac{1}{1-\gamma} r(\pi) \end{aligned}$
对于近似的方法，我们计算的是value error关于参数的导数，也就是说我们关注的是策略整体性能的好坏，并不是所有状态值函数的加权均值。所以折扣因子并不影响策略的相对好坏，对于连续任务来说，使用平均回报就可以取得很好的效果。但是我们最初基于表格化的方法是针对每个状态下的策略单独进行考虑的，不同策略之间并不会相互影响，因此不必看成一个整体。所以可以使用折扣值函数定义。
从理论上分析，是因为近似拟合器的引入导致了策略提升理论失效。所以对于单个状态值函数的提升就无法导致整体策略提升。因为单个状态值函数的变化在近似拟合器上会影响其他状态。
实际上，对于episodic task，使用平均回报依然无法保证策略有所提升。因为拟合器类方法在理论上没有保证。后续会介绍策略梯度理论，该理论类似与策略提升，在该理论下可以保证策略有所改善。

5. 微分半梯度n-step sarsa算法

之前的内容我们介绍了半梯度n-step sarsa算法以及微分回报形式，本节介绍的微分半梯度sarsa算法实际上就是把之前半梯度n-step sarsa算法中计算回报 $G_t$ 的方式改为微分回报形式即可。
$G_{t : t+n} \doteq R_{t+1}-\overline{R}_{t+n-1}+\cdots+R_{t+n}-\overline{R}_{t+n-1}+\hat{q}\left(S_{t+n}, A_{t+n}, \mathbf{w}_{t+n-1}\right)$
注意这里的 $\overline{R}$ 是需要进行估计的。完整的TD error表达式为：
$\delta_{t} \doteq G_{t : t+n}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)$
算法的伪代码如下：注意计算 $\overline{R}$ 的方式：

核心步骤就是：求微分形式的TD error；更新平均回报的估计；沿梯度方向更新权重

总结

本章主要在第九章的基础上介绍了如何使用半梯度方法求策略。对于episodic task来说直接采用GPI模式扩展即可。对于continuing task来说，引入了一个新的问题形式化方法，平均回报 ，通过比较平均回报来评价策略的好坏。基于这个平均回报，定义了一种新的回报形式，微分回报以及对应的微分值函数、贝尔曼方程等等。

【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
策略梯度在网络安全中的应用：AI如何防御网络攻击 AI智能探索者 web安全人工智能安全 ai
策略梯度在网络安全中的应用：AI如何防御网络攻击关键词：策略梯度、网络安全、AI防御、强化学习、网络攻击、入侵检测、自适应防御摘要：本文将探讨策略梯度这一强化学习算法在网络安全领域的创新应用。我们将从基础概念出发，逐步揭示AI如何通过学习网络攻击模式来构建自适应防御系统，分析其核心算法原理，并通过实际代码示例展示实现过程。文章还将讨论当前应用场景、工具资源以及未来发展趋势，为读者提供对这一前沿技术
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
2024大模型秋招LLM相关面试题整理 AGI大模型资料分享官人工智能深度学习机器学习自然语言处理语言模型 easyui
0一些基础术语大模型：一般指1亿以上参数的模型，但是这个标准一直在升级，目前万亿参数以上的模型也有了。大语言模型（LargeLanguageModel，LLM）是针对语言的大模型。175B、60B、540B等：这些一般指参数的个数，B是Billion/十亿的意思，175B是1750亿参数，这是ChatGPT大约的参数规模。强化学习：（ReinforcementLearning）一种机器学习的方法，
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
《ONNX推理部署全解析：从基础到进阶的实用指南》空云风语人工智能深度学习神经网络人工智能深度学习神经网络 YOLO ONNX
ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【深度学习】一文彻底搞懂前向传播（Forward Pass）与反向传播（Backward Pass）烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
【深度学习】一文彻底搞懂前向传播（ForwardPass）与反向传播（BackwardPass）摘要：在深度学习的星辰大海中，无论模型多么复杂，其训练过程都离不开两大核心支柱：前向传播(ForwardPass)和反向传播(BackwardPass)。理解这两个概念，就等于拿到了解开神经网络训练奥秘的钥匙。本文将用最直白易懂的方式，并结合规范的数学表达，为你彻底讲透这两个基本而又重要的过程。文章目录
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角烟锁池塘柳0 机器学习与深度学习深度学习物联网人工智能
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角在边缘设备上部署深度学习模型已成为趋势，但资源限制是其核心挑战之一。其中，显存（或更广义的内存）占用是开发者们必须仔细考量的重要因素。许多人认为显存占用主要取决于模型的参数量，这种看法虽然没错，但并不全面。实际上，显存的占用远不止模型参数量那么简单。关于边缘设备（EdgeDevice）的介绍，可以参见我的这一篇文章：EdgeDevi
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘
返利佣金最高软件的技术壁垒：基于强化学习的动态佣金算法架构揭秘大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！一、背景介绍在返利佣金软件中，动态佣金算法是提升用户活跃度和平台收益的关键技术。传统的佣金算法通常是静态的，无法根据用户的实时行为和市场动态进行调整。为了突破这一技术瓶颈，我们引入了强化学习（ReinforcementLearning,RL），通
【Python打卡Day48】随机张量与广播机制@浙大疏锦行可能是猫猫人 Python打卡训练营内容 python 开发语言
在继续讲解模块消融前，先补充几个之前没提的基础概念尤其需要搞懂张量的维度、以及计算后的维度，这对于你未来理解复杂的网络至关重要一、随机张量的生成在深度学习中经常需要随机生成一些张量，比如权重的初始化，或者计算输入纬度经过模块后输出的维度，都可以用一个随机函数来实现需要的张量格式，而无需像之前一样必须加载一张真实的图片。“张量”概念它听起来可能有点抽象，但在数学和物理学（尤其是广义相对论、连续介质力
R7F0C020M2DFB-C#AA0 16位单片机微控制器MCU Renesas
R7F0C020M2DFB特点超低功耗科技：-VDD=1.6～5.5V的单电源、能以1.8V的低电压运行。-HALT模式-STOP模式-SNOOZE模式RL78CPU内核：-3段流水线的CISC哈佛体系结构-最短指令执行时间：能在高速（0.04167μs：以高速内部振荡器时钟24MHz运行时）到超低速（30.5μs：以副系统时钟32.768kHz运行时）之间变换。-地址空间：1M字节-通用寄存器：
视觉表征和多模态融合一只齐刘海的猫语言模型
视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持