会飞的斯芬克斯

Reinforcement Learning: An Introduction Second Edition - Chapter 11

Off-policy Methods with Approximation

探索和开发之间的内在冲突。离轨策略方法拓展到函数逼近的情况，并不能稳健地收敛。“可学习程度”。

回顾离轨策略方法，在进行控制时，动作价值函数是被学习的，两个策略会在学习过程中变化。

离轨策略学习的两方面挑战：更新的目标；更新的分布。

更新的目标：重要度采样。

更新的分布：两种通用方法：重要度采样(梯度TD?)；真正的梯度方法(强调TD?)。

11.1 Semi-gradient Methods

将之前的离轨策略算法，作为半梯度方法推广到函数逼近的情况。解决了第一个挑战。

每步重要度采样率。

单步算法。状态价值函数：半梯度离轨策略TD(0)。动作价值函数：半梯度期望Sarsa（未使用重要度采样，这需要进一步的研究，因为对于函数逼近的情况，有了采样分布的概念，我们不可能遍历所有的状态。因此我们希望对不同二元组赋予不同的权重）。

多步算法。半梯度n步Sarsa。半梯度n步树回溯算法。半梯度离轨策略版n步TD。半梯度n步Q( $\sigma$ )。

11.2 Examples of Off-policy Divergence

第二个挑战：更新的分布与同轨策略分布不一致。一些离轨策略学习的不稳定且发散的反例。

一个非常简单的情况。这个例子的关键在于，一个转移反复发生，而权值向量没有在其他转移上更新。这在离轨策略训练中是可能的。

Baird’s counterexample. 半梯度DP：传统方法仍然不稳定。离开同归策略分布，即使是最简单的自举法和函数逼近法的组合也有可能不稳定。

Q-learning往往在所有的控制方法中都有最好的收敛保证，但仍然有发散的反例。解决方案：行动策略和目标策略足够接近，可以保证收敛。

其他避免不稳定的方法：
一，使用最小二乘近似去优化价值函数。然而对于精确解不存在的情况(如特征向量线性相关)，仍无法保证稳定性。例 11.1：线性函数逼近可能不适用于DP，即使在每一步都找到了最小二乘解。
二，函数逼近的平均方法。

练习 11.3：单步半梯度Q-learning（即半梯度的离轨策略TD(0)）。

11.3 The Deadly Triad

函数逼近，自举法，离轨策略训练。同时满足这三个要素，就一定会有不稳定和发散的危险。这种风险并不是由控制或GPI造成的，也不是由学习或环境的不确定性造成的。

这三个要素中，函数逼近是最不可能舍弃的，而不使用自举法是有可能的，付出的代价是计算和数据上的效率：特殊硬件上的计算效率；对于数据效率，自举法通常可以提高学习速度；但自举法会损害表征不好的问题的学习，导致泛化能力很差。

总的来说，由于自举法常常能极大地提升效率，因此我们非常乐意将它保留在我们的工具包中。

最后，对于离轨策略学习，通常来说同轨策略方法已经足够了，但离轨策略学习可能在一些情况下(同时学习多个目标策略，强人工智能)，是实质的需求。

并行学习(meta learning?)：同时学习多个目标策略。心理学：人和动物学习预测多种感知事件，而不仅仅是收益，很多预测是中性的。这些预测可能构成了世界预测模型的基础。我们想预测的事件取决于我们的某种确定的行事方式。为了同时学习这些事件，我们需要从一个经验流中学习。一个行为策略不可能同时等同于所有的目标策略。然而，并行学习理论上是可行的，因为行为策略可能与多个目标策略有部分重叠。为了充分利用这一点，需要离轨策略学习。

11.4 Linear Value-function Geometry

通过线性函数逼近的几何性质，介绍价值函数逼近的各种目标。

换一个角度考虑价值函数近似问题。想象一个有所有可能的状态价值函数构成的空间。很多函数不对应于任何策略，很多都不能被函数逼近器表示。

任何价值函数都对应一个价值向量。

考虑一个例子。我们把所有的值函数/向量看作是三维空间中的点。而参数则提供了一个二维子空间上的替代坐标系统。

价值函数之间的距离。投影操作：在可表示的函数的子空间内寻找价值函数 $v$ 的最近邻的函数的操作。投影算子 $\prod$ 。

价值函数 $v$ 的投影 $\prod v_\pi$ 通常可以被蒙特卡罗方法渐近地找到，而TD方法会找到不同的解。

真实的价值函数是唯一完全满足贝尔曼方程的价值函数。状态s时的贝尔曼误差：用 $v_w$ 替换 $v_\pi$ 后，方程左右两侧差值。贝尔曼误差是TD误差的期望。

贝尔曼误差向量：所有状态下的贝尔曼误差组成的向量。均方贝尔曼误差 $\overline{BE}$ ：这个向量在范数上的总大小；目标：最小化贝尔曼误差向量。

通常不可能把 $\overline{BE}$ 减小到 0 (因为 $v_w$ 无法等于 $v_\pi$ )，但对于线性函数逼近，有一个最小化 $\overline{BE}$ 的 $\mathbf{w}$ 。在子空间中， $min\overline{BE}$ 通常不同于 $min\overline{VE}$ (即 $\prod v_\pi$ )。

贝尔曼误差向量，是将贝尔曼算子作用在近似价值函数中的结果。注：贝尔曼算子，可以理解为对价值函数进行了贝尔曼方程化。

贝尔曼算子的唯一不动点： $v_\pi$ 。

投影贝尔曼误差向量。均方投影贝尔曼误差：目标：最小化贝尔曼误差向量的投影。TD不动点： $\overline{PBE}$ 为 0 的点（注：由线性函数逼近的TD方法最终得到的点）。

疑问：什么方法最终获得 $min\overline{BE}$ ？DP-like methods with function approximation ？接下来的两节会讨论最小化 $\overline{BE}$ 的方法。

11.5&11.6：最小化 $\overline{BE}$ 的方法。
11.7&11.8：保证收敛到不动点的方法，即最小化 $\overline{PBE}$ 的方法。

11.5 Gradient Descent in the Bellman Error

随机梯度下降：更新的量在期望上等于目标函数的负梯度。到目前为止，只有蒙特卡洛方法是真正的SGD方法。

能否找到在强化学习中使用SGD的实用方法？首先考虑待优化的误差或目标函数的选择。11.5&11.6：一些最流行的目标函数的起源和局限性。这是一个错误的研究方向，并不能产生优秀的学习方法。

回顾一下，在9.2中，我们用状态价值的真实值和估计值的平方误差作为目标；在11.1中，我们在这基础上添加了重要度采样率。均方TD误差：基于带折扣的单步TD误差。将其表示为SGD想要的形式：

$\overline{TDE}(\mathbf{w})=\mathbb{E}_b\left [ \rho_t \delta _t^2 \right ]$

根据SGD方法，我们可以得到基于这种期望值的单步更新。相比半梯度TD算法，公式多了最后一项。这一项补全了这个梯度，并且让它成为了一个真正的SGD算法并有优异的收敛保证。我们称之为天真残差梯度算法(the naive residual-gradient algorithm)。然而，尽管天真残差梯度算法稳健地收敛，但是它并不一定会收敛到我们想要的地方。The A-split example.

最小化 $\overline{TDE}$ 是天真的，通过减小所有的 TD 误差，它更倾向于得到时序上平滑的结果，而不是准确的预测。

最小化贝尔曼误差。对于一个状态而言，贝尔曼误差是该状态上TD误差的期望。

将残差梯度算法中的期望替换为采样值，便可得到天真残差梯度算法。但是天真残差梯度算法过于简单，在残差梯度公式中，两个相乘的期望值都包含了状态 $S_{t+1}$ 。为了得到这个乘积的无偏样本，需要状态 $S_{t+1}$ 的两个独立样本，但是通常在与外部环境的交互过程中，我们只能得到一个样本。因此两项可以一个用期望值，一个用采样值，但是不能都用采样值。

使用残差梯度算法的两种方式。

残差梯度方法的收敛性的三个缺点：速度慢；在确定性问题中，和天真残差一样，仍然收敛到错误的值；贝尔曼误差的不可学习性。

11.6 The Bellman Error is Not Learnable

机器学习中的可学习性(learnability)：可以被高效地学会，即可以用多项式级而不是指数级数量的样本学会。
此处的可学习性：用任意多的经验可以学会。然而，强化学习中，很多量我们无法学习，即使拥有良好定义，且在了解环境的内部结构时可以被计算出来，但不能从外部可观测的序列(只有特征序列没有状态序列)中得到。在这个意义上，贝尔曼误差目标是不可学习的。

先讨论 $\overline{VE}$ 目标。 $\overline{VE}$ 是不可学习的：在反例中， $\overline{VE}$ 是不同的，但是产生的数据却遵从同一分布，因此不可学习。既然如此，那么 $\overline{VE}$ 作为一个学习的目标如何才能起作用呢？

$\overline{VE}$ 在反例中的出路：虽然 $\overline{VE}$ 是不可学习的，但是优化它的参数 $\mathbf{w}$ 是可学习的。

均方回报误差 $\overline{RE}$ ：每个时刻的估计价值与这个时刻之后的实际回报的平方误差。 $\overline{VE}$ 与 $\overline{RE}$ 有相同的最优参数值 $\mathbf{w}^*$ 。 $\overline{RE}$ 可以从数据分布中唯一确定，因为 $\overline{RE}$ 的值取决于数据分布，而不是MDP。

现在回到 $\overline{BE}$ 目标。与 $\overline{VE}$ 不同， $\overline{BE}$ 的极小值解是不可学习的，不能从特征向量和其他可观测的数据中估计它。这限制 $\overline{BE}$ 用于有模型的情形。残差梯度算法是唯一能够最小化 $\overline{BE}$ 的算法，但它只有在接触基础底层状态时才能起作用。最小化 $\overline{BE}$ 需要能够触达特征向量之外的基础底层MDP状态。

注：例11.3的限制：残差梯度算法最小化 $\overline{BE}$ 仍然会收敛到错误的结果。这是一个未接触基础底层状态的确定性问题，这个限制是由这两个属性共同造成的。首先，未接触基础底层状态，使得整个系统等同于A-分裂(天真残差梯度算法的反例)；其次，在确定性问题中，残差梯度算法和天真残差梯度算法相同。
如果抛弃第一个因素，即A1和A2可以通过特征向量区分，同时其他条件不变，则残差梯度算法(此时等于天真残差梯度算法)可以找到真实价值。
例11.3给出的限制是残差梯度算法的限制，根据11.6的内容，我们可以将例11.3推广到更一般的情形，得到另一个限制：最小化 $\overline{BE}$ 需要接触基础底层的状态，仅仅使用特征向量和数据分布，无法学习 $\overline{BE}$ 。

例11.4：两个MDP产生相同的数据分布，其中第二个MDP最小化 $\overline{BE}$ 的 $\mathbf{w}$ 是关于 $\gamma$ 的不同函数。因此我们无法只依靠数据来获得最小化 $\overline{BE}$ 的解。

注：在11.5和11.6的例子中，我们知道所有信息，因此我们使用了基础底层的MDP对目标函数的结果进行分析。但是在真正使用算法对目标函数进行学习的时候，很多时候我们不知道基础底层的MDP(无模型的情形?)。

11.7 Gradient-TD Methods

梯度TD方法：最小化 $\overline{PBE}$ ，时间复杂度为 O(d) 并且有稳健收敛性质的SGD方法。相比半梯度TD方法，其时间复杂度增加一倍。

先将目标函数 $\overline{PBE}$ 转化成矩阵的形式，再转化成期望的形式。最后得到：

式中的第一个因子和第三个因子都依赖于下一个状态的特征向量。

一个得到无偏估计，且计算量相对较小的方法：对三个期望，储存两个，然后采样一个。但此时仍然是平方级时间复杂度。

记向量 $\mathbf{v}$ 为后两个因子的乘积。The Least Mean Square (LMS) rule (最小均方规则)：通过最小化期望平方误差，来增量式地寻找向量 $\mathbf{v}$ 的标准SGD方法（此处增加了一个重要度采样率）。

根据保存的 $\mathbf{v}_t$ ，得到更新 $\mathbf{w}_t$ 的SGD方法：GTD2。

TDC。

CTD2和TDC都包含一个主要学习过程和一个次要学习过程：a cascade。

梯度TD方法是目前最容易理解且应用广泛的离轨策略方法。在非线性函数逼近(例如神经网络)中的推广。

11.8 强调TD

强调TD方法：重新分配状态的权值，强调一部分同时淡化一部分，将更新分布变为同轨策略分布。快速回顾9.11。

一个策略根据起始位置的不同，可以有多个同轨策略分布。无论使用哪一个分布，只要更新了学习中遇到的所有状态，同轨策略分布就能发挥作用，保证训练稳定。

可以把折扣视作部分或概率性终止。伪终止：每一步以 $1-\gamma$ 的概率终止，并于要转移到的状态重启。这种伪终止对于离轨策略学习非常重要，因为重启是个选项。而且终止使我们不再需要不断地将遇到的状态纳入同轨策略分布中。也就是说，如果我们不把新的状态视为重启，那么折扣会很快给我们一个有限的同轨策略分布。
注：先不考虑伪终止，记录一段时间的状态，更新同轨策略分布。然后将折扣视为一种伪终止，将新状态视为重启。基于之前的记录，我们便得到了一个有限的同轨策略分布。

由于期望TD算法的方差过高，几乎无法在实验中得到一致性结果。参数向量的期望值的轨迹：这些轨迹是通过迭代计算参数向量轨迹的期望值得到的，没有任何由于状态转移和收益采样引起的方差。
注：是在得到多组初始数据后，根据数据和策略分布计算每一次遍历的期望值（那么如何保证在实验中遍历）？还是在实验中使用算法遍历一次后，更新一次参数向量，然后进行下一轮遍历？我认为是后者，这样可以实现原文中的迭代操作（迭代的定义：反复地运用同一函数计算，前一次迭代得到的结果被用于作为下一次迭代的输入）。

11.9 Reducing Variance

离轨策略学习在本质上比同轨策略学习具有更大的方差。

离轨策略学习存在的最重要原因：推广泛化到大量的“相关但不等同的策略”。

减小估计值的方差的方法：
重要度采样对步长的影响。步长的设置方法。
加权的重要度采样比的应用。
不使用重要度采样比的离轨策略学习。
由行动策略部分决定目标策略。

11.10 Summary

仅仅是将离轨策略学习拓展到线性函数逼近，就需要我们进行大量的研究。使用离轨策略算法的原因：探索和利用的平衡；将行为独立于学习。

离轨策略学习的两个挑战：行动策略的学习目标(注:包括目标和分布?)；半梯度方法的不稳定性。

AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
啸叫抑制（AFS）从算法仿真到工程源码实现-第一节-效果演示 aflyingwolf_pomelo 语音信号处理算法人工智能
一、概述啸叫抑制算法也叫声反馈抑制，本专题我们讨论啸叫抑制算法的平台搭建，算法仿真和设备端的工程落地实现。完整记录一个扩声系统的搭建。更多资料和代码可以进入https://t.zsxq.com/qgmoN，同时欢迎大家提出宝贵的建议，以共同探讨学习。二、啸叫抑制算法视频演示啸叫抑制算法演示视频三、语谱图3.1产生啸叫效果3.2去啸叫后的效果四、总结这一节我们主要记录了啸叫抑制（去啸叫）算法的效果演
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
群体智能优化算法-模拟退火优化算法（Simulated Annealing, SA，含Matlab源代码） HR Zhou 算法模拟退火算法机器学习 matlab 群体智能优化优化人工智能
摘要模拟退火（SA）算法是一种基于物理退火过程的全局优化算法，其核心思想来源于热力学中的退火过程：将材料加热到高温后再缓慢冷却，使其分子结构趋于最低能量状态，从而获得稳定结构。SA算法利用Metropolis准则来决定接受新的解，以一定概率接受劣解，从而避免陷入局部最优。SA具有收敛速度快、计算复杂度低、适用于连续优化问题等特点，被广泛应用于组合优化、函数优化、神经网络训练等领域。算法介绍1.主要
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
代码随想录算法训练营第四十一天 | hot65/100| 33.搜索旋转排序数组、153.寻找旋转排序数组中的最小值、155.最小栈、394.字符串解码 boguboji 刷题算法 leetcode 数据结构
33.搜索旋转排序数组思路是：数组可能有两种情况2345671和6712345将数组一分为二，其中一定有一个是有序的，每次判断前半部分是有序的还是后半部分是有序的，每次只在有序的那部分里找。无序那部分不管（没找到会重新一分为二，继续在有序的一半里找，迟早会找到）注意点：这道题重点是记住边界条件（哪些是小于等于小于大于等于大于）有小于等于/大于等于的情况是因为，如果出现[2,1]中找1的情况，需要有
代码随想录算法训练营第三十八天 | hot57/100| 114.二叉树展开为链表、437.路径总和III、124.二叉树中的最大路径和、22.括号生成 boguboji 刷题算法链表数据结构
114.二叉树展开为链表思路是：（1）定义方法，先序遍历保证顺序，把节点按顺序保存（2）再for循环转成链表，一列都是往右排列完整代码：classSolution{ publicvoidflatten(TreeNoderoot){ Listlist=newArrayList(); preorderTraversal(root,list); intsize=list.size()
代码随想录算法训练营第十天 | 栈与队列part01| 232.用栈实现队列、225. 用队列实现栈、 20. 有效的括号、1047. 删除字符串中的所有相邻重复项 boguboji 刷题算法 java 开发语言
232.用栈实现队列栈与队列的基本知识：Stackstack=newStackq=newLinkedListstack=newStack显然是存储整数类型，如果要存储字符，应该用Dequedeque=newLinkedListstack=newStack<>();还有我写for(inti=0;i
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
双指针与二分算法打不了嗝蓝桥杯 c++算法
一.双指针1.基本介绍双指针算法是一种暴力枚举的优化算法，他也被叫做尺取法或者滑动窗口。当我们发现算法需要两次for循环时并且两个指针可以不回退，我们可以利用双指针来优化算法复杂度。2.例题详解题目描述企业家Emily有一个很酷的主意：把雪花包起来卖。她发明了一台机器，这台机器可以捕捉飘落的雪花，并把它们一片一片打包进一个包裹里。一旦这个包裹满了，它就会被封上送去发售。Emily的公司的口号是“把
算法刷题区域部分反转无敌的牛算法算法
不断创建数组，相加，利用cpp内字符串相加的性质即可。具体代码如下：classSolution{public:stringreverseStr(strings,intk){intsize=s.size();intcount=size/(2*k);stringa;inti=0;for(i=0;ik){reverse(a2.begin(),a2.begin()+k);}else{reverse(a2.
优选算法训练篇07--力扣LCR179.查找总价格为目标值的两个商品大胆飞猪算法训练篇算法 leetcode
目录1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：3.解法一(暴力解法，会超时)：4.解法二(双指针-对撞指针):1.题目链接：LCR179.查找总价格为目标值的两个商品2.题目描述：购物车内的商品价格按照升序记录于数组price。请在购物车中找到两个商品的价格总和刚好是target。若存在多种情况，返回任一结果即可。示例1：输入：price=[3,9,12,15],tar
LeetCode215. 数组中的第K个最大元素 techpupil 算法快速选择 leetcode
给定整数数组nums和整数k，请返回数组中第k个最大的元素。请注意，你需要找的是数组排序后的第k个最大的元素，而不是第k个不同的元素。你必须设计并实现时间复杂度为O(n)的算法解决此问题。示例1:输入:[3,2,1,5,6,4],k=2输出:5示例2:输入:[3,2,3,1,2,4,5,5,6],k=4输出:4分析：本题我们能想到最简单的方法就是直接给数组排序，然后取第第N-k个元素，但题目要求是
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
SM国密算法深度解析与技术实践安全
SM国密算法深度解析与技术实践一、算法体系概述SM系列密码算法是由中国国家密码管理局发布的商用密码标准体系，涵盖非对称加密、对称加密、杂凑算法、标识密码等多个领域。其核心组件包括：SM2：基于椭圆曲线的非对称加密算法（GB/T32918）SM3：密码杂凑算法（GB/T32905）SM4：分组对称加密算法（GB/T32907）与国际算法对比类型国密算法国际标准密钥长度安全强度非对称加密SM2RSA-
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
2.服务器负载均衡我是一条胖咸鱼华为安全HCIP 网络服务器安全负载均衡华为
1.服务器负载均衡概述负载均衡基本概念实服务器：处理业务流量的实体服务器，客户端发送的服务请求最终是由实服务器处理的。实服务器组：由多个实服务器组成的集群，对外提供特定的一种服务。虚拟服务器：实服务器组对外呈现的逻辑形态，客户端实际访问的是虚拟服务器。负载均衡算法：FW分配业务流量给实服务器时依据的算法，不同的算法可能得到不同的分配结果。服务健康检查：FW检查服务器状态是否正常的过程，可以增强为用
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
使用 Spring Security的一些常用功能代码代码快快显灵 springsecurity spring java 前端 SpringSecurity
在实际开发中，SpringSecurity常常涉及一些常用的功能。以下是一些在开发中经常使用的SpringSecurity功能：1.PasswordEncoderBean（密码加密）这段配置使用BCryptPasswordEncoder作为密码加密算法。它是SpringSecurity中常用的密码加密方式，通常用于存储和验证用户的密码。@BeanpublicPasswordEncoderpassw
最小生成树C He11o__Wor1d424 c语言算法图论
最小生成树是所有节点的最小连通子图，即：以最小的成本（边的权值）将图中所有节点链接到一起。图中有n个节点，那么一定可以用n-1条边将所有节点连接到一起。Primprim算法是从节点的角度采用贪心的策略每次寻找距离最小生成树最近的节点并加入到最小生成树中。prim算法核心就是三步：第一步，选距离生成树最近节点第二步，最近节点加入生成树第三步，更新非生成树节点到生成树的距离（即更新minDist数组）
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l