静静的喝酒

策略梯度方法介绍——Value-Based强化学习方法 VS Policy-Based强化学习方法

策略梯度方法求解强化学习任务——策略梯度方法介绍

目录
- 回顾：基于价值函数(Value-Based)的强化学习方法
- - Value-Based强化学习方法介绍
  - Value-Based强化学习方法的缺陷
- 基于策略(Policy-Based)的强化学习方法
- - 适用场景
  - 求解过程
- 关于梯度 $\nabla\mathcal J(\theta)$ 变化的核心要素——状态分布
- - 状态分布思路的产生
  - 状态分布的求解过程

在求解强化学习任务时，最终目标是求解满足规则的最优策略 $\pi$ 。
但以上三种方法并没有 直接求解 策略 $\pi$ 这个变量，而是先计算 状态价值函数 $V_\pi(s)$ / 状态-动作价值函数 $q_\pi(s,a)$ ；然后再基于价值函数结果改进 策略 $\pi$ ，从而实现策略 $\pi$ 的迭代更新。
无论是动态规划方法的策略迭代，还是蒙特卡洛控制、时序差分控制，它们呈现的共同点都是在策略改进过程中，均选择最优价值函数对应的动作作为新的策略。
(即便在同轨策略方法中存在使用 $\epsilon-$ 贪心策略修正的情况，但并不影响 选择“最优动作”作为新的策略 的本质）
$a^* = \pi'(s) = \mathop{\arg\max}\limits_{a}q_\pi(s,a)$
这三种方法都是 表格式强化学习 的代表方法，其主要思想是：

在算法开始前，初始化一个存储价值函数的空间 $Q - T ab l e$ ；
在迭代过程中，每次迭代更新对应位置 $(s t a t e, a c t i o n)$ 的价值函数信息；
并不是从迭代开始就会将正确的信息加入到 $Q - T ab l e$ 中(Q-Learning中产生的就最大化偏差是个很好的例子)，而是通过不断试错——与环境不断交互并从环境的反馈信息中进行学习。

Value-Based强化学习方法的缺陷

什么样的情况是Value-Based强化学习方法 无法解决/解决不好 的呢？

根据上面的特点介绍，我们发现，每次策略改进得到的最优策略 $\pi^*$ 一定是 确定性策略/基于 $\epsilon-$ 贪心策略修正后的 软性策略。
但ϵ-贪心策略仍然改变不了‘最优动作占据新策略最多权重，并且远超其他动作权重’的本质。因此，该策略主体仍然是某一确定性动作，即价值函数最高结果对应的动作。

但是每次迭代产生的这种确定性动作反而限制了迭代过程(这样会导致每次迭代更新的方向性极强)。在真实环境中，我们更想要一个随机性策略而不是确定性动作。
这里说的‘随机性策略’和‘软性策略’截然不同，因为‘软性策略中的随机性’是人为定的超参数(ϵ),而不是机器生成的;
Value-Based强化学习方法面对的问题一般情况下状态(State)、动作(Action) 等变量是 可数的、有穷的 ：前面介绍具体强化学习方法时，经常对 状态集合 $\mathcal S$ ,动作集合 $\mathcal A$ ,奖励集合 $\mathcal R$ 进行 逻辑场景构建：传送门
$\mathcal S = \{s_1,s_2,\cdots,s_m\} \\ \mathcal A = \{a_1,a_2,\cdots,a_n\} \\ \mathcal R = \{r_1,r_2,\cdots,r_k\}$
并且在构建时声明它们是 离散型随机变量。但是在真实环境中，我们遇到的动作(Action) 不一定是离散的：

示例：二维平面内智能体运动方向 $a$ 的选择
如果使用角度来描述它的运动方向(智能体选择的运动方向 与 当前状态智能体运动方向 之间的夹角)：那么有效的运动方向范围表示如下：
$\in [0,2\pi]$
如果将运动方向的选择看成智能体选择的动作，即动作的选择结果在 $[0,2\pi]$ 内均有效——该场景中的动作明显是一个连续型随机变量，没有办法将 $[0,2\pi]$ 内 所有动作 全部列举出来。
针对步骤2若后退一步——假设我们动作的选择是可数的、有穷的，但是动作的数量极多，使用价值函数强化学习方法进行求解时，我们需要建立一个超级大的 $\to$ 用于迭代过程中价值函数的更新。但这种操作内存占用情况是非常严重的。

综上，Value-Based强化学习方法并不能有效解决上述问题。

基于策略(Policy-Based)的强化学习方法

适用场景

相比于Value-Based强化学习方法，Policy-Based强化学习方法不再利用价值函数，而是利用 策略函数 直接选择动作。

对比Value-Based强化学习方法的缺陷，我们介绍Policy-Based强化学习方法适用的场景：

产生的策略是随机性策略；
动作是连续型随机变量(动作空间连续)；

这相比仅仅是针对确定性策略、动作是离散型随机变量的Value-Based强化学习方法，Policy-Based强化学习方法能够解决问题的范围 更加广泛——使用Policy-Based强化学习方法同样可以求解Value-Based强化学习方法的场景。

求解过程

在Value-Based强化学习方法中，策略 $\pi(a \mid s)$ 指的是给定状态 $s$ 条件下，有意义的动作 $a$ 的概率分布，其数学符号表示如下：
$\begin{aligned} \pi(a \mid s) = \begin{pmatrix} \pi(a_1 \mid s) \\ \pi(a_2 \mid s) \\ \vdots \\ \pi(a_N \mid s) \\ \end{pmatrix}(a_1,a_2,\cdots,a_N \in \mathcal A(s)) \end{aligned}$
但Policy-Based强化学习方法中的动作 $a$ 是连续性随机变量，因此此时的策略 $\pi$ 不再是上述概率集合的形式，而是可微函数的形式——动作发生的概率受到某个概率密度函数的控制。

根据上述思路，进行如下分析：

根据实际情况，假设动作 $a$ 服从某一概率密度函数 $P(a\mid s;\theta)$ (换种思路理解——将动作 $a$ 理解成从概率模型 $P(a\mid s;\theta)$ 产生的样本)
其中s表示给定的状态，theta表示概率密度函数的参数信息。
最终目标从求解 $\pi(a \mid s)$ 转换成求解策略中的参数 $\theta$ 。
因此，将含参数 $\theta$ 的策略称为策略函数。记作 $\pi(a \mid s;\theta)$ ,通常情况下可简写成 $\pi_{\theta}$ 。
$\pi(a \mid s;\theta) = P(A_t = a \mid S_t = s,\theta_t = \theta)$
关于策略函数 $\pi(a \mid s;\theta)$ 分布的特点，上面我们提到，使用Policy-Based强化学习方法同样可以求解Value-Based强化学习方法的场景，那么动作分别是离散和连续的情况下， $\pi(a \mid s;\theta)$ 是如何进行表示的？

如果动作 $a$ 是离散型随机变量 $\to$ 使用 $\ softmax$ 函数将其映射为 指数族分布：
这里并不是一定要使用softmax函数进行映射 -> 只要能够映射为‘指数族分布’即可。
将 $h(s,a;\theta)$ 函数定义为‘动作偏好值’ -> 将离散型的策略 $\pi(a \mid s)$ 视为关于 $\theta$ 的一个函数，仅此而已;
$\pi(a \mid s) \to \frac{e^{h(s,a;\theta)}}{\sum_{k \in \mathcal A(s)} e^{h(s,k;\theta)}}$
如果动作 $a$ 是连续型随机变量 $\to a$ 服从分布的复杂性有很多种，这里不妨设 $a$ 服从高斯分布 ：
这里将高斯分布中的 $\mu,\sigma$ 看作参数 $\theta$ 的函数，若 $\theta$ 能够求解， $\mu,\sigma$ 同样也可以被求解，最终求解整个分布。
s是状态，s是给定的。
$\mu = \mu(s;\theta),\sigma = \sigma(s;\theta)$
至此，假设 $a$ 是服从1维随机变量的高斯分布，策略函数 $\pi(a \mid s;\theta)$ 表示如下：
$\pi(a \mid s;\theta) \to \frac{1}{\sqrt{2\pi}\sigma(s;\theta)}\exp\{{-\frac{(a - \mu(s;\theta))^2}{2\sigma^2(s;\theta)}}\}$

为了衡量策略函数 $\pi(a \mid s;\theta)$ 的优劣性 $\to$ 围绕参数 $\theta$ 构建一个目标函数 $\mathcal J(\theta)$ 。通常情况下，最直接的思路就是将 $\mathcal J(\theta)$ 定义为情节中初始状态回报(Return)的期望，即 初始状态的状态价值函数 $V_{\pi(a |s;\theta)}(s_0)$ 。
'目标函数'并不是Policy-Based强化学习方法的特有概念，在Value-Based强化学习方法中也存在‘目标函数’的说法： $V_\pi(s),q_\pi(s,a)$ 都是目标函数;
之所以选择‘初始状态’回报的期望 -> 极大限度地将 $R_1,R_2,\cdots,R_T$ 利用上。
数学符号表示如下：
$\begin{aligned} \mathcal J(\theta) & = V_{\pi(a \mid s;\theta)}(s_0) \\ & = \mathbb E_{\pi(a \mid s;\theta)}[G_0] \\ & = \mathbb E_{\pi(a \mid s;\theta)}[R_1 + \gamma R_2 + \cdots + \gamma^{T-1}R_T] \end{aligned}$

至此，我们推演一下策略梯度方法的求解过程：

初始参数 $\theta_{init}$ ，基于该参数得到初始策略函数 $\pi(a \mid s;\theta_{init})$ ；
$\theta_{init} \to \pi(a \mid s;\theta_{init})$
基于该策略函数去执行一个完整情节 $\{S_0,a_0,S_1,a_1,\cdots,S_{T-1},a_{T-1},S_T\}$ ,得到奖励结果如下：
$R_1,R_2,\cdots,R_{T}$
基于奖励结果 $\to$ 求解目标函数 $\mathcal J(\theta_{init})$ ;
$\mathcal J(\theta_{init}) = \mathbb E_{\pi(a \mid s;\theta)}[R_1 + \gamma R_2 + \cdots + \gamma^{T-1}R_T]$
从常规 机器学习的梯度方法思考，对 $\mathcal J(\theta_{init})$ 求解梯度，再配合学习率 $\alpha$ 对 $\theta_{init}$ 进行更新；
由于 $\mathcal J(\theta_{init})$ 是初始状态的状态价值函数，自然是希望 $\mathcal J(\theta_{init})$ 越大越好，因此，这里使用 梯度上升法 对 $\theta$ 进行迭代：
该步骤在后续进行讲解。
$\theta' \gets \theta_{init} + \alpha \nabla \mathcal J(\theta_{init})$
此时，得到一个更新后的新参数 $\theta'$ ，将 $\theta' \gets \theta_{init}$ 重新执行上述步骤，直至 $\mathcal J(\theta)$ 达到最优并且稳定为止。

但上述推演过程中我们漏掉了一个问题：如何求解梯度 $\nabla\mathcal J(\theta_{init})$ ？

关于梯度 $\nabla\mathcal J(\theta)$ 变化的核心要素——状态分布

状态分布思路的产生

基于上一节的思路继续思考：到底是哪些要素影响梯度 $\nabla\mathcal J(\theta)$ 的变化？

首先观察 $\nabla\mathcal J(\theta)$ 和 $\theta$ 之间的关联关系。
为了简化计算：
$\to$ 不妨假定动作 $a$ 服从1维随机变量的某种分布；
$\to$ 此时参数 $\theta$ 同样也是1维随机变量；
$\to$ 导致求解梯度 $\nabla\mathcal J(\theta)$ 退化成对 $\mathcal J(\theta)$ 的导数计算 $\mathcal J'(\theta)$ ；

从导数定义角度观察 $\mathcal J'(\theta)$ ：
$\mathcal J'(\theta) = \mathop{\lim}\limits_{\Delta\theta\to 0}\frac{\Delta \mathcal J(\theta)}{\Delta \theta}$

继续观察：如果参数 $\theta$ 发生变化( $\Delta \theta$ )，到底如何影响 $\mathcal J(\theta)$ 跟着发生变化( $\Delta \mathcal J(\theta)$ )?

(必然发生的情况)首先，由于 $\theta$ 是策略函数 $\pi(a \mid s;\theta)$ 的参数，因此 $\theta$ 的变化必然引起策略参数 $\pi(a \mid s;\theta)$ 的变化；

策略函数 $\pi(a \mid s;\theta)$ 的变化，自然会引发 $\mathcal J(\theta)$ 的变化；
$\mathcal J(\theta) = \mathbb E_{\pi(a \mid s;\theta)}[R_1 + \gamma R_2 + \cdots + \gamma^{T-1}R_T]$

(状态分布产生的核心思路)基于策略函数产生的一条完整情节，那么该情节中 状态出现的概率分布和策略函数之间存在直接联系。具体描述如下：

基于参数 $\theta$ 产生的策略函数 $\pi(a \mid s;\theta)$ ，并使用该策略执行了一个完整情节。该情节中的状态部分表示如下：
$\{s_0,s_1,s_2,\cdots,s_T\}$

其中 $s_T$ 表示终结状态。如果状态(State)自身是离散型随机变量，状态集合 $\mathcal S$ 表示如下：
$\mathcal S = \{s^{(0)},s^{(1)},\cdots,s^{(N)}\}$
在完整情节中，各随机变量在情节种出现的次数(频率)和概率表示如下：

	$s^{(0)}$	$s^{(1)}$	$s^{(2)}$	$\cdots$	$s^{(N)}$
出现次数	$k_0$	$k_1$	$k_2$	$\cdots$	$k_N$
出现概率	$\frac{k_0}{T}$	$\frac{k_1}{T}$	$\frac{k_2}{T}$	$\cdots$	$\frac{k_N}{T}$

$\sum_{i=1}^N k_i = T$
至此，我们得到了一组关于状态的概率分布：
$[\frac{k_0}{T},\frac{k_1}{T},\cdots,\frac{k_N}{T}]$
我们在机器学习笔记——极大似然估计与最大后验概率估计介绍过 频率学派角度看待机器学习问题，并引用了黑格尔的一句名言：存在即合理。

虽然产生的状态分布 $p (s)$ 和策略函数 $\pi(a \mid s;\theta)$ 之间 不是映射关系：

因为策略函数 $\pi(a \mid s;\theta)$ 是随机性策略，虽然知道动作对应的概率分布，但该状态选择的具体动作是未知的；
状态转移过程 $\mid s,a)$ 同样也是一个概率分布，并且状态转移过程是系统内部发生的变化，和智能体的主观意志无关；

但是根据频率学派角度的观点： $p (s)$ 是通过策略函数 $\pi(a \mid s;\theta)$ 产生出来的【真实存在】的样本，既然能够产生，自然存在它的合理性。

因此，状态分布指向的结果即：情节中 策略函数 $\pi(a \mid s;\theta)$ 的变化会影响 状态分布的变化 ，而状态分布的变化会影响目标函数 $\mathcal J(\theta)$ 的变化。

状态分布的求解过程

上面介绍了相同的策略函数 $\pi(a \mid s;\theta)$ 可能得到各种各样状态分布样本(非映射关系)；但是我们需要对这些样本的特征进行归纳——归纳后的结果与策略函数之间存在具体关系。

这里引入两个新的概念：

平均次数(与表格中的“出现次数”对应)，平均次数定义可以表述为：以某一具体状态 $s$ 在某完整情节中出现的期望次数。数学符号表示为 $\eta(s)$ ；
出现概率(与表格中的“出现概率”对应)，具体表述为状态 $s$ 的平均次数和所有状态的平均次数的比值。数学符号表示为 $\mu(s)$ ；

如何求解 $\eta(s)$ ？我们将 $\eta(s)$ 的求解过程分为两个部分：

状态 $s$ 是初始状态 $\to$ 状态 $s$ 没有前继状态；
根据概率的频率定义，状态 $s$ 在初始状态出现的平均次数即 重复大量试验后，状态 $s$ 是初始状态的频率，即 $s$ 被选择的概率。
$\to$ 使用 $h (s)$ 表示 $s$ 被选择的概率。
状态 $s$ 是非初始状态 $\to$ 状态 $s$ 在情节中必然存在一个前继状态通过状态转移的方式 得到状态 $s$ 。令前继状态为 $\bar s$ ；

根据该思路继续思考：
- 如果知道了状态 $s$ 所有可能的前继状态 $\bar s$ 的平均次数 $\eta(\bar s)$ ；
- 并且知道在前继状态 $\bar s$ 条件下，动作 $a$ 的概率分布 $\pi(a \mid \bar s)$ ；
- 并且还知道每个前继续状态 $\bar s$ 转移到状态 $s$ 的转移概率 $\mid \bar s,a)$ ；
那么可以求解期望的方式求解状态 $s$ 的平均次数：
$\sum_{\bar s}\eta(\bar s)\sum_{a \in \mathcal A(\bar s)} \pi(a \mid \bar s)P(s \mid \bar s,a)$
将上述两种状态(初始状态\非初始状态)结果相加，则有：
$\eta(s) = h(s) + \sum_{\bar s}\eta(\bar s)\sum_{a \in \mathcal A(\bar s)} \pi(a \mid \bar s)P(s \mid \bar s,a)$
我们发现，上述式子是个迭代式子——它描述了状态 $s$ 的平均次数 $\eta(s)$ 与它前继状态的平均次数 $\eta(\bar s)$ 的 关联关系。
在求解 $\eta(\bar s)$ 时，也会使用上式与 $\bar s$ 的前继构建关联关系。
以此类推，必然会递推到初始状态；

因此，构建新的数学符号对上式进行修改，修改结果如下：
$\begin{aligned} \eta(s) & = \sum_{k=0}^{T-1}P_r\{s_0 \to s,k,\pi\} \end{aligned}$
该式可以理解为：
- $P_r\{s_0 \to s,k,\pi\} \to$ 初始状态 $s_0$ ，在策略函数 $\pi$ 的条件下，进行了 $k$ 次状态转移，最终达到状态 $s$ 的概率；
- 在得到上述概率后，相当于有 $P_r\{s_0 \to s,k,\pi\}$ 的概率必然在对应位置出现1次状态 $s$ ，那么状态 $s$ 在该位置出现的平均次数即：
  $P_r\{s_0 \to s,k,\pi\} \times 1$
  那么状态 $s$ 在整个情节中出现的平均次数即：
  $\sum_{k=0}^{T-1}P_r\{s_0 \to s,k,\pi\} \times 1 = \sum_{k=0}^{T-1}P_r\{s_0 \to s,k,\pi\}$

出现概率 $\mu(s)$ 根据概念描述即：某一状态的平均次数占所有状态平均次数的比重。
$\mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}$

状态分布的求解全部结束，下一节将介绍策略梯度定理。

相关参考：
【强化学习】策略梯度方法-策略近似
深度强化学习原理、算法pytorch实战 —— 刘全，黄志刚编著

机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
【数据结构与算法】单向链表(添加节点、顺序添加节点、更新节点、删除节点、反转链表、获取链表长度、获取倒数第几个节点、打印链表、反转打印链表)
目录1.单向链表的介绍2.带head头的单向链表实现1.单向链表的介绍单向链表是有序的列表。以节点的方式来存储，是链式存储，每个节点包含data域和next域(指向下一个节点)，所以单向链表在内存中的储存是无序的单向链表分带头节点的单向链表，和没有头节点的单向链表2.带head头的单向链表实现实现对单向链表的增、删、改、查等操作单向链表各节点说明：head节点：不储存数据，next指向下一个节点最
招聘 | 美团 AI 搜索：致力用 AI 技术创造极致的搜索和交互体验美团技术团队人工智能大数据
敢用算法定义下一代搜索体验吗？我们正在寻找「AI狂热分子」——能让搜索结果秒懂用户灵魂需求的算法魔法师、精准雕琢搜索体验的算法工程技术革新者敢用大模型重构搜索逻辑的技术造浪者、深耕算法工程实践的大模型架构驾驭者愿用数据和代码解锁智能边界的未来架构师、用工程代码与数据打破技术边界的技术领航人和我们一起，可以做些什么？AI搜索团队致力于打造以智能搜索为核心的新型产品，以满足用户需求为目标，专注于为用户
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
在单向链表中插入节点——C语言基础 FifthDesign 链表单链表数据结构算法 C语言
向单向链表插入节点前言：链表的插入过程就是把新建的节点插入到已有的链表中，鉴于此种理解，也可以把链表的创建看做是一种特殊的插入节点过程，但是具体来说，链表的插入较于链表的创建来说稍复杂一些。文章目录向单向链表插入节点一、问题描述二、算法描述三、代码部分1.structure.h2.insert.h四、代码解析1.对于单向链表来说，插入为什么需要引入两个工具指针？2.指针变量的初始化![在这里插入图
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
大学专业科普 | 物联网、自动化和人工智能
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。物联网专业课程设置基础课程：包括物联网概论、电子电工基础、计算机网络技术、数据库应用基础、C语言程序设计等。专业核心课程：传感器与传感网技术、自动识别技术与应用、单片机基础、物联网通信技术、嵌入式系统设计、无线传感器网络等。实践课
深入浅出多模态》（十一）之多模态经典模型：Flamingo系列 GoAI 机器学习多模态大模型人工智能 LLM 机器学习
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：本作
深入了解Stable Diffusion：解锁AI图像生成的神秘密码 ????? DTcode7 AI生产力 AI AIGC stable diffusion AI生产力前沿
深入了解StableDiffusion：解锁AI图像生成的神秘密码?????StableDiffusion：AI的像素炼金术士基础概念：从扩散到聚焦的魔法技术深潜：核心机制解析反向扩散算法代码实验室：动手实践StableDiffusion的魔法示例一：一句话，一个世界示例二：风格迁移的艺术实战技巧与最佳实践实际挑战与解决方案结语：艺术与科技的无限对话在这个数字洪流涌动的时代，AI图像生成技术正以前
招标专家随机抽选——抽取结果打印模板设计—未来之窗智能编程——仙盟创梦IDE 未来之窗软件服务招标专家仙盟创梦IDE 东方仙盟
打印代码function未来之窗_人工智能_打印指定区域(魔都id){varmode="iframe";varclose=false;varextraCss=`.cyberwinqrimg{display:inline-block!important;}`;varkeepAttr=[];keepAttr.push($("#"+魔都id).html());varheadElements=',';va
g711a音频编码记录
写了个安卓wavpcmhttp直播流的程序。客户端采用sdl2直接播放pcm.工作的很好，但是，非常耗费带宽差不多100kb/s的网速。非常不利于外网的音频传输。尝试用zlib压缩，效果不尽理想。只压缩成90%。节约了1/10带宽遂放弃。尝试了安卓端mp3直播，效果不错，差不多带宽30kb/s。但是mp3有个很大的问题，就是延迟增大了几秒。研究了下wav压缩音频格式，发觉还有g711a，这个算法比
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
MCP模型上下文协议：AI人工智能模型训练的自动化调参 AI天才研究院 AI人工智能与大数据人工智能自动化运维 ai
MCP模型上下文协议：AI人工智能模型训练的自动化调参关键词：MCP模型、自动化调参、AI训练、超参数优化、上下文协议、机器学习、深度学习摘要：本文深入探讨MCP模型上下文协议在AI模型训练自动化调参中的应用。MCP(ModelContextProtocol)是一种创新的自动化调参框架，通过上下文感知和动态参数调整机制，显著提升模型训练效率和性能。文章将从理论基础、算法实现、数学原理到实际应用进行
AI--提升效率、驱动创新的核心引擎保持学习ing AI编程自动化低代码
自动化代码生成、低代码/无代码开发、算法优化实践等新兴技术在软件开发领域正逐渐崭露头角。这些技术为开发者提供了更高效、更便捷的开发方式，大大提升了软件开发的效率和质量。本文重点探讨的是这些技术在实际应用中的价值和优势。1、自动化代码生成1.1优势自动化代码生成是利用机器学习和人工智能技术，通过分析需求和已有代码，生成可用的代码片段或完整的程序。这种技术可以极大地减少开发人员的工作量，提高开发效率。
（全网最全，打光测试解决高反光产品）在机器视觉2D中，遇到高反光产品打光测试怎么办？苏州大视通机器视觉杂说科技人工智能计算机视觉 opencv
关键原则：优先从物理层面消除反光（光源/光学），算法作为补充。偏振方案成本通常低于更换光源，且效果显著，建议优先尝试。在机器视觉打光测试中出现反光问题会严重影响图像质量，导致特征模糊、边缘丢失或检测失败。以下是系统性的解决方案，可根据实际情况组合应用：一、调整光源方案改变光源角度斜射照明：避免光源直射反光区域（如30°-60°环光、条形光侧打）。同轴光优化：对镜面物体改用低角度环形光（如<15°）
四阶数独——深度优先搜索dfs 我爱工作&工作love我 c++深度优先算法
文章目录四阶数独例题讲解深度优先dfs搜索知识点算法思想应用代码框架四阶数独例题讲解题目描述这里讨论一种简化的数独——四阶数独。给出一个4×4的格子，每个格子只能填写1到4之间的整数，要求每行、每列和四等分更小的正方形部分都刚好由1到4组成。求总共有多少种不同的数独？输出结果：288思路常规思路就是根据格子序号挨个设置数如果每次都是从第一个开始设置，暴力枚举，一个格子四种选择，16个格子所以就有4
数据结构——图的遍历之深度优先遍历（DFS算法）_全世界最可爱的王小帅_CSDN博客全世界最可爱的王小帅数据结构图论算法 cpp c#
数据结构——图的遍历之深度优先遍历图的遍历一般分为深度优先遍历和广度优先遍历下面我们要说的是深度优先遍历**（DFS算法）**1，我们首先选择一个顶点作为起始点，假设我们选择顶点v作为起始点，首先访问v，然后找v的邻接点，访问v的一个还未被访问过邻接点w1,2，再以w1为起始点，然后去找w1的邻接点，访问w1的一个还未被访问过的邻接点w2，再以w2作为起始点继续往下访问…3，如果我们访问到一个顶点
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
数据结构与算法：深度优先的实战指南
数据结构与算法：深度优先的实战指南关键词：深度优先搜索（DFS）、递归、栈、图遍历、路径查找、迷宫寻路、算法实战摘要：深度优先搜索（DFS）是计算机科学中最经典的算法之一，被广泛应用于路径查找、游戏AI、社交网络分析等场景。本文将用“迷宫探险”的故事串联核心概念，结合生活案例、代码实战和LeetCode经典题，带您从0到1掌握DFS的底层逻辑与实战技巧。即使你是算法新手，也能通过通俗易懂的讲解，真
从零开始：Python实现语音识别的完整教程 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别 xcode ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、完整教程、语音输入、文字输出摘要：本文将带领大家从零开始，用Python实现语音识别功能。我们会详细介绍语音识别的核心概念、相关算法原理，通过具体的代码示例，一步步教大家搭建开发环境、实现语音识别代码，并对代码进行解读。同时，还会探讨语音识别的实际应用场景、推荐相关工具和资源，最后分析未来发展趋势与挑战。背景介绍目的和范围
从零开始：Python实现语音识别的完整教程_副本 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 python 语音识别开发语言 ai
从零开始：Python实现语音识别的完整教程关键词：Python、语音识别、语音转文本、音频处理、机器学习、深度学习、自然语言处理摘要：本文将带你从零开始学习如何使用Python实现语音识别功能。我们将从基础概念讲起，逐步深入到实际代码实现，涵盖音频处理、特征提取、模型训练等关键环节，最终构建一个完整的语音识别系统。无论你是初学者还是有一定经验的开发者，都能从本教程中获得实用的知识和技能。背景介绍
【锂电池SOC估计】 Matlab基于BP神经网络的锂电池SOC估计天天Matlab代码科研顾问 matlab 神经网络开发语言
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍摘要:电池荷电状态(StateofCharge,SOC)的精确估计对于电动汽车、储能系统等应用至关重要。传统的SOC估计方法存在精度受限、算法复杂等问题。本文提出了一种基于反向传播(BackPropagation,BP)神经网络的锂电池SO
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

策略梯度方法介绍——Value-Based强化学习方法 VS Policy-Based强化学习方法

策略梯度方法求解强化学习任务——策略梯度方法介绍

目录

回顾：基于价值函数(Value-Based)的强化学习方法

Value-Based强化学习方法介绍