hey-yahei

【强化学习】Policy Gradient

原文链接：https://www.yuque.com/yahei/hey-yahei/rl-policy_gradient

参考：

机器学习深度学习（李宏毅）- Deep Reinforcemen Learning3_1
机器学习深度学习（李宏毅）- Policy Gradient
机器学习深度学习（李宏毅）- Proximal Policy Optimization

策略梯度

策略梯度（Policy Gradient）是一种policy-based的RL算法。

基本形式

将游戏图像输入给神经网络，输出各个动作的决策概率，在预测阶段直接挑选概率最大的动作，在训练阶段则按照概率随机执行动作。
我们用采取某个动作之后的奖励总和（包括后续动作产生的奖励）来评估执行者actor的好坏，也即
$R_{\theta}=\sum_{t=1}^{T} r_{t}$
其中， $r_t$ 是采取该动作后第 $t$ 个状态所获的奖励。
由于状态的复杂多变，以及每次采取动作的随机性，这里的 $R_\theta$ 显然是一个随机变量，实际操作中我们使用它的期望 $\bar{R}_\theta$ 来评估执行者 $\pi_\theta(s)$ 的好坏。

记一个动作序列（通常成为片段episode）为
$\tau = \{\tau_1, \tau_2, ..., \tau_T\}$
$\tau_i = (s_i, a_i, r_i)$ 表示该片段中第 $i$ 个状态 $s_i$ 下采取动作 $a_i$ 后获得了奖励 $r_i$ ；

【这里强调一下上下标的含义，上标代表采样序号，下标代表本次采用的时间序号，如下文的 $\tau_t^n$ 代表第 $n$ 次采样中，第 $t$ 个时间点的阶段（三元组 $s_t^n,a_t^n,r_t^n$ ）；另外， $r$ 和 $\tau$ 长得可太像了，千万别看错！】

实际中我们几乎不可能遍历所有可能的动作序列，一般都是通过 $N$ 次采样的平均结果来估计期望，也即
$\bar{R}_{\theta}=\sum_{\tau} R(\tau) P(\tau | \theta) \approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right)$
我们的目标是最大化奖励期望，即
$\theta^{*}=\arg \max _{\theta} \bar{R}_{\theta}$
自然而然想到，可以用梯度上升法迭代更新权重
$\theta^{t+1} \leftarrow \theta^{t}+\eta \nabla \bar{R}_{\theta^{t}}$
接下来考虑如何求解 $\nabla \bar{R}_{\theta}$ ，直接对 $\bar{R_\theta}$ 求导
$\nabla \bar{R}_{\theta} =\sum_{\tau} R(\tau) \nabla P(\tau | \theta)$
注意 $R(\tau)$ 跟 $\theta$ 无关，它不需要可导，即使是个黑盒都无关紧要；而
$P(\tau|\theta) = p\left(s_{1}\right) \prod_{t=1}^{T} p\left(a_{t} | s_{t}, \theta\right) p\left(r_{t}, s_{t+1} | s_{t}, a_{t}\right)$
这里 $p\left(s_{1}\right)$ 和 $p\left(r_{t}, s_{t+1} | s_{t}, a_{t}\right)$ 都与 $\theta$ 无关，看起来可太碍事了，不如我们取个对数
$P(\tau|\theta) = \log p\left(s_{1}\right)+\sum_{t=1}^{T} \log p\left(a_{t} | s_{t}, \theta\right)+\log p\left(r_{t}, s_{t+1} | s_{t}, a_{t}\right)$
显然，
$\nabla \log P(\tau | \theta)=\sum_{t=1}^{T} \nabla \log p\left(a_{t} | s_{t}, \theta\right)$
这可干净多了。为了应用对数形式的梯度，那么将奖励梯度做一下简单变换，
$\begin{aligned} \nabla \bar{R}_{\theta} &=\sum_{\tau} R(\tau) \nabla P(\tau | \theta) \\ &=\sum_{\tau} R(\tau) P(\tau | \theta) \frac{\nabla P(\tau | \theta)}{P(\tau | \theta)} \\ &= \sum_{\tau} R(\tau) P(\tau | \theta) \nabla \log P(\tau | \theta) && 【\frac{\operatorname{dlog}(f(x))}{d x}=\frac{1}{f(x)} \frac{d f(x)}{d x}】\\ & \approx \frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \nabla \log P\left(\tau^{n} | \theta\right) && 【通过采样来估计\sum_{\tau} P(\tau | \theta)】\\ &=\frac{1}{N} \sum_{n=1}^{N} R\left(\tau^{n}\right) \sum_{t=1}^{T_{n}} \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) && 【将\nabla \log P(\tau | \theta)代入】\\ &=\frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} R\left(\tau^{n}\right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) \end{aligned}$

为什么要使用对数呢？
除了前边提到的求导形式简单之外，还有一个理由——首先考虑原始的 $\nabla p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)$ ，
假设某种相对极端的情况，在一个片段中频繁采取动作a，那么在训练时会倾向于增加动作a的概率，即使动作b的奖励要高于动作a（但动作b的采用概率很低），这显然是不合理的，而按照前述，对数形式有
$\log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) = \frac{\nabla p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)}{p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)}$
这相当于用概率 $p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)$ 对原始的梯度 $\nabla p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)$ 做了规范化，从而避免了前边提到的极端情况。

两点改进

接下来我们看看 $R\left(\tau^{n}\right)$ ，有些任务可能并没有惩罚，也就是 $R\left(\tau^{n}\right) \geq 0$ ；即使任务有惩罚，但也有可能出现一个片段中所有奖励都是正值的情况，那么此时所有采样涉及的动作概率都会增加——但不用担心，由于所有动作的概率之和约束为1，所以概率“增加”较少的动作会被其他同样“增加”概率的动作挤兑，实际上概率是下降了。

但这只考虑了大家都被采样到的情况，假如有某个动作很倒霉，它在当前片段中一次都没有被采样，但它的概率依旧被降低了，这明显是不合理的。

所以我们可以为奖励引入一个baseline，让reward有正有负，从而缓解这样的问题。
$\nabla \bar{R}_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(R\left(\tau^{n}\right)-b\right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right)$
baseline可以手工设计；也可以取奖励的期望，即 $E[R(\tau)]$

再来讨论权重 $\left(R\left(\tau^{n}\right)-b\right)$ 的合理性。
考虑一个很小的片段 $\tau = \{ (s_1, a_1, +5), (s_2, a_2, 0), (s_3, a_3, -2) \}$ ，可以算出它的奖励为 $R(\tau)=+3$ ，这样一来 $\nabla \log p\left(a_1 | s_1, \theta\right), \nabla \log p\left(a_2 | s_2, \theta\right), \nabla \log p\left(a_3 | s_3, \theta\right)$ 的权重都是+3。可是总奖励 $R(\tau)$ 的正值贡献主要来源于 $\tau_1 = (s_1, a_1, +5)$ ，但我们又以相同的力度鼓励 $\tau_2 = (s_2, a_2, 0)$ 甚至 $\tau_3 = (s_3, a_3, -2)$ ，这显然是有问题的。更合理的做法应当是统计当前阶段之后的奖励之和来作为自己的权重，而不是整个片段的总奖励，也即
$R(\tau^n_t) = \sum^{T_n}_{t'=t}r_{t'}^n$
而且，为了鼓励尽早取得奖励（或者反过来说，为了减弱遥远未来的奖励的重要性），可以引入一个超参数折扣因子（discount factor） $\gamma$ ，奖励值进一步改造为
$R(\tau^n_t) = \sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n, \gamma < 1$
最终变为
$\begin{aligned} \nabla \bar{R}_{\theta} &\approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(R\left(\tau^{n}_t\right)-b\right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right) \\ &= \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}}\left(\sum^{T_n}_{t'=t} \gamma^{t'-t} r_{t'}^n - b \right) \nabla \log p\left(a_{t}^{n} | s_{t}^{n}, \theta\right), \gamma < 1 \end{aligned}$
事实上， $\left(R\left(\tau^{n}_t\right)-b\right)$ 这一项被称为Advantage Function，记为 $A^\theta(s_t, a_t)$ ，甚至可以训练一个critic来替代这里的手工设计，也即之后会讲的Value-based方法。

Off-Policy

如果用于采样的模型跟实际训练的模型是同一个模型，则称为On-Policy；如果不是同一个模型，则称为Off-Policy。为什么好好的不用同一个模型呢？这是因为我们可以用之前的模型进行采样获得很多数据，而用这些数据来做多次迭代，每迭代一定部署后再用训练模型的参数去更新采样模型，从而有效加快强化学习的训练过程。

分布修正

由于经过迭代，采样的模型的采样结果跟实际训练的模型的采样是会有差距的，因此需要引入一些措施来修正。
原始的梯度为
$\nabla \bar{R}_{\theta}=E_{\tau \sim p_{\theta}(\tau)}\left[R(\tau) \nabla \log p_{\theta}(\tau)\right]$
记训练模型的样本分布、采样模型的样本分布分别为 $p (x), q (x)$
$\begin{aligned} E_{x \sim p}[f(x)] &= \int f(x) p(x) d x \\ &=\int f(x) \frac{p(x)}{q(x)} q(x) d x \\ &= E_{x \sim q}[f(x)\frac{p(x)}{q(x)}] \end{aligned}$
修正后的梯度可以表示为
$\nabla \bar{R}_{\theta}=E_{\tau \sim p_{\theta^{\prime}}(\tau)}\left[\frac{p_{\theta}(\tau)}{p_{\theta^{\prime}}(\tau)} R(\tau) \nabla \log p_{\theta}(\tau)\right]$
也即用 $\pi_{\theta'}$ 采样的数据来训练 $\pi_\theta$ ，并且给奖励乘以一个 $\frac{p_\theta(\tau)}{p_{\theta'}(\tau)}$ 重要性因子作为修正（称为Importance Sample），修正后的梯度，可以保证采样数据的样本上期望是一致的。
展开来的话
$\begin{aligned} \nabla \bar{R}_{\theta} &= E_{\tau \sim p_{\theta^{\prime}}(\tau)}\left[\frac{p_{\theta}(\tau)}{p_{\theta^{\prime}}(\tau)} R(\tau) \nabla \log p_{\theta}(\tau)\right] \\ &=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta}}\left[A^{\theta}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \\ &= E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{P_{\theta}\left(s_{t}, a_{t}\right)}{P_{\theta'}\left(s_{t}, a_{t}\right)} A^{\theta'}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \\ &= E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} \frac{p_{\theta}\left(s_{t}\right)}{p_{\theta^{\prime}}\left(s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \\ &(...\frac{p_{\theta}\left(s_{t}\right)}{p_{\theta^{\prime}}\left(s_{t}\right)}的实际值不好获得，但一般认为环境是\theta无关的，所以不妨假设其值为1...) \\ &= E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right) \nabla \log p_{\theta}\left(a_{t}^{n} | s_{t}^{n}\right)\right] \end{aligned}$
根据 $\nabla f(x) = f(x) \nabla \log f(x)$ 可以由梯度反推出目标函数
$J^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]$

有了修正，是不是就可以为所欲为了呢？其实也不是，从方差上看
$\operatorname{Var}_{x \sim p}[f(x)]=E_{x \sim p}\left[f(x)^{2}\right]-\left(E_{x \sim p}[f(x)]\right)^{2}$
而
$\begin{aligned} \operatorname{Var}_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right] &= E_{x \sim q}\left[\left(f(x) \frac{p(x)}{q(x)}\right)^{2}\right]-\left(E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]\right)^{2} \\ &= E_{x \sim q}\left[f(x)^{2} \frac{p(x)}{q(x)} \frac{p(x)}{q(x)}\right]-\left(E_{x \sim p}\left[f(x) \right]\right)^{2} \\ &= E_{x \sim p}\left[f(x)^{2} \frac{p(x)}{q(x)}\right]-\left(E_{x \sim p}\left[f(x) \right]\right)^{2} \end{aligned}$
显然方差是不完全相同的，而且随着 $p (x), q (x)$ 差异变大，方差的差异也会随之变大。
举个直观点的例子，

因为 $p (x)$ 在左半部分概率比较高，而且这部分 $f (x) < 0$ ，显然 $E_{x \sim p}[f(x)]$ 是负数；
因为 $q (x)$ 在右半部分概率比较高，所以有可能采样点都在右侧，此时 $E_{x \sim q}[f(x)\frac{p(x)}{q(x)}] \approx \frac{1}{N}\sum^N_{i=1} f(x_i) \frac{p(x_i)}{q(x_i)}$ 算出来却是正数，这下可差得远了。

所以需要采取一些额外措施，来避免 $p (x), q (x)$ 相差太大。

TRPO和PPO

原始的目标函数为
$J^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]$

**信任区域策略优化（Trust Region Policy Optimization, TRPO）**对目标函数做了一些约束，要求采样模型和训练模型在输出分布上的差异不能太大，
$J_{T R P O}^{\theta^{\prime}}(\theta)=E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right], K L\left(\theta, \theta^{\prime}\right)<\delta$
注意：这里 $KL(\theta, \theta')$ 指的不是参数分布的KL散度，而是模型输出的分布，下文的PPO也是如此。
但带条件约束的目标函数在实际操作中并不好处理；

邻近策略优化（Proximal Policy Optimization, PPO）将该约束体现在了计算公式中去，直接用它来做惩罚，
$J_{P P O}^{\theta^{\prime}}(\theta) = E_{\left(s_{t}, a_{t}\right) \sim \pi_{\theta^{\prime}}}\left[\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{\prime}}\left(a_{t} | s_{t}\right)} A^{\theta^{\prime}}\left(s_{t}, a_{t}\right)\right]-\beta K L\left(\theta, \theta^{\prime}\right)$
同时也有一种更简洁的形式，通常称为PPO2，
$J_{P P O 2}^{\theta^{k}}(\theta) = \sum_{\left(s_{t}, a_{t}\right)} \min \left(\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{k}}\left(a_{t} | s_{t}\right)} A^{\theta^{k}}\left(s_{t}, a_{t}\right) , \text { clip }\left(\frac{p_{\theta}\left(a_{t} | s_{t}\right)}{p_{\theta^{k}}\left(a_{t} | s_{t}\right)}, 1-\varepsilon, 1+\varepsilon\right) A^{\theta^{k}}\left(s_{t}, a_{t}\right) \right)$
看起来复杂，实际上是加了一个自适应的一个权重，

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
怎么做才能真正限制塑料袋的使用？ BalNews
Environmentalpollutionisalwaysamajorlivelihoodissue.Morethanadecadeago,ourgovernmenthadintroducedapolicyaboutrestrictionsontheuseofplasticbags,wecallitrestrictionsontheuseofplasticbags.Butmorethan10ye
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
华为坤灵路由器初始化开局的注意事项，含NAT配置 redmond88 网络技术华为服务器运维
坤灵路由器比较坑，无web界面，全程命令行配置，但是版本更新导致和华为企业路由器配置很多不一样的地方，今天介绍下1、aaa密码复杂度修改：#使能设备对密码进行四选三复杂度检查功能。system-view[HUAWEI]aaa[HUAWEI-aaa]local-aaa-userpasswordpolicyadministrator[HUAWEI-aaa-lupp-admin]passwordcomp
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
Linux删除监听端口进程,linux只端口监听及杀死进程探旅 Linux删除监听端口进程
itextpdf生成pdf文件一.简介itextpdf是一个开源的允许你去创建和操作PDF文档的库.它使的开发者可以提高web和其他应用来动态地生成或操作PDF文档.通过iText中的Document和PdfWriter类,...QtSizePolicy属性控件的sizePolicy说明控件在布局管理中的缩放方式.Qt提供的控件都有一个合理的缺省sizePolicy,但是这个缺省值有时不能适合所有
Pyqt5实现listwidget自定义右键菜单 Saudade957 pyqt5前端前端 python 编程语言
Pyqt5实现listwidget自定义右键菜单基于网上搜到的各种教程失败以后（ps:可能有的可以成功，但是我都没成功），组合了一下一些代码最终成功实现相关内容。首先在ui文件生成的py文件中添加self.listWidget.setContextMenuPolicy(Qt.CustomContextMenu)self.listWidget.customContextMenuRequested.c
Python实现梯度下降法闲人编程 python python 开发语言梯度下降算法优化
博客：Python实现梯度下降法目录引言什么是梯度下降法？梯度下降法的应用场景梯度下降法的基本思想梯度下降法的原理梯度的定义学习率的选择损失函数与优化问题梯度下降法的收敛条件Python实现梯度下降法面向对象的设计思路代码实现示例与解释梯度下降法应用实例：线性回归场景描述算法实现结果分析与可视化梯度下降法的改进版本随机梯度下降（SGD）小批量梯度下降（Mini-batchGradientDesce
C++多线程的简单使用好学松鼠 C++C++多线程 async promise
多线程的使用，本文主要简单介绍使用多线程的几种方式，并使用几个简单的例子来介绍多线程，使用编译器为visualstudio。一、AsyncFuture使用的知识点有std::async和std::future1、std::async函数原型templatefuture::type>async(launchpolicy,Fn&&fn,Args&&...args);功能：第二个参数接收一个可调用对象（
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
C# 图形图像技术（通过Graphics绘制图像）萨达大 c#开发语言
文章目录创建Graphics对象画笔与画刷画笔画刷SolidBrush类HatchBrush类LinerGradientBrush类基本图形绘制矩形椭圆圆弧扇形创建Graphics对象privatevoidForm1_Load(objectsender,Eventargse){Graphicsghs=this.CreateGraphics();}画笔与画刷画笔构造函数publicPen(Color
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
当背景为两种颜色交替出现时？用重复性渐变实现痛心凉
重复性渐变cssdiv{background-image:linear-gradient(0deg,rgba(255,255,255,.2)50%,transparent50%,transparent);background-size:37px37px;background-color:#EBEBEB;//按需要改动背景色}
Android音频路由策略 zhuyong006 Android-Audio
Android音频路由策略1.分析音频的默认路由在之前的文章音频输出设备是如何决定的中，我们知道AudioTrack的创建过程会调用到getOutputForAttrstatus_tAudioPolicyManager::getOutputForAttr(constaudio_attributes_t*attr,audio_io_handle_t*output,audio_session_tses
android10 按键音量调节源码解析 @OuYang android
/frameworks/base/services/core/java/com/android/server/policy/PhoneWindowManager.javastaticIAudioServicegetAudioService(){IAudioServiceaudioService=IAudioService.Stub.asInterface(ServiceManager.checkS
Android AudioPolicy策略的实现过程分析（二）：CarAudioService和自定义音频焦点策略神奇海螺666 Android学习 Android音频 android java 安卓
摘要：Android系统中与Automotive相关的代码会被编译成一个名为CarService的apk存在于车机中，CarService中包括了众多和Car功能相关的Service，其中就包括CarAudioService。CarAudioService在初始化时会获取系统的音频策略配置参数并试图构造并注册AudioPolicy类，AudioPolicy.java是Java层音频策略的总设计图，
Privacy Policy Green_Mage
The"CentripetalForceCalculator"apprespectsandprotectstheprivacyofalluserswhousetheservice.Inordertoprovideyouwithmoreaccurateandmorepersonalizedservices,the"CentripetalForceCalculator"appwilluseanddis
Python——渐变色星和月 python
在Python的turtle模块中，可以使用colorsys库来创建渐变色。importturtleimportcolorsysdefdraw_gradient(start_color,end_color):screen=turtle.Screen()screen.colormode(255)turtle.speed(0)turtle.penup()turtle.goto(-200,-200)tu
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
k8s防火墙networkPolicy，的核心是“自己” 技术服务于生态 kubernetes linux 网络
k8s防火墙的核心是“自己”这个“自己”，包括两层含义1.“我”是哪个名称空间的2.“我”是这个名称空间的哪些pod设置防火墙选择好核心之后看是允许哪些流量来访问我，就是ingressfrom，从哪进来的，你是谁？1.从哪个端口进来的，就设置ports，具体port包括端口号和协议号，比如tcp/802.从哪个名称空间进来的，就设置namespaceSelector，具体名称空间用其标签指定mat
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
k8s防火墙networkPolicy，其他规则和端口规则ports的匹配顺序，进站策略ingress和出站策略egress中，ports规则的常用方法。技术服务于生态 kubernetes 服务器 linux
端口策略和其他策略的顺序关系是什么一共四个策略ipBlockpodSelectornamespaceSlector------------------portsports这个策略，和前面三个不同什么不同匹配顺序不同在网络通信OSI七层模型中一个数据包从A到BB接收到数据包是先看ip选择是否接收如果接收才会拆包看ip报文里面封装的TCP/UDP报文中的端口号如果不接收，就不会有检测端口号的操作，因为
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
html字体如何设置渐变,CSS 实现文字渐变色甄公子 html字体如何设置渐变
CSS实现文字渐变，有下面两种方法：1.background属性.text-gradient{background-image:linear-gradient(toright,orange,purple);-webkit-background-clip:text;color:transparent;font-size:30px;}文字渐变效果如下：实现原理：background-image属性为该
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
【CSS】如何写渐变色文字并且有打光效果努力挣钱的小鑫 CSS css 前端 css3
效果如上，其实核心除了渐变色文字的设置background:linear-gradient(270deg,#d2a74294%,#f6e2a725%,#d5ab4a48%,#f6e2a782%,#d1a6414%);color:#e8bb2c;background-clip:text;color:transparent;还有就是打光效果，原理其实就是两块遮罩，如下完整代码自己再根据自己需求调整下就
新建用户 qyfl
连接MySQL后使用createuser'userName'@'host'identifiedby'password'如果密码太简单，需要修改MySQL的策略，两条语句。setglobalvalidate_password_policy=0;setglobalvalidate_password_length=1;
如何限制用户仅通过HTTPS方式访问OSS？阿里云技术安全与风控 python API
一、当前存在的问题当前OSS支持用户使用HTTPS/HTTP协议访问Bucket。但由于HTTP存在安全漏洞。大型企业客户都要求使用HTTPS方式访问OSS，并且拒绝HTTP访问请求。目前OSS可以通过RAMpolicy方式实现：限制某个用户、角色拒绝通过HTTP协议访问指定的Bucket和对象。但是RAMPolicy是一种基于用户的授权方式，无法针对资源进行授权。也就是说无法针对Bucket或者
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》