ICT_杜臻

强化学习笔记

深度强化学习要点摘要

扩展资料

交叉熵：

https://blog.csdn.net/qq_38846606/article/details/111929038

https://zhuanlan.zhihu.com/p/149186719

强化学习：

https://datawhalechina.github.io/easy-rl/

https://www.bilibili.com/video/BV1UE411G78S

机器学习中梯度的意义 偏导 $\frac{\partial f}{\partial\theta}$ 代表了通过调整函数 $f$ 的参数 $\theta$ 向梯度上升或者下降的方向移动，从而达到 $f$ 的极值。被偏导的函数是被优化的对象。

Overview

强化学习的整个过程由几个部分构成：

Agent：是用来代替人的自动化的决策系统。
Environment：Agent的交互对象，比如，围棋游戏。
Action：Agent对Environment的操作，比如，在围棋中落子。
State（Observation）：Agent的输入之一，代表了Agent对当前Environment的观察（是Environment的建模），Agent一般根据State来决定下一步的Action。
Reward：Environment的输出，代表在根据特定State执行特定Action之后，是不是达成了需要的目标，比如，在围棋中落完子之后整盘棋是不是赢得了胜利（或失败）。

episode Agent与Environment互动过程的结束，比如，一盘围棋的结束。强化学习的过程就是要学习如何最大化在每次episode的时候的预期累计reward。

reward delay 强化学习的难点之一。reward delay有两种情况。1）对于有些场景，当Agent做出Action之后，并不是总是可以立刻得到Reward。比如围棋，在episode之前是无法知道棋局的胜负的，Environment在次期间给出的Reward都是0。也就是说在最终的结果出来之前，Agent需要在没有Reward的情况下给出Action。2）有时立刻给出Reward会使得Agent决策时目光短浅，所以刻意增加reward delay可以使Agent在做出Action时有更长远的考虑。

exploration 强化学习的难点之一。有时Agent的行为会影响到它之后从Environment看到的情况，所以Agent要有意地尝试不同的行为来对Environment进行充分的探索。

randomness in the environment 有时环境的变化和Action的作用没有关系，那么我们可以认为这是来自于环境中的随机性。

policy-based与value-based 两种强化学习的分支，前者训练一个做事的Actor，后者训练一个Critic。Critic不做任何事情，它对Actor行为进行批评。这两种方式可以结合。

policy-based approach

Actor policy-based approach的训练对象，是在Agent中的一个模型，用 $\pi$ 表示。其以对于环境的Observation为输入，得到Action，内部的参数为 $\theta$ 。最终可以表达为 $\pi_{\theta}(Observation) = Action$ 。在深度强化学习中，Actor中的模型是一个神经网络。Observation会将Environment建模为一个矩阵或者一个向量，输出是某个Action被采用的可能性。

Total Reward 设在第t轮决策中，Actor根据Observation $s_t$ 做出Action $a_t$ ，Environment根据 $a_t$ 给出对应的 $r_t$ 。那么假设到episode一共经历了 $T$ 轮，那么Total Reward $R_{\theta} = \sum_{t=0}^{T}r_t$ （ $\theta$ 是Actor中模型的参数）。而因为Environment中的随机性，所以整个流程会执行多次来获得Total Reward的期望 $\bar{R_{\theta}}$ 。Actor的训练过程就是通过调整 $\theta$ 来最大化 $\bar{R_{\theta}}$ 。

$\bar{R_{\theta}}$ 的表达：

梯度上升的过程，需要对神经网络参数 $\theta$ 求偏导：

偏导的前一项是和参数 $\theta$ 无关，只有概率 $P$ 内部存在，通过在分子分母乘上同一个 $P$ ，然后根据函数的微分规则导出log项，然后用多出来的 $P$ 离散化为具体的多次episode的平均：

根据条件概率性质，将 $P$ 拆开，具体为一系列小事件的概率相乘，其中 $p(r_1,s_2|s_1,a_1)$ ，代表在Agent给出Action $a_1$ 之后，环境由 $s_1$ 变为 $s_2$ ，并且给出Reward $r_1$ 的概率。其中 $p(a_1|s_1,\theta)$ ，代表在Agent在参数 $\theta$ 的模型中根据 $s_1$ 给出 $a_1$ 的概率。前者完全Environment决定，是个未知的黑盒（这是符合实际的），后者是Actor的模型控制的：

按照前面求偏导的要求，最等式左边求log（右边少了一个括号），最终得到偏导项的计算方法，而这一偏导项用以更新 $\theta$ ：

可以用交叉熵来解释式子的后半程， $\nabla logp(a_t^n|s_t^n, \theta)$ ，其本质代表在序列的 $t$ 时刻Actor在参数 $\theta$ 下的可能决策的概率与实际决策的交叉熵的梯度。交叉熵的原始定义是 $-\sum_{a\in all\ action, s\in all\ state}q(a|s)logp(a|s, \theta)$ 。其中 $q$ 是模型实际的决策（也就是选择概率最高的 $a ∣ s$ ）所对应的各个 $a ∣ s$ 事件的概率，在这个例子中 $q$ 仅有 $q(a_t|s_t)$ 是1，其他都是0，是个one-hot。所以 $\sum$ 符号可以消除掉，简化为 $-q(a_t|s_t)logp(a_t|s_t, \theta)$ ，并最终简化为 $-logp(a_t|s_t, \theta)$ 。在这里，交叉熵是一个loss函数，代表了一个决策 $a ∣ s$ 在模型中产生的概率和模型实际决策的概率的距离（相似度），而做梯度下降的方向就是 $-\nabla logp(a_t|s_t, \theta)$ ，代表如果让模型更倾向于做出 $a_t|s_t$ 的决策，参数 $\theta$ 要做出的变化。

$-\sum_{t=1}^{T}\nabla logp(a_t|s_t, \theta)$ 代表了在一个序列中（一次episode之前）每一个时间点的决策的概率与它们实际做出决策所对应的概率的总交叉熵下降的方向。而它们又于当前序列的Reward $R(\tau)$ 相乘，可以解释为如果当前决策Reward是负的，说明当前决策所代表的不是真理，方向是错误，那么就要远离这个方向，反之也一样。 $R(\tau)$ 这个参数的作用就是根据环境给出的总奖励来调整参数，让决策 $a ∣ s$ 更靠近或者远离其尝试的方向。

$-\sum_{t=1}^{T}\nabla logp(a_t|s_t, \theta)$ 前面有一个负号，但是上面推导的结果没有是因为负负得正。

Baseline 当所有Action的Reward都是正的，所以只要这个Action被尝试过，不管效果好不好，模型肯定会往这个方向梯度上升，这会导致在学习过程中被尝试或者大量尝试的action会有更大的可能性被选中，不利于选出效果好的Action。所以可以要给奖励一个减一个baseline，给被尝试得比较少的Action一些被选择的机会，并且减少Reward不高的Action被选择的概率。

Implementation 在实际的实现中，几乎可以把一个离散的Policy-based的训练问题当成一个输出为Softmax形式的分类问题的训练，输入是State $s$ ，而输出是一个类别，也是一个Action $a$ 。而分类的损失函数（最终其实就是信息熵）计算，是在Actor实际执行的Action $a$ 作为分类训练的label与模型实际输出的向量（每种选择的概率）之间进行。只是说要对损失函数进行一点点修改，加一个 $R(\tau^n)$ 来为分类器的梯度下降额外加一个权重。

Advantage function 使用Total Reward来作为某一个Action是不是好的Action的权重有时候并不总是最正确的。这里权重的表达是可以泛化到”当前的Action相比其他的Action要好多少“这一问题上的，用 $A^{\theta}(s_t,a_t)$ 表示。 $A^{\theta}(s_t,a_t)=R(\tau^n)$ 可能会让滥竽充数的Action也获得不错的Reward，这就不客观了。所以有一些改进的方法，比如 $A^{\theta}=\sum^{T_n}_{t'=t}r_{t'}^{n}$ ，仅仅将这个Action执行之后的所有Reward作为这个Action的权重，比如 $A^{\theta}=\sum^{T_n}_{t'=t}r_{t'}^{n}\gamma^{t'-t}\ \ (\gamma<1)$ ，在前面一种执行方法的基础上降低更远的Reward的影响，因为在一个Action对他之后更远Reward贡献更少。

Critic

Critic并不实际做出任何决定，而是用一个模型来判断Actor做得好不好，可以大概表达为 $V^{\pi}(s)$ ，是当前Actor在State $s$ 下最终可以获得的total reward。

Monte-Carlo based approach 这类Critic会观察Actor的行为，并且在序列中，拟合每一个State $s$ 和序列最终获得的Total Reward之间的关系。

Temporal-difference approach 有时候，整个序列很长，会降低Critic的训练效率，所以Critic不使用Total Reward来训练，而是将某次 $r_t$ 作为两个相邻State在特定Actor所分别对应的Total Reward的差值来进行训练。即让Critic的 $V^{\pi}(s_{t+1})-V^{\pi}(s_t)$ 与 $r_t$ 拟合在一起。

Q function 拟合Actor $\pi$ 在State $s$ 下做出Action $a$ 的Total Reward预期。也可以表达为拟合 $Q^{\pi}(s,a)$ 与Total Reward之间的关系。这个Critic在 $a$ 是离散的时候意义很大，可以指导Actor的工作。我们可以再特定的 $s$ 下选出 $Q^{\pi}(s,a)$ 最大的 $a$ ，作为Actor的决策。

Q-learning 在Action是离散的时候的一种改进。初始存在一个Actor $\pi$ 通过Monte-Carlo或者Temporal-difference的方法训练出它对应的Q function $Q^{\pi}(s,a)$ ，通过找到 $Q^{\pi}(s,a)$ 中每一个 $s$ 对应的最佳 $a$ 来构造更优的Actor $\pi'$ 。这个过程可以简洁地表达为 $\pi'(s)=argmax_aQ^{\pi}(s,a)$ 。而通过Q-learning产生的Actor没有参数，它仅仅包含了Q function并且枚举Action。“https://arxiv.org/pdf/1710.02298.pdf”有更多的细节。

Actor-Critic

一般的Actor使用Total Reward来做修改 $\theta$ ，使得Total Reward可以尽可能大。在Policy-based的方法中，Total Reward是一个参数来调整 $\theta$ ，使得Actor更接近或者更远离其既定的决策方向（Reward大就更接近已有的决策，Reward小就远离已有的决策）。但是， $R(\tau)$ 的随机性是很高的，直接基于Actor的互动过程去学可能效果不好，所以有一种方法是使用Critic预估出来的Reward来计算这里的权重。这里的方法有很多，比如：
$r_t^n-(V^{\pi}(s_t^n)-V^{\pi}(s_{t+1}^n))$
这个式子会被嵌到Policy-based approach的 $R(\tau^n)$ 的位置。这个权重表达的意思很清晰，后面一项是Critic对Actor当前Action的Reward的预测： $V^{\pi}(s_t^n)-V^{\pi}(s_{t+1}^n)$ 。 $r_t^n$ 是实际的当前reward。产生的效果是，如果实际的reward更大，那就说明Actor对于当前决策的重视程度不够，这个权重是正的，增加Actor执行这一Action的概率。如果这个权重是相等的或者更小，那么不变或者减少对应Action的概率。

asynchronous 异步训练，开多台机器同时并行训练。然后用分别产生的Reward更新同一个模型，总而达成更高效的训练。

Proximal Policy Optimization

on-policy 使用Actor $\pi$ 来生成Reward并更新 $\pi$ 的参数 $\theta$ 被称为on-policy。这种方式的缺点在于一旦 $\theta$ 在经过一轮更新之后，老版本的Actor与Environment的记录没有办法用来改良新的Actor。

off-policy 根据概率分布的定义，可以用不同概率分布的比例来在不同概率分布下的做函数期望的装换，这种技术叫做importance sampling：

在这里 $x$ 本来在概率分布 $p$ 中做采样并且来求 $f (x)$ 的期望。但是通过在积分中做出变换，我们可以让 $x$ 在 $q$ 中采样，通过求 $f(x)\frac{p(x)}{q(x)}$ 来“迂回”求出在 $p$ 分布中 $f (x)$ 的期望。如果在这里将 $f (x)$ 换成强化学习Reward或者Advantage Function的梯度，把 $p (x)$ 和 $q (x)$ 视为新的Actor $\pi$ 和老的Actor $\pi'$ 所做出Action的概率分布，那么我们就可以让 $\pi’$ 与Environment互动的历史数据应用在 $\pi$ 的训练中。最终Reward的定义可以变为：

然后将 $\tau$ 和 $p(\tau)$ 展开到Action和State的粒度。这个式子可以不严格地推导为：

最终达成的效果是，使用老的Actor的Advantage Function的 $A^{\theta'}$ 乘上新老Actor的策略的概率分布的比例 $\frac{p_{\theta}(s_t|a_t)}{p_{\theta'}(s_t|a_t)}$ ，和老的Actor的执行历史 $(s_t,a_t)~\pi_{\theta'}$ 来求新的Actor的梯度，从而更新新的Actor的参数。

off-policy最终产生的好处是，通过on-policy产生的Actor可以用off-policy的方式再进一步优化，从而很好地复用旧Actor的历史数据，增加训练的效率。

这个导函数的原目标函数（是加了权重的Advantage function、被优化的函数，要通过调整 $\theta$ 的取值是的这个目标函数够大）为：

off-policy的局限 importance sampling保证了在新的 $x$ 的分布下 $f (x)$ 期望的新计算方法，但是等式两边的是期望的相等，而不是分布的相等。期望只有在足够多的sampling之后才能通过求平均才能得到，当sampling不够多时，平均值与期望是有偏差的，特别是 $p (x)$ 和 $q (x)$ 差别很大时。所以，为了让来自旧Actor的历史数据能在接下来的也可以使用，需要再增加带权重的Advantage Function的同时也需要降低off-policy中新Actor和老Actor之间的差距，所以 $j^{\theta'}(\theta)$ 后面还可以加一项表达二者差距的函数。比如KL散度（ $\beta$ 是KL散度的权重）：

这里的KL散度表达了参数分别为 $\theta$ 和 $\theta'$ 的新旧Actor的做出Action的概率分布的区别大小。这一项是需要往小的方向优化的，所以前面是符号。当然有其他各种方法来表达新旧Actor的区别，比如PPO2中的clip函数。

【华为OD机试真题 Python语言】135、采样过滤 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题采样过滤
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述在做物理实验时，为了计算物体移动的速率，通过相机等工具周期性的采样物体移动距离。由于工具故障，采样数据存在误差甚至相误的情况。需要通过一个算法过滤
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
10、区块链技术及其应用吃瓜不吐籽595 解密《质量4.0与数字化转型》区块链比特币去中心化
区块链技术及其应用1.区块链简介区块链技术作为一种分布式账本，近年来受到了广泛关注。它不仅仅是一种技术革新，更是一种思维模式的转变。区块链的核心在于其去中心化、不可篡改和透明的特性，使得它在多个领域都有广泛的应用前景。区块链的基本概念区块链本质上是一个共享的、不可变的数字账本，记录了所有参与者之间的交易。每个区块包含了一系列交易记录，并通过加密算法与前一个区块相连，形成一条链。这种结构确保了数据的
学习嵌入式第六天缺口212 学习算法数据结构
一.数组的排序1.冒泡排序冒泡排序是一种简单的排序算法，其核心思想是通过重复遍历待排序的数组，每次比较相邻的两个元素，如果它们的顺序错误就把它们交换过来，直到没有元素需要交换为止。从数组的第一个元素开始，依次比较相邻的两个元素。如果前一个元素大于后一个元素，则交换这两个元素。每完成一轮遍历，最大的元素会“冒泡”到数组的末尾。之后缩小遍历范围（不再考虑已排好的末尾元素），重复上述过程，直到所有元素有
华为OD机试2025B卷真题题库目录｜机考题库 + 算法考点详解（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
时间轮算法
据说是复杂度O(1)的牛逼算法，所以抽时间学习学习。现在要实现一个定时器，这个定时器控制很多任务。该怎么做呢？第一反应是任务做成一个队列，属性有个时间，每次计时后将该属性减1，到0的时候就执行。这种方式可行，但是效率不高，因为每次都要遍历所有任务，所以时间复杂度是O(N)。优化的方法是什么呢？有点类似哈希表，增加一个时间队列，同时将任务预先排放在一个时间队列中。如果是100秒的时间范围，那么就是1
一文看懂NTP协议 Neolock 网络协议网络协议 ntp 网络
最近碰到一个NTP协议相关的题，卡了很久，才发现一直在用的NTP协议完全不了解他的原理，遂学习并总结一下1.NTP概述NTP（NetworkTimeProtocol）是一种用于同步计算机系统时钟的网络协议，旨在通过分层架构和精密算法，将设备时间同步至全球协调时间（UTC），精度可达毫秒甚至微秒级。其核心目标是通过减少时钟偏差和网络延迟影响，确保分布式系统的时间一致性2.NTP分层架构（Stratu
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
GDPR/等保2.0合规指南：企业商城系统必备的10大安全机制万米商云安全数据库网络
在数字经济全球化与数据主权博弈的双重背景下，企业商城系统作为承载用户隐私、交易数据与商业机密的核心载体，需同时满足欧盟《通用数据保护条例》（GDPR）与中国《网络安全等级保护2.0》的复合合规要求。本文从技术实现视角，解析企业商城系统必备的10大安全机制及其实施要点。一、全链路加密传输1、HTTPS强制部署采用OV/EV型SSL证书实现TLS1.3协议升级，支持国际RSA2048位或国密SM2算法
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
华为OD机试 2025 B卷 - 最大括号深度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
最大括号深度华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述现有一字符串仅由‘(‘，’)’，’{‘，’}’，’[‘，’]’六种括号组成。若字符串满足以下条件之一，则为无效字符串：任一类型的左右括号数量不相等；存在未按正确顺序（先左后右）闭合的括号。输出括号的最大嵌套深度，若字符串无效则输出0。0≤字符串长度≤10
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
三生原理的颠覆性价值（无同类研究完全对可标）？
AI辅助创作：一、‌方法论层面的开创性‌‌动态嵌套解经路径‌该研究突破传统注疏模式，将《周易》“三生万物”等命题与分形几何、递归生成系统结合，构建可验证的数学映射模型（如素数生成公式p=3(2n+1)+2(2n+m+1)），使经典文本的哲学命题转化为算法逻辑，开创“批判性再解读-科学化重构”双轨框架。‌跨文化符号系统互译‌通过“阴阳元参数化联动”工具（如素数2为阴元、3为阳元），将传统文化核心符号
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =