长相忆兮长相忆

【机器学习】Reinforcement Learning-强化学习学习笔记

一、强化学习的定义

1.1 什么是强化学习？

首先，强化学习并不是某一种特定的算法，而是一类算法的统称。

解决序列决策问题的一类方法，通过寻求最优策略，获取最大回报。

强化学习就是智能体从环境到动作映射的学习，以使回报信号(激励信号)函数值最大。

引用下百度百科下强化学习的定义：强化学习（Reinforcement Learning, RL），又称增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习的常见模型是标准的。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL），以及主动强化学习（active RL）和被动（passive RL）。

1.2 机器学习的几种方法

强化学习是和监督学习，非监督学习并列的第三种机器学习方法。

机器学习下的几种方法的对比：

监督学习：标签数据：需要，直接反馈，应用场景：预测输出。
无监督学习：标签数据：不需要，无反馈，应用场景：发掘隐藏结构。
强化学习：标签数据：不需要，延迟反馈，应用场景：决策过程。

强化学习和监督学习、无监督学习最大的不同就是不需要大量的“数据喂养”，而是通过自己不停的尝试来学会某些技能。也就是说，强化学习是让计算机实现从一开始完全随机的进行操作，通过不断地尝试，从错误中学习，最后找到规律，学会了达到目的的方法。智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。

1.3 强化学习基本思路

算法执行个体（Agent）来做决策，即选择一个合适的动作（Action）。选择了动作后，环境的状态(State)会发生改变，变为为+1，同时也可以得到采取动作的延时奖励(Reward)+1。然后个体可以继续选择下一个合适的动作，然后环境的状态又会发生改变，又有新的奖励值。

1.4 强化学习的一些特点

强化学习没有监督标签，只会对当前状态进行奖惩和打分，其本身并不知道什么样的动作才是最好的。
强化学习的评价有延迟，往往需要过一段时间，已经走了很多步后才知道当时选择是好是坏。有时候需要牺牲一部分当前利益以最优化未来奖励。
强化学习有一定的时间顺序性，每次行为都不是独立的数据，每一步都会影响下一步。目标也是如何优化一系列的动作序列以得到更好的结果，即应用场景往往是连续决策问题。

二、强化学习术语

2.1 强化学习基本术语

智能体-Agent：强化学习中的Agent可以理解为是采取行动的智能个体。
动作-Action：Action是智能体可以采取的动作的集合。一个动作（action）几乎是一目了然的，但是应该注意的是智能体是在从可能的行动列表中进行选择。
环境-Environment：指的就是智能体行走于其中的世界。这个环境将智能体当前的状态和行动作为输入，输出是智能体的奖励和下一步的状态。
状态-State：一个状态就是智能体所处的具体即时状态；也就是说，一个具体的地方和时刻，这是一个具体的即时配置，它能够将智能体和其他重要的失事物关联起来，例如工具、敌人和或者奖励。它是由环境返回的当前形势。
奖励-Reward：奖励是我们衡量某个智能体的行动成败的反馈，通常是一个标量。面对任何既定的状态，智能体要以行动的形式向环境输出，然后环境会返回这个智能体的一个新状态（这个新状态会受到基于之前状态的行动的影响）和奖励（如果有任何奖励的话）。奖励可能是即时的，也可能是迟滞的。它们可以有效地评估该智能体的行动。

强化学习的基本流程图：

~~强化学习动作者主体的构成：~~

~~策略-Policy：动作者的行为函数，策略是动作者的行为决策来源。~~

~~值函数-Value Function：评价每一步的状态或者动作，值函数是对未来累计奖励的预测。~~

~~模型-Model：动作者对环境的建模表示，预测环境接下来要发生什么。~~

强化学习基本要素：

环境状态， t时刻环境的状态是它的环境状态集中某一个状态。
个体的动作， t时刻个体采取的动作是它的动作集中某一个动作。
环境的奖励，t时刻个体在状态采取的动作对应的奖励+1会在t+1时刻得到。
个体的策略(policy)，它代表个体采取动作的依据，即个体会依据策略来选择动作。最常见的策略表达方式是一个条件概率分布(|)，即在状态时采取动作的概率。即(|)=(=|=)，此时概率大的动作被个体选择的概率较高。
个体在策略和状态时，采取行动后的价值（value），一般用()表示。这个价值一般是一个期望函数。虽然当前动作会给一个延时奖励+1，但是光看这个延时奖励是不行的，因为当前的延时奖励高，不代表到了t+1,t+2,...时刻的后续奖励也高。比如下象棋，我们可以某个动作可以吃掉对方的车，这个延时奖励是很高，但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。价值函数()一般可以表示为下式（为衰减因子）：

环境的状态转化模型，可以理解为一个概率状态机，它可以表示为一个概率模型，即在状态下采取动作,转到下一个状态′的概率，表示为′。
探索率，这个比率主要用在强化学习训练迭代过程中，由于我们一般会选择使当前轮迭代价值最大的动作，但是这会导致一些较好的但我们没有执行过的动作被错过。因此我们在训练选择最优动作时，会有一定的概率不选择使当前轮迭代价值最大的动作，而选择其他的动作。

2.2 马尔可夫决策过程（Markov Decision Process）

马氏状态：未来仅与当前状态有关，与过去无关。(MDP策略完全取决于当前状态)

MDP简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。马尔可夫过程是一种无记忆性的随机过程，具备马尔可夫性。

马尔可夫决策过程：一个四元组。

补充：R是回报函数。

MDP的动态过程如下：某个智能体（agent）的初始状态为s0，然后从A中挑选一个动作a0执行，执行后，agent 按Ps,a概率随机转移到了下一个状态s1，s1∈ Ts0a0。然后再执行一个动作a1，就转移到了状态s2，接下来再执行a2…

强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划（Dynamic Programming）。流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q 学习、深度强化学习（DQN）。

2.3 贝尔曼方程

三、一些强化学习算法

强化学习算法的2大分类。这2个分类的重要差异是：智能体是否能完整了解或学习到所在环境的模型。有模型学习（Model-Based）对环境有提前的认知，可以提前考虑规划，但是缺点是如果模型跟真实世界不一致，那么在实际使用场景下会表现的不好。免模型学习（Model-Free）放弃了模型学习，在效率上不如前者，但是这种方式更加容易实现，也容易在真实场景下调整到很好的状态。所以免模型学习方法更受欢迎，得到更加广泛的开发和测试。

采用时序差分法的强化学习可以分为两类，一类是在线控制（On-policy Learning），即一直使用一个策略来更新价值函数和选择新的动作，代表方法就是Sarsa。而另一类是离线控制（Off-policy Learning），会使用两个控制策略，一个策略用于选择新的动作，另一个策略用于更新价值函数，代表方法就是Q-Learning。

3.1、Q-Learning

QLearning是强化学习算法中基于价值（value-based）的学习算法。Q即为Q(s,a)，就是在某一时刻的s状态下采取动作a动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

QLearning的核心是Q-table，Q-table只是一个简单查找表的奇特名称。Q-table的行和列分别表示state和action的值（行=状态，列=动作），Q-table的值Q(s,a)衡量当前state采取action到底有多好。每个Q-table的得分将是机器人在该状态下采取该行动时将获得的最大预期未来奖励。这是一个迭代过程，因为我们需要在每次迭代时改进Q-Table。Q-Learning算法可以学习出Q表的每个值。

在实际的训练过程中，通常实验贝尔曼方程来更新Q-table：

Q(s,a)表示成当前状态s采取动作a后的即时奖励r，加上折价γ后的最大reward max(Q(s′,a′)。

Qlearning使用了时间差分法TD（融合了蒙特卡洛和动态规划）能够进行离线学习, 使用bellman方程可以对马尔科夫过程求解最优策略。

QLearning的两个重要术语：状态-state、行为-action。QLearning的目标是达到reward值最大的state。

QLearning算法的转移规则：

$\LARGE Q(s,a) = R(s,a)+\gamma *\underset{\widetilde{a}}{max}\left \{ Q(\widetilde{s},\widetilde{a}) \right \}$

其中，（s,a）表示当前的状态和行为，（ $\widetilde{s}$ , $\widetilde{a}$ ）表示s的下一个状态及行为，学习参数 $\gamma$ 为0-1之间的常数。这里， $\gamma$ 趋向0表示agent主要考虑“眼前奖励”，趋向1表示agent主要考虑“记忆中的奖励”。Q为待构建的矩阵，表示agent已经学到的知识，R是reward矩阵，行表示状态，列表示行为。Q与R矩阵同阶。

将agent的每一次探索称为一个episode，在每一个episode中，agent从任意初始状态到达目标状态，当agent到达目标状态后，一个episode结束，进入下一个episode。

Q-learning算法流程：

Agent通过上述Q-learning算法在经验中学习，每个episode相当于一个training session。在一个training session中，agent探索外界环境，并接收外界环境的reward，直到达到目标状态。训练的目标是要强化Q矩阵，训练的越多，Q矩阵被优化的越好。（Q被初始化为一个全0矩阵）

Q-Learnig的思想就是，如上图从上到下，先基于当前状态S，使用ϵ−贪婪法按一定概率选择动作A，然后得到奖励R，并更新进入新状态S′。此时，如果是SARSA，会继续基于状态S′，用−贪婪法选择A′,然后来更新价值函数。对于Q-Learning，基于状态S′，没有使用−贪婪法选择A′，直接使用贪婪法从所有的动作中选择最优的A′（即离线选择，不是用同样的ϵ−贪婪）。而是使用贪婪法选择A′，也就是说，选择使(′,)最大的a作为A′来更新价值函数。

Q学习算法流程：

建立一个Q Table来保存状态s和将会采取的所有动作a，Q(s,a)。在每个回合中，先随机初始化第一个状态，再对回合中的每一步都先从Q Table中使用ϵ−贪婪基于当前状态 s （如果Q表没有该状态就创建s-a的行，且初始为全0）选择动作 a，执行a，然后得到新的状态s’和当前奖励r，同时更新表中Q(s,a)的值，继续循环到终点。整个算法就是一直不断更新 Q table 里的值，再根据更新值来判断要在某个 state 采取怎样的 action最好。

Q-learning参考文献：

强化学习（七）时序差分离线控制算法Q-Learning - 刘建平Pinard - 博客园在强化学习（六）时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA，而另一类时序差分的离线控制算法还没有讨论，因此本文我们关注于时序差分离线控制算法，主要是经典的Q-Learnhttps://www.cnblogs.com/pinard/p/9669263.html
An introduction to Q-Learning: reinforcement learningby ADL An introduction to Q-Learning: reinforcement learning Photo by Daniel Cheung [https://unsplash.com/@danielkcheung?utm_source=medium&utm_medium=referral] on Unsplash [https://unsplash.com?utm_source=medium&utm_medium=referral].This article is the second part of my “Deep reinforcement learning” series. The complete series shall be available both on Medium [https://medium.com/@alamba093] and in videos on my YouTube channel [https://www.youtube.com/channel/UCRkxhh51YKqpn2gaUI3MXjg]. In thehttps://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/
A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)_peghoty-CSDN博客本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译，共分两部分，第一部分为中文翻译，第二部分为英文原文。翻译时为方便读者理解，有些地方采用了意译的方式，此外，原文中有几处笔误，在翻译时已进行了更正。这篇教程通俗易懂，是学习理解 Q-learning 算法工作原理的绝佳入门材料。https://blog.csdn.net/itplus/article/details/9361915
【强化学习】Q-Learning算法详解_shura的技术空间-CSDN博客_q-learningQLearning是强化学习算法中值迭代的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取 a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取动作获得较大的收益。https://blog.csdn.net/qq_30615903/article/details/80739243?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-2.pc_relevant_paycolumn_v3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~CTRLIST~Rate-2.pc_relevant_paycolumn_v3&utm_relevant_index=5
强化学习（Q-Learning，Sarsa）_nakaizura-CSDN博客_强化学习Reinforcement Learning监督学习–>非监督学习–>强化学习。监督学习：拥有“标签”可监督算法不断调整模型，得到输入与输出的映射函数。非监督学习：无“标签”，通过分析数据本身进行建模，发掘底层信息和隐藏结构。但是1.标签需要花大量的代价进行收集，在有些情况如子任务的组合数特别巨大寻找监督项是不切实际的。2.如何更好的理解数据，学习到具体的映射而不仅仅是数据的底...https://blog.csdn.net/qq_39388410/article/details/88795124

3.2、Sarsa

Sarsa的思想和Q-Learning类似。如上图从上到下，先基于当前状态S，使用ϵ−贪婪法按一定概率选择动作A，然后得到奖励R，并更新进入新状态S′，基于状态S′，使用ϵ−贪婪法选择A′（即在线选择，仍然使用同样的ϵ−贪婪）。

价值函数的更新公式如下（是衰减因子，是迭代步长一般随着迭代逐渐变小）：

算法流程：

同样建立一个Q Table来保存状态s和将会采取的所有动作a，Q(s,a)。在每个回合中，先随机初始化第一个状态，再对回合中的每一步都先从Q Table中使用ϵ−贪婪基于当前状态 s （如果Q表没有该状态就创建s-a的行，且初始为全0）选择动作 a，执行a，然后得到新的状态s’和当前奖励r，同时再使用ϵ−贪婪得到在s’时的a’，直接利用a’更新表中Q(s,a)的值，继续循环到终点。

相比之下，Q-Learning是贪婪的，在更新Q时会先不执行动作只更新，然后再每次都会选max的动作，而sarsa选了什么动作来更新Q就一定执行相应的动作。这就使它不贪心一昧求最大，而是会稍稍专注不走坑，所以sarsa相对来说十分的胆小，掉进坑里面下次争取会避免它（而Q不管，每次都直接向着最小的反向学习。）不管因为Sarsa太害怕坑，而容易陷入一个小角落出不来。

SARSA参考文献：

强化学习（六）时序差分在线控制算法SARSA - 刘建平Pinard - 博客园在强化学习（五）用时序差分法（TD）求解中，我们讨论了用时序差分来求解强化学习预测问题的方法，但是对控制算法的求解过程没有深入，本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARSA这https://www.cnblogs.com/pinard/p/9614290.html

3.3、DQN-Deep Q Network

DQN其实就是Deep Q-Learning算法，其算法的基本思路来源于Q-Learning（Q-Learning+神经网络）。但是和Q-Learning不同的地方在于，它的Q值的计算不是直接通过状态值s和动作来计算，而是通过一个Q网络来计算的，这个Q网络是一个神经网络。即，DQN使用神经网络来代替Q表。

DQN的输入是我们的状态s对应的状态向量()，输出是所有动作在该状态下的动作价值函数Q。Q网络可以是DNN，CNN或者RNN，没有具体的网络结构要求。

DQN参考文献：

强化学习（八）价值函数的近似表示与Deep Q-Learning - 刘建平Pinard - 博客园在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Qhttps://www.cnblogs.com/pinard/p/9714655.html

3.4、Double DQN

在DDQN之前，基本上所有的目标Q值都是通过贪婪法直接得到的，无论是Q-Learning， DQN还是Nature DQN。DDQN有一样的两个Q网络结构。

3.5、Dueling DQN

在Dueling DQN中，我们尝试通过优化神经网络的结构来优化算法。Dueling DQN考虑将Q网络分成两部分，第一部分是仅仅与状态S有关，与具体要采用的动作A无关，这部分我们叫做价值函数部分，记做(,,)，第二部分同时与状态状态S和动作A有关，这部分叫做优势函数(Advantage Function)部分，记为(,,,)，那么最终我们的价值函数可以重新表示为：

Dueling DQN参考文献：

https://arxiv.org/pdf/1511.06581.pdfhttps://arxiv.org/pdf/1511.06581.pdf

4、参考博客

强化学习 (Reinforcement Learning) | 莫烦Python

一文看懂什么是强化学习？（基本概念+应用场景+主流算法）

强化学习（一）模型基础 - 刘建平Pinard - 博客园

【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
【Python】simulink与python联合仿真
1.1Simulink的边界：事件驱动、算法复杂性与AI集成瓶颈Simulink的核心优势在于其强大的微分方程求解器和对连续时间系统、离散时间系统的精确描述能力。其基于“信号流”和“框图”的建模范式，使得工程师可以直观地构建与物理现实高度对应的数学模型。然而，这种优势也带来了其天然的局限性：基于时间的驱动核心(Time-BasedCoreEngine):Simulink的“心脏”是一个时间驱动的仿
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
【PyTorch】教程：torch.nn.GELU 老周有AI~算法定制 PyTorch pytorch 深度学习 python
torch.nn.GELU原型CLASStorch.nn.GELU(approximate='none')参数approximate(str,optional)–gelu近似算法用none或者tanh，默认为none;定义高斯误差线性单元函数GELU(x)=x∗ϕ(x)\text{GELU}(x)=x*\phi(x)GELU(x)=x∗ϕ(x)其中ϕ(x)\phi(x)ϕ(x)为高斯分布的累积分布
数据结构之栈实验 lannnn_ 学习记录数据结构 c语言栈
栈实验实验目的实验环境实验要求实验内容源代码运行结果实验目的掌握栈这种数据结构特性及其主要存储结构，并能在现实生活中灵活运用。实验环境CodeBlocks实验要求1.熟悉c语言的语法知识；2.掌握栈的顺序存储结构—顺序栈的定义、构造、获得栈顶元素、入栈、出栈等基本操作；实验内容完成栈的定义、构造、获得栈顶元素、进栈、出栈等函数的编写。要求在主函数中实现对以上操作的调用，编写一个算法判断给定的字符向
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
新手必看：入行大模型前一定要知道的几件事！和老莫一起学AI 人工智能 java 机器学习大模型算法程序员转行
大模型怎么转？适合哪些人？哪些方向对新手友好？又有哪些坑你必须避开？文章有点长，但全是我这几年观察下来最真实的经验，如果你真的想搞懂大模型、入场不踩坑，建议认真读完，或先收藏慢慢看。一、大模型≠ChatGPT，先搞清“全景图”再出发说句真话，很多人对“大模型”的第一印象就是——ChatGPT。但这只是它的"最上层"，底下的基建、平台、算法、数据处理、推理部署……才是撑起整个技术栈的骨架。入行大模型
php字符串匹配算法,字符串查找算法及原理
面试题:判断字符串是否在另一个字符串中存在？面试时发现好多人回答不好,所以就梳理了一下已知的方法,此文较长,需要耐心的看下去。从实现和算法原理两方面解此问题，其中有用PHP原生方法实现也有一些业界大牛创造的算法。实现方法一:语言特性-内置函数/*strpos示例*///testecho'match:',strpos('xasfsdfbk','xasfsdfbk')!==false?'true':'
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
字符串的两种模式匹配算法--暴力法与KMP算法
对于字符串而言，最常见的基本操作莫过于查找某一字符串（模式串）在另一字符串（主串）中的位置，这一操作过程叫做字符串的模式匹配，常见的模式匹配算法有朴素模式匹配算法和KMP模式匹配算法，下面结合代码对这两种模式匹配算法的思想做个总结。参考博客：很详尽的KMP算法（厉害）1.朴素模式匹配算法（暴力法）朴素模式匹配算法的思想就是，把主串中的每一个字符作为子串开头，与要匹配的字符串进行逐字符匹配，直到所有
DTW 动态时间规整：时间序列的柔性桥梁
在时间的长河中，数据如浪花般不断涌现，而时间序列数据更是其中璀璨的存在。当我们试图比较两段时间序列时，常常会遇到一个棘手的问题：就像两位舞者，他们演绎着相同的舞蹈，却有着不同的节奏与速度，直接对比难以判断二者的相似度。而DTW（DynamicTimeWarping，动态时间规整）算法，就像一座神奇的柔性桥梁，能够跨越时间节奏的差异，精准度量时间序列间的相似性，在众多领域发挥着不可或缺的作用。一、D
条件概率：不确定性决策的基石大千AI助手人工智能 Python #OTHER 决策树算法机器学习人工智能条件概率概率论
条件概率是概率论中的核心概念，用于描述在已知某一事件发生的条件下，另一事件发生的概率。它量化了事件之间的关联性，是贝叶斯推理、统计建模和机器学习的基础。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、定义与公式设(A)和(B)是两个随机事件，且(P(B)>0)：条件概率(P(A\midB))表示
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
串---暴力字符串匹配算法实现 KYGALYX 数据结构算法数据结构
暴力字符串匹配算法详解暴力字符串匹配算法（BruteForceStringMatchingAlgorithm）是一种简单的字符串匹配算法，它通过逐个比较主串中的字符与模式串中的字符来进行匹配。虽然这种方法简单直观，但在最坏情况下可能需要多次比较，导致效率较低。本文档将详细介绍暴力字符串匹配算法的原理、步骤以及如何在C语言中实现。1.暴力字符串匹配算法原理1.1主串与模式串主串：待搜索的字符串。模式
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
搜索领域SEO进阶：内容优化与用户体验提升搜索引擎技术 ux ai
搜索领域SEO进阶：从关键词堆砌到用户价值——内容优化与体验升级的实战指南关键词SEO进阶、内容质量、用户体验、E-E-A-T、用户行为信号、结构化数据、页面速度优化摘要当“SEO=关键词堆砌”的时代成为历史，当搜索引擎算法从“识别文字”进化到“理解意图”，SEO从业者正面临一场从“技术投机”到“用户价值”的范式转移。本文将深度拆解搜索领域的进阶策略：从内容优化的核心逻辑（E-E-A-T框架、主题
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
LRU缓存算法在搜索引擎中的应用数据结构与算法学习缓存算法搜索引擎 ai
LRU缓存算法在搜索引擎中的应用关键词：LRU算法、缓存淘汰、搜索引擎、哈希表、双向链表、性能优化、访问频率摘要：本文深入探讨了LRU(最近最少使用)缓存算法在搜索引擎中的关键应用。我们将从基本概念出发，通过生活化的比喻解释LRU的工作原理，分析其在搜索引擎架构中的具体实现方式，并通过Python代码示例展示如何构建一个高效的LRU缓存系统。文章还将讨论LRU算法的数学建模、实际应用场景以及未来发
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
python系列之：使用md5和sha256完成签名认证，调用接口快乐骑行^_^ 前端和后端开发 python系列使用md5和sha256 完成签名认证调用接口
python系列之：使用md5和sha256完成签名认证，调用接口MD5签名和sha256签名认证md5认证代码sha256认证代码拼接签名生成签名拼接url调用接口MD5签名和sha256签名认证MD5签名认证算法特性：生成128位(16字节)的哈希值计算速度快已被证明存在碰撞漏洞(不同输入可能产生相同输出)签名认证流程：发送方对原始数据计算MD5哈希值将哈希值附加到数据中发送接收方重新计算接收
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
零基础数据结构与算法—— 第三章：高级数据结构-总结 qqxhb 零基础数据结构与算法小学生编程算法数据结构算法树堆哈希表图
3.1树（上）3.1树（下）3.2堆（Heap）3.3哈希表（HashTable）3.4图（Graph）3.5高级树结构3.6本章小结在本章中，我们深入学习了几种重要的高级数据结构，这些数据结构在解决复杂问题时具有强大的能力。让我们回顾一下本章的主要内容：1.堆（Heap）堆是一种特殊的完全二叉树，具有堆序性质。我们学习了：最大堆和最小堆的概念和性质堆的基本操作（插入、删除堆顶、获取堆顶、构建堆）
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
推客系统开发：从0到1构建高效社交化推荐引擎 wx_ywyy6798 推客系统分销系统海外短剧系统推客小程序推客系统开发推客小程序开发推客分销系统
在信息爆炸的时代，如何让用户快速获取感兴趣的内容？推客系统（推荐引擎）成为解决这一问题的核心方案。无论是电商、内容平台还是社交应用，精准的推荐算法都能显著提升用户粘性和转化率。本文将带您了解推客系统的核心模块与开发要点，助您快速构建高效的推荐体系。一、推客系统的核心价值个性化体验：基于用户行为数据（浏览、点赞、收藏等）生成定制化推荐。流量高效分发：解决“信息过载”问题，提升内容/商品的曝光率。商业
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj