Cui_Hongwei

《强化学习》第二版阅读随笔3

第三章有限马尔可夫决策过程（finite Markov decision processes）

MDPs involve delayed reward and the need to tradeoff immediate and delayed reward. 马尔可夫决策与多臂老虎机问题相比，两者都需要在不同情况下选择不同的行为模式（action），但马尔可夫决策过程需要在既得利益和长远利益之间进行权衡。也就是决策之间不再是状态独立的，而是相互关联的（state-dependent）。

3.1 强化学习模型（agent）与环境之间的接口

强化学习模型（agent）进行决策，以行为（action）作用于环境（environment），环境做出反馈，以奖励（reward）的形式反作用于模型。于此同时在客观上，模型所面临的环境已经被自己所改变，来到了一个新的状态（state）。模型始终以最大化价值（value）为目标，而价值就是奖励值的期望。
强化学习过程可以用以下序列来描述

在有限马尔可夫决策过程中，模型的行为模式（action），环境所做出的反馈（reward）以及整个系统所处的状态（state）都是有限的。模型所处的状态 $S_t$ 以及获得的奖励值 $R_t$ 都可以用离散的概率值来表示。
如下条件概率可以用来表示单步的状态更新和奖励反馈情况。
$p(s',r|s,a)=Pr(S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a)$
即，下一状态 $s^{'}$ 和agent取得的奖励 $r$ ，取决于当前状态 $s$ 和agent采取的行动 $a$ 。进一步来说当前 $S_t,R_t$ 仅取决于上一步 $S_{t-1},A_{t-1}$ ，而不直接取决于之前经历的所有强化学习模型（agent）与环境的交互情况。这就是俗话说“好了伤疤忘了疼”？但其实并不是这样，状态（state）本身必须要包含之前模型与环境交互的所有信息，这样的状态（state）我们称之为具有马尔可夫性质（Markov property）。
正如上文所述， $s',s\in{S},r\in{R,a\in{A(s)}}$ 。
根据对上文的理解，我们也可以得到如下结论：

$p(s',r|s,a)=Pr(S_t=s',R_t=r|S_{t-1}=s,A_{t-1}=a)$ ，使用这个4变量的动态方程（dynamics function），我们可以得到环境中其他有用的信息：
对下一状态的预测
当前状态获得奖励（reward）的期望
The general rule we follow is that anything that cannot be changed arbitrarily by the agent is considered to be outside of it and thus part of its environment.The agent–environment boundary represents the limit of the agent’s absolute control, not of its knowledge. 学习主体（agent）与环境（environment）之间的关系并不是简单的物理界限，环境对于学习主体来说往往是难于改变的，并且不是绝对受控的。以人来做比，agent类似于人的灵魂和思维，而环境则是人的肢体，周围真实存在的物体以及种种其他外界因素。

3.2 目标和奖励

上文中，我们提到，强化学习是目标导向的，这个目标就是最大化奖励（reward）期望，使强化学习模型能获得最大的累积奖励，而不是简单的贪心思想，这在前面已经反复提及。奖励信号是环境给模型的反馈，是设计模型所要达到现实目的抽象，而将现实问题用奖励函数进行规范化是强化学习的一大特点。
奖励（reward）的设计需要于现实目的保持一致，最大化奖励期望的过程就是模型学习如何更好地完成既定现实任务的过程。
奖励函数对于模型而言是一个“只看重结果，不关心过程”的评判，奖励函数的设计不应该试图加入有助于完成任务的先验知识。以下棋为例，不应为“吃子”或“占据主动优势”而给予模型奖励（尽管先验知识告诉我们这些都是有助于最终获胜的中间过程）。因为这样的奖励函数可能会误导模型本末倒置，“想尽办法”去“吃子”而不以最终的获胜为目标，因为这时候模型认为“吃子”比遥遥无期的所谓获胜更“划算”。这些先验知识应该由模型自己去摸索，你需要做的就是通过奖励函数告诉模型你想要让它做什么。

3.3 问题本身的周期性（Returns and Episodes）

上文我们反复提到，强化学习的最终目的是最大化奖励（reward）的累加值，也就是我们下文所提到的期望回报（expected return），用符号 $G_t$ 表示。

周期性任务（episodic task，或者叫章节性任务），是指能够在有限的步骤内自行终止的任务，例如迷宫、下棋等。这些任务每一轮的结果都是相互独立的，任务结束后可以回到原点重新开始。那么这种任务中强化学习模型所获取的奖励为：其中 $T$ 是指有限的步数， $T$ 的大小可以是不确定的变量； $R_T$ 则被称为终止状态（terminal state）。
连续性任务（continuing task），是指那些正常情况不会自动终止的任务，例如长生命周期的机器人。此时如果再按照之前的思路对奖励值进行累加，那么期望回报 $G_t$ 最终都会变为无穷大而无法处理，换句话说，我们无法处理无限的数据。我们只能摒弃之前"先知"式的假设，去预判有限的未来，引入折扣系数（discount rate） $\gamma$ ，奖励的期望可以表示为：式中 $\gamma\in[0,1]$ ，距离当前状态 $S_t$ 越远的未来，强化学习模型所预判的奖励 $R$ 在期望回报 $G$ 中的比重会成指数衰减。这样的计算方式符合我们的生活经验同时也可以保证在 $\gamma<1$ 时，权重总会衰减到0，从而获得有限的期望回报。当 $\gamma=0$ 时，模型将表现为贪心思想，仅考虑最大化下一步的奖励值，随着 $\gamma$ 趋近于1，模型的眼光也会逐渐放长远。
问题的周期性（episodic）和连续性（continuing）需要具体问题具体分析。如果假定一款游戏判定玩家操作失误后重新开始，通常来说，这是一个周期性问题，对于一般玩家而言，失误是难以避免的。但是如果让机器人去玩同一款游戏，可能永远都不会失误，这样就就变成了连续性问题。

3.4 章节性任务与连续性任务的统一表示方式（Unified Notation for Episodic and Continuing Tasks）

我们希望能够统一章节性任务（episodic task）与连续性任务（continuing task）的数学表示方式。
对于章节性任务而言，任务总会在有限的步骤内结束，任务结束后，奖励信号（reward）自然也会归0，不会对回报（return）的累加值构成任何影响。所以我们可以统一用上面的公式表示两种类型的任务。其中折扣系数（discount rate） $\gamma$ 在表示章节任务时可以为1，具体原因在之前已经提及。
上面这个式子我们可以用递归的思路来描述：
下面再仔细体会这样一个递归表示形式，首先 $G_t$ 表示的是对未来回报值的期望值，我们（或者说强化学习模型）总希望能在未来获得高收益，当 $\gamma=0$ ，模型将遵从贪心算法的思想，变得十分短视，反之，模型会将会把下一步 $s_{t+1}$ 的收益期望 $G_{t+1}$ 也考虑在内。

3.5 策略和价值函数（Policies and Value Functions）

价值函数（value functions）用于模型对特定状态（state）下行为模式（action）的评估。价值函数是模型未来获取奖励（reward）的期望值。
策略（policy）是指强化学习模型对某种行为（action）的偏好，是从状态（state）到具体行动（action）的映射，数学表示为： $\pi(a|s)$ 。

价值函数使用符号 $v_{\pi}(s)$ 与当前状态 $s$ （state）有关，与模型的行为策略 $\pi$ （policy）有关。价值函数的值是模型未来回报（奖励的累加）的期望，数学语言表达如下：

上式被称为状态-价值函数（state-value function），即代表从状态 $s$ 到价值期望的映射关系。式中 $t$ 是学习经历的步数， $v_{\pi}$ 是策略 $\pi$ 的价值函数。
进一步，如果我们采取行动 $a$ ，那么行动-价值函数（action-value function）可以表示成：

行动-价值函数在状态-价值函数的基础上增加了行为方式（action） $A_t=a$ 的前提条件。

蒙特卡罗方法

试想，无论是 $v_\pi(s)$ 还是 $q_\pi(s,a)$ ，只要模型试错的次数足够多，我们为任意状态（state）或行为（action）的回报值（reward）做平均，最后一定会收敛到其真实值，这个过程类似于人类“实践经验”积累的过程。
当然，对于一些应用场景中我们无法穷举所有的状态（例如围棋），但是我们可以使用参数方程（parameterized function）来对 $q_\pi(s,a)$ 和 $v_\pi(s)$ 进行估计，根据模型获得的”经验“（历史样本）调整参数方程中的参数（参数的数量小于实际状态数）来拟合回报值。

递归

在3.4节中曾经提到，无论是章节性任务还是连续性任务，其回报值的期望都可以被公式统一表达，并且还有一个递归形式的表示： $G_t=R_{t+1}+{\gamma}G_{t+1}$
那么对于状态-价值函数（state-value function）也可以找到递归的表示。我们首先要明确，状态-价值函数是回报 $G_t$ 在该状态（s）下采取所有可能行为模式（a）所获取回报的期望值，即 $v_\pi(s)=E_\pi(G_t|S_t=s)$

式中 $\sum_{a}\pi(a|s)$ 表达的就是对状态 $s$ 下所有可能行为模式 $a$ 的遍历。 $\sum_{s'}\sum_{r}p(s', r| s, a)$ 显然遍历了在当前状态 $s$ 下采取行为 $a$ 将可能来到的下一状态 $s^{'}$ 和对应的回报 $r$ 。综上，我们不难发现，状态-价值函数中三个重要的自变量 $a, s^{'}, r$ ，我们遍历了这三个变量的所有取值。三个变量取值产生的组合，每种可能的概率可以表示为 $\pi(a|s)p(s', r|s, a)$ ，所以任意状态下的状态-价值函数可以理解为中括号中内容 $[r+\gamma{v_\pi(s')}]$ 的加权和。

贝尔曼方程

上面推导的关于状态价值函数 $v_\pi$ 的递归表达式就是 $v_\pi$ 的贝尔曼恒等式（Bellman equation） $v_\pi(s)=\sum_a\pi(a|s)\sum_{s', r}p(s',r|s,a)[r+\gamma{v_\pi(s')}]$
贝尔曼恒等式表达了当前状态(state)的价值(value，即奖励值的期望)与下一状态价值之间的关系

备份图

图中空心圆环表示状态，实心圆点表示一对状态和行为（state-action pair）。与卷积神经网络反向传播相类似，强化学习中也需要将价值（value）信息从下一状态 $s^{'}$ 反向更新到前一状态 $s$ 对应的状态-行为节点（state-action pair）上。值得注意的是，与转换图（transition graphs）不同的是，备份图中的节点可以表示相同的状态（有环？）。

最优策略和最优价值函数（Optimal Policies and Optimal Value Functions）

所谓最优策略就是能让模型获取最大的收益，当策略 $\pi$ 的回报期望在所有状态（state）下都等于或优于 $\pi'$ 我们认为 $\pi$ 更优。从状态-价值函数的角度来说有： $v_\pi(s)\geq{v_{\pi'}(s)};s\in{S}$ 进一步，最优的策略 $\pi$ 总能使状态价值函数的值最大化： $v_{*}(s)=\max_{\pi}v_\pi(s)$
对于行动价值函数 $q (a, s)$ ，上文提到，行动-价值函数基于状态-价值函数

上式可以进一步化成如下形式：
可见，如果状态-价值函数通过策略 $\pi$ 取最优，那么对应的行为-价值函数同样是最优的。

贝尔曼优化方程

最优化状态-价值函数

最优化状态-价值函数就是要选取令当前状态的行为-价值函数最大化的行为 $a$ 。

最优化行为-价值函数

原式：

与原式做对比可以发现，这里用最大化的下一状态 $s^{'}$ 的行为-价值函数替代了原有的回报值 $R_t$ 的衰减累加，最优化行为-价值函数就是要找到使下一状态 $s^{'}$ 最大化 $q_*(s',a')$ 的 $a^{'}$ 。
通过观察最优化方程的备份图可以看出，对于状态-价值函数，优化方向为最大化 $q (s, a)$ ；对于行为-价值函数，优化方向为最大化 $q (s^{'}, a^{'})$ 。
贝尔曼优化方程都聚焦于寻找在下一阶段最大化回报的行为 $a 或 a^{'}$ ，这是一种贪心的思想，但优化方程的美妙之处在于在最优化下一状态的同时兼顾了未来总体回报的最大化。再次回顾行为价值-函数 $q (a, s)$ 和状态-价值函数 $v (s)$ 可以发现，两者本身都兼顾了未来总体收益（reward）的最大化，而贝尔曼优化方程所表达的是两个价值方程在状态之间的递归关系。

3.7 最优和近似（Optimality and Approximation）

通过上面的最优化方程来选取各个状态下的行为模式 $a$ 需要对所有情况进行穷举，从而选出其中的最大值。对于一些稍微复杂的问题，每一次状态（state）变化所产生的计算量都是不可接受的。穷举所有可能的情况也将需要巨大的内存空间。我们所使用的强化学习方法迫使我们不得不近似，去忽略出现概率低的情况。因为强化学习是一个实时的过程，我们可以让模型投入更多的经历在出现概率高的情况。这是强化学习与其他马尔可夫决策过程的解决方案有所不同的地方。

3.8 总结

Reinforcement learning is about learning from interaction how to behave in order to achieve a goal.
Everything inside the agent is completely known and controllable by the agent; everything outside is incompletely controllable but may or may not be completely known（环境）.
A policy is a stochastic rule by which the agent selects actions as a function of states. The agent’s objective is to maximize the amount of reward it receives over time.
The return is the function of future rewards that the agent seeks to maximize (in expected value).
A policy’s value functions assign to each state（状态-价值函数）, or state–action pair（行为-价值函数）, the expected return from that state, or state–action pair, given that the agent uses the policy.
A policy’s value functions assign to each state, or state–action pair, the expected return from that state, or state–action pair, given that the agent uses the policy. The optimal value functions assign to each state, or state–action pair, the largest expected return achievable by any policy. A policy whose value functions are optimal is an optimal policy. Whereas the optimal value functions for states and state–action pairs are unique for a given MDP, there can be many optimal policies. Any policy that is greedy with respect to the optimal value functions must be an optimal policy. The Bellman optimality equations are special consistency conditions that the optimal value functions must satisfy and that can, in principle, be solved for the optimal value functions, from which an optimal policy can be determined with relative ease.
如果agent使用策略，则策略的价值函数将从该状态或状态操作对（state-action pair）获得的期望返回值分配给每个状态或状态操作对。将最优值函数分配给每个状态或状态操作对，这是任何策略可以获得的最大预期收益。价值函数最优的策略就是最优策略。虽然对于给定的MDP，状态和状态操作对的最优值函数是惟一的，但是可以有许多最优策略。任何对最优价值函数贪婪的策略必须是最优策略。Bellman最优性方程是最优值函数必须满足的特殊一致性条件，原则上可以求解最优值函数，从而相对容易地确定最优策略。
In reinforcement learning we are very much concerned with cases in which optimal solutions cannot be found but must be approximated in some way.

【AI论文】迈向大型推理模型：大型语言模型增强推理综述东临碣石82 人工智能语言模型自然语言处理
摘要：语言长久以来被视为人类推理不可或缺的工具。大型语言模型（LLM）的突破激发了利用这些模型解决复杂推理任务的浓厚研究兴趣。研究人员已经超越了简单的自回归词元生成，引入了“思维”的概念——即代表推理过程中间步骤的词元序列。这一创新范式使LLM能够模仿复杂的人类推理过程，如树搜索和反思性思维。近期，一种新兴的学习推理趋势采用强化学习（RL）来训练LLM掌握推理过程。这种方法通过试错搜索算法自动生成
【强化学习】Mava框架大雨淅淅人工智能机器学习算法人工智能学习深度学习
目录一、选择框架二、学习框架基础三、深入框架高级特性四、实践项目五、参考文档和社区资源六、编写测试用例七、学习框架的生态系统八、持续学习和适应九、建立个人项目或工作项目十、反思和总结关于Mava框架的学习，首先需要明确的是，您可能是指Java框架的学习，因为“Mava”并非一个广为人知的特定Java框架名称。在Java开发领域，有多个知名的框架，如Spring、SpringBoot、Hiberna
【强化学习】PyTorch-RL框架大雨淅淅人工智能 pytorch 人工智能 python 深度学习机器学习
目录一、框架简介二、核心功能三、学习环境配置四、学习资源五、实践与应用六、常见问题与解决方案七、深入理解强化学习概念八、构建自己的强化学习环境九、调试与优化十、参与社区与持续学习一、框架简介PyTorch-RL是一个基于PyTorch框架的深度强化学习项目。它充分利用了PyTorch的强大功能，提供了易于使用且高效的深度强化学习算法实现。该项目的主要编程语言是Python，旨在帮助开发者快速实现和
2024年软考信息安全工程师备考学习笔记汇总月梦工作室信息安全工程师
信息安全工程师分属“信息系统”专业，位处中级资格，2016年下半年，第一次开考信息安全工程师（中级）考试。目前每年考试一次。已开考六次，2016年11月12日，2017年5月20日，2018年5月26日，2019年5月25日，2020年11月7日，2021年11月6日，2022年11月5日，2023年11月4日为第八次考试。第五次至第八次考试，采用第二版教材。信安精品课|月梦工作室(moondre
深度强化学习(DRL)原理与代码实战案例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1人工智能的演进：从符号主义到连接主义人工智能(AI)的发展经历了漫长的历程，从早期的符号主义到如今的连接主义，标志着人工智能从基于规则的推理演变到基于数据的学习。符号主义AI试图通过逻辑和符号系统来模拟人类的思维过程，而连接主义AI则侧重于构建类似于人脑神经网络的结构，通过大量数据进行训练，从而实现智能。1.2强化学习：智能体与环境的互动强化学习(ReinforcementLea
【机器学习：三十二、强化学习：理论与应用】 KeyPan 机器学习机器学习机器人人工智能深度学习数据挖掘
1.强化学习概述**强化学习（ReinforcementLearning,RL）**是一种机器学习方法，旨在通过试验与反馈的交互，使智能体（Agent）在动态环境中学习决策策略，以最大化累积奖励（CumulativeReward）。相比监督学习和无监督学习，强化学习更关注长期目标，而非简单地从标签中学习。核心概念智能体（Agent）：进行学习和决策的主体。环境（Environment）：智能体所在
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
C语言为何不会过时？你需要掌握多少种语言？明天会比今天更好 C语言 C/C++编程语言 IT行业
01为什么C语言不会过时评价任何一门编程语言，都是招人骂的。永远是这样。就像是春寒料峭的季节，街上穿棉袄和穿单衣的擦肩而过，双方一定是同时在心里出现了两个字：“傻逼!”这个在心理学上有个专业的名字：叫做“二逼”现象!那我为啥还要做这个挨骂的事呢?作为《C语言点滴》《dropofknowledgeofC++》书籍的作者，《C语言新思维，第二版》的译者。我觉得我有责任系统的介绍一下这本语言，他的特点，
NLP-语义解析(Text2SQL)：技术路线【Seq2Seq、模板槽位填充、中间表达、强化学习、图网络】 u013250861 #自然语言处理人工智能
目前关于NL2SQL技术路线的发展主要包含以下几种:Seq2Seq方法：在深度学习的研究背景下,很多研究人员将Text-to-SQL看作一个类似神经机器翻译的任务,主要采取Seq2Seq的模型框架。基线模型Seq2Seq在加入Attention、Copying等机制后,能够在ATIS、GeoQuery数据集上达到84%的精确匹配,但是在WikiSQL数据集上只能达到23.3%的精确匹配,37.0%
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析视觉萌新、深度强化学习深度Q网络 DQN
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放（PER）噪声网络（noisy）本文图片与源码均来自《EasyRL》：https://github.com/datawhalechina/easy-rl介绍核心思想：训练动作价值函数Q
【机器学习】—时序数据分析：机器学习与深度学习在预测、金融、气象等领域的应用云边有个稻草人热门文章机器学习数据分析深度学习笔记
云边有个稻草人-CSDN博客目录引言1.时序数据分析基础1.1时序数据的特点1.2时序数据分析的常见方法2.深度学习与时序数据分析2.1深度学习在时序数据分析中的应用2.1.1LSTM（长短期记忆网络）2.2深度学习在金融市场预测中的应用2.2.1股票市场预测2.3深度学习在设备故障检测中的应用3.强化学习与时序数据分析3.1强化学习的基本概念3.2强化学习在金融市场中的应用3.3强化学习在设备故
【机器学习】---神经架构搜索（NAS） Undoom 机器学习 Python 机器学习架构人工智能 python
这里写目录标题引言1.什么是神经架构搜索（NAS）1.1为什么需要NAS？2.NAS的三大组件2.1搜索空间搜索空间设计的考虑因素：2.2搜索策略2.3性能估计3.NAS的主要方法3.1基于强化学习的NAS3.2基于进化算法的NAS3.3基于梯度的NAS4.NAS的应用5.实现一个简单的NAS框架6.总结引言随着深度学习的成功应用，神经网络架构的设计变得越来越复杂。模型的性能不仅依赖于数据和训练方
软考-系统集成项目管理工程师考试用书目录 kong7906928 项目功能软考软考系统集成项目管理工程师
系统集成项目管理工程师考试教材自2024年11月起使用第三版，与第二版差异大。备考时需做第三版题，案例分析计算题不受影响。教材与高项第四版章节归类相似，建议先学高项再学中级。注意细节：1、因刚换第三版教材，和第二版变化相对较大，如下图，第二版信息化内容为1–3章，第三版调整为1~8章内容。后面章节按五大过程组进行章节归类，分别为启动过程组、规划过程组、执行过程组、监控过程组和收尾过程组。因变化较大
《C++ 赋能强化学习：Q - learning 算法的实现之路》 c++人工智能深度学习
在当今科技飞速发展的时代，人工智能无疑是最热门的领域之一，而强化学习作为其中的重要分支，正逐渐改变着我们解决复杂问题的方式。Q-learning算法作为强化学习中的经典算法，在众多领域如游戏、机器人控制、资源管理等有着广泛的应用前景。本文将深入探讨如何用C++实现强化学习中的Q-learning算法，带您领略C++在人工智能领域的强大魅力。一、强化学习与Q-learning算法概述强化学习是一种通
NAS(Neural Architecture Search) 神经结构搜索 hxxjxw
Neuralarchitecturesearch(NAS)，神经结构搜索，是强化学习的一个重要应用方向，也是AutoML的一个非常火的研究方向.NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
法治的细节——对话（六）玄灵
六、对话阅读随笔：我虽然不是法盲，但对法律的认知却是留在很浅显的层次。青铜时代，亦如最初的梦想。不是每个人都能有自己的青铜时代或把握住自己的青铜时代，亦如不是我们每个人都能去追寻我们最初的梦想和去实现她。当然梦想是会变得，我们对最初的梦想也会有自己的修正。我不想对自己最初的梦想去定义什么，亦如我认为的完美。最终无论她能否实现，我都愿与她同行，去求索最初的人生梦想，无论是喜悦还是困苦，无论是兴趣使然
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
《剑指offer第二版》面试题7：重建二叉树（java） castlet
题目描述输入某二叉树的前序遍历和中序遍历的结果，请重建该二叉树。假设输入的前序遍历和中序遍历的结果都不包含重复数字。例如，输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6}，则重建的二叉树为：1/\23//\456\/78解题思路:以前序遍历序列A:{1,2,4,7,3,5,6,8}和中序遍历序列B:{4,7,2,1,5,3,8,6}为例。前序遍历的
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍微学AI 大模型的实践应用语言模型人工智能自然语言处理 RLHF
大家好，我是微学AI，今天给大家介绍一下大模型的实践应用29-大语言模型的RLHF(人类反馈强化学习)的具体应用与原理介绍。在当今人工智能发展的浪潮中，大语言模型（LargeLanguageModels,LLMs）凭借其强大的语言理解和生成能力，成为了研究与应用的热点。而在这股浪潮中，一种名为“基于人类反馈的强化学习”的方法脱颖而出，为大语言模型的优化和应用开辟了新的路径。本文首部分将深入浅出地介
力扣刷题记录（一）剑指Offer（第二版）乘凉~ 求职过程记录 leetcode 链表算法
1、本栏用来记录社招找工作过程中的内容，包括基础知识学习以及面试问题的记录等，以便于后续个人回顾学习；暂时只有2023年3月份，第一次社招找工作的过程；2、个人经历：研究生期间课题是SLAM在无人机上的应用，有接触SLAM、Linux、ROS、C/C++、DJIOSDK等；3、参加工作后（2021-2023年）岗位是嵌入式软件开发，主要是服务器开发，Linux、C/C++、网络编程、docker容
坚定理想信念，锤炼党性修养知涵知
理想信念是中国共产党人的政治灵魂，是共产党人精神上的“钙”，没有理想信念，理想信念不坚定，精神上就会“缺钙”，就会得“软骨病”。党员干部只有坚定理想信念，强化责任担当，锤炼道德操守，提升党性修养，才能切实做到为党分忧、为国尽责、为民奉献。坚定理想信念，就要强化学习精神、自律精神、担当精神。思想理论上的坚定清醒是政治上坚定的前提，党员干部要始终把理论学习作为政治责任、事业需要和精神追求，积极参加组织
python 物理引擎_在 Gym 上构建会动的人工智障1（python） weixin_39542608 python 物理引擎
背景说明作者最近使用processing的一个重要目标就是为学生的编程学习设计具体的应用场景，最近突然发现有一个包已经提供了部分功能，所以探索一下。这个包就是我们今天的主人公：Gym。Gym是用于开发和比较强化学习算法的python包，但是我们也完全可以使用它来作为我们自己程序的应用背景，并提供可视化。简单的说，就是我们使用自己写的小程序，而不是强化学习算法，来尝试完成其中的任务，并把完成任务的过
强化学习（二）----- 马尔可夫决策过程MDP Duckie-duckie 机器学习数据数据分析数据挖掘机器学习算法
1.马尔可夫模型的几类子模型大家应该还记得马尔科夫链(MarkovChain)，了解机器学习的也都知道隐马尔可夫模型(HiddenMarkovModel，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MarkovDecisionProcess,MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作
Python强化学习，基于gym的马尔可夫决策过程MDP，动态规划求解，体现序贯决策 baozouxiaoxian python gym qlearning python 强化学习 mdp 动态规划求解马尔科夫决策过程
决策的过程分为单阶段和多阶段的。单阶段决策也就是单次决策，这个很简单。而序贯决策指按时间序列的发生，按顺序连续不断地作出决策，即多阶段决策，决策是分前后顺序的。序贯决策是前一阶段决策方案的选择，会影响到后一阶段决策方案的选择，后一阶段决策方案的选择是取决于前一阶段决策方案的结果。强化学习过程中最典型的例子就是非线性二级摆系统，有4个关键值，小车受力，受力方向，摆速度，摆角，每个状态下都需要决策车的
强化学习分类 0penuel0
Model-free:Qlearning,Sarsa,PolicyGradientsModel-based:能通过想象来预判断接下来将要发生的所有情况.然后选择这些想象情况中最好的那种基于概率：PolicyGradients基于价值：Qlearning,Sarsa两者融合：Actor-Critic回合更新：Monte-carlolearning，基础版的policygradients单步更新：Ql
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

《强化学习》第二版 阅读随笔3

第三章 有限马尔可夫决策过程（finite Markov decision processes）