u013250861

强化学习-赵世钰（三）：贝尔曼最优方程【Bellman Optimal Equation】【贝尔曼最优方程符合收缩映射理论--＞可通过迭代法求解最优State Values--＞得到最优策略】

强化学习的目的是寻找最优策略。这里学习贝尔曼最优公式需要重点关注两个概念和一个工具：

两个概念：optimal state value和optimal policy
一个基本工具：the Bellman optimality equation (BOE)

一、Motivating examples

First, we calculate the state values of the given policy. In particular, the Bellman equation of this policy is

$\begin{gathered} \upsilon_{\pi}(s_1) =-1+\gamma\upsilon_\pi(s_2), \\ \upsilon_{\pi}(s_{2}) =+1+\gamma\upsilon_\pi(s_4), \\ \upsilon_{\pi}(s_{3}) =+1+\gamma\upsilon_\pi(s_4), \\ \begin{aligned}\upsilon_{\pi}(s_{4})\end{aligned} =+1+\gamma v_\pi(s_4). \end{gathered}$

Let γ = 0.9. It can be easily solved that

$\begin{aligned}&v_\pi(s_4)=v_\pi(s_3)=v_\pi(s_2)=10,\\&v_\pi(s_1)=8.\end{aligned}$

Second, we calculate the action values for state $s_1$ :

$\begin{gathered} q_\pi(s_1,a_1) =-1+\gamma v_\pi(s_1)=6.2, \\ q_\pi(s_1,a_2) =-1+\gamma v_\pi(s_2)=8, \\ q_\pi(s_1,a_3) =0+\gamma v_\pi(s_3)=9, \\ q_\pi(s_1,a_4) =-1+\gamma v_\pi(s_1)=6.2, \\ q_\pi(s_1,a_5) =0+\gamma v_\pi(s_1)=7.2. \end{gathered}$

It is notable that action $a_3$ has the greatest action value:

$q_\pi(s_1,a_3)\geq q_\pi(s_1,a_i),\quad\text{ for all }i\neq3.$

Therefore, we can update the policy to select $a_3$ at $s_1$ .

每一次迭代的过程中，每一个state都选择action value最大的action，最终就会得到最优的Policy。

二、最优策略/optimal policy

state value可以用来衡量一个policy的好坏，对于策略 $\pi_1$ 和策略 $\pi_2$ 来说，倘若在所有的状态 $s$ 下，都存在 $v_{\pi_1}(s)\geq v_{\pi_2}(s)$ 那么可得策略 $\pi_1$ 优于策略 $\pi_2$ 。因此最优策略 $\pi^*$ 就是，在所有的状态 $s$ 下，均优于其他所有的策略 $\pi$ 。

上述定义表明，相对于所有其他策略，最优策略对于每个状态都具有最大的状态值。这个定义也引发了许多问题：

存在性：最优策略是否存在？
唯一性：最优策略是否唯一？
随机性：最优策略是随机的还是确定性的？
算法：如何获得最优策略和最优状态值？

三、贝尔曼最优公式【Bellman Optimality Equation】

1、贝尔曼公式/Bellman Equation

对于贝尔曼公式来说，求解state value时是依赖于一个给定的π；

2、贝尔曼最优公式/Bellman Optimality Equation

对于贝尔曼最优公式来说，π是不定的，是需要求解的参数；

$\begin{aligned}v(s)&=\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)\left(\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v(s')\right)\end{aligned}$ 公式的含义是：当Policy $π$ 取某一个最优化值时，State Value $v (s)$ 可以取到最大值。

BOE 很棘手但又优雅！

为什么优雅？它以一种优雅的方式描述了最优策略和最优状态值。
为什么棘手？右侧有一个最大化，可能不容易看出如何计算。
有许多问题需要回答：
- 算法：如何解决这个方程？
- 存在性：这个方程是否有解？
- 唯一性：这个方程的解是否唯一？
- 最优性：它与最优策略有什么关系？

3、压缩/收缩映射定理【Contraction mapping theorem】

不动点

压缩/收缩映射

$||f(x_1)-f(x_2)||\leq\gamma||x_1-x_2||$

其中 $\gamma\in(0,1)$ ；
$\gamma$ 必须是严格小于1，这样许多极限 $\gamma^k\to0$ 当 $k\to0$ 成立；
这里 $||\cdot||$ 可以是任意vector norm；

示例：首先，对于标量来说

其次，对于向量来说

预备知识：Contraction mapping theorem

对于任意符合 $x = f (x)$ 格式的方程，如果 $f$ 是收缩映射，那么：

存在性：存在一个不动点 $x^*$ 满足 $f(x^*)=x^*$ ；
唯一性：这个不动点 $x^*$ 是唯一的；
算法：迭代式算法 $x_{k+1}=f(x_k)$ ，最终可以收敛到不动点处；

两个例子

对于标量来说： $x = 0.5 x$ , 其中 $f (x) = 0.5 x$ 并且 $x\in R$ , $x^*=0$ 是一个唯一 (unique) 的fixed point, 它可以通过迭代式的方式求解

$x_{k+1}=0.5x_k$

对于向量来说， $x = A x$ ,其中 $f (x) = A x$ ,且 $x\in R^n$ , $A\in R^{n\times n}$ ,并且 $∣∣ A ∣∣ < 1$ , $x^*=0$ 是唯一的不动点，它可以通过迭代式求解

$x_{k+1}=Ax_k$

4、求解贝尔曼最优公式

4.1 最大化贝尔曼最优公式右侧

首先固定 $\upsilon(s')$ ，因为系统模型参数 $p (r ∣ s, a)$ 、 $p (s^{'} ∣ s, a)$ 都是已知的， $r$ (reward)、 $\gamma$ (discount rate)都是给定的，所以 $q (s, a)$ 是常数，为了使得右侧取到最大，则使得右项最大时的 $π$ 策略也可以确定下来了。

4.2 解贝尔曼最优公式

从4.1的分析中可知，如果固定 $\upsilon(s')$ ，那么贝尔曼最优公式的右侧的最大值就可以确定了。

可见右侧的最大值时取决于 $\upsilon(s')$ ，也就是说右侧项是 $\upsilon(s')$ 的函数。

上式中 $f (v)$ 是一个向量， $f(v)]_s$ 表示向量中对应的元素state $s$ 的值是 $\begin{aligned}\max_\pi\sum_a\pi(a|s)q(s,a)\end{aligned}$ 。

4.3 应用“压缩映射定理”解贝尔曼最优公式

首先要证明贝尔曼最优方程中的 $v = f (v)$ 是一个 Contraction Mapping。

$∵$ 通过证明可以得到： $\|f(v_1)-f(v_2)\|\leq\color{red}{\gamma}\|v_1-v_2\|$ ，其中 $\gamma$ 是 discount rate；
$∴$ $v = f (v)$ 是Contraction Mapping。

由于贝尔曼最优方程符合Contraction mapping theorem，所以：

存在性：存在一个解 $v^*$ ；
唯一性： $v^*$ 是唯一的；
算法：State Value 可以通过迭代式算法 $\begin{aligned}v_{k+1}=f(v_k)=\max_{\pi}(r_\pi+\gamma P_\pi v_k)\end{aligned}$ 最终收敛到唯一解 $v^*$ 处；

4.4 案例：求解贝尔曼最优公式

四、最优策略/Optimal Policy

贝尔曼最优公式是一个特殊的贝尔曼公式。

贝尔曼最优公式对应的策略是最优策略。

五、最优策略的决定因素

当γ比较大时，会比较远视，得到的return中远期的reward比重会相对大一些；

当γ比较小时，会比较短视，得到的return中近期的reward权重会相对大一些；

在设计reward的时候，即使将默认r设计为0，也不会绕远路，因为除了r来约束不要绕远路，γ的存在也会限制不会绕远路，因为越绕远路，得到的reward越晚，最后计算得到的return越小。

3.1 Motivating example: How to improve policies?

Consider the policy shown in Figure 3.2. Here, the orange and blue cells represent the forbidden and target areas, respectively. The policy here is $n o t$ $g oo d$ because it selects $a_{2}$ ( rightward) at state $s_1$ . How can we improve the given policy to obtain a better policy? The answer lies in state values and action values.

$I n t u i t i o n$ ： It is intuitively clear that the policy can improve if it selects $a_3$ (downward) instead of $a_2$ (rightward) at $s_1.$ This is because moving downward enables the agent to avoid entering the forbidden area.

$M a t h e ma t i cs$ : The above intuition can be realized based on the calculation of state values and action values.

This example illustrates that we can obtain a better policy if we update the policy to select the action with the $g re a t es t$ $a c t i o n v a l u e .$ This is the basic idea of many reinforcement learning algorithms.

This example is very simple in the sense that the given policy is only not good for state $s_1.$ If the policy is also not good for the other states, will selecting the action with the greatest action value still generate a better policy? Moreover, whether there always exist optimal policies? What does an optimal policy look like? We will answer all of these questions in this chapter.

3.2 Optimal state values and optimal policies

While the ultimate goal of reinforcement learning is to obtain optimal policies, it is necessary to first define what an optimal policy is. 【强化学习的最终目标是获得最优策略，但首先需要定义什么是最优策略。】

The defnition is based on state values.

In particular, consider two given policies $\pi_{1}$ and $\pi_{2}$ . If the state value of $\pi_{1}$ is greater than or equal to that of $\pi_2$ for any state，then $\pi_{1}$ is said to be better than $\pi_{2}$ . :【考虑给定的两个策略 $\pi_{1}$ 和 $\pi_{2}$ ，如果对于任何状态在策略 $\pi_{1}$ 下的状态值都大于或等于 $\pi_{2}$ ， $\pi_{1}$ 被认为比 $\pi_{2}$ 更好。】

$\begin{aligned}v_{\pi_1}(s)\geq v_{\pi_2}(s),\quad\text{ for all }s\in\mathcal{S},\end{aligned}$

Furthermore, if a policy is better than all the other possible policies, then this policy is optimal.【如果一项政策比所有其他可能的政策都要好，那么这项政策就是最优的。】

Definition 3.1 (Optimal policy and optimal state value). $A$ $policy\:\pi^*~is~optimal~if$ $v_{\pi^*}(s)\geq v_\pi(s)\:for\:all\:s\in\mathcal{S}\:and\:for\:any\:other\:policy\:\pi.\:The\:state\:values\:of\:\pi^*\:are\:the$ $o pt ima l$ $s t a t e$ $v a l u es .$

The above deﬁnition indicates that an optimal policy has the greatest state value for every state compared to all the other policies. This deﬁnition also leads to many questions:

Existence: Does the optimal policy exist?
Uniqueness: Is the optimal policy unique?
Stochasticity: Is the optimal policy stochastic or deterministic?
Algorithm: How to obtain the optimal policy and the optimal state values?

These fundamental questions must be clearly answered to thoroughly understand optimal policies.

For example, regarding the existence of optimal policies, if optimal policies do not exist, then we do not need to bother to design algorithms to ﬁnd them.

3.3 Bellman optimality equation【贝尔曼最优方程】

The tool for analyzing optimal policies and optimal state values is the Bellman optimality equation (BOE).

By solving this equation, we can obtain optimal policies and optimal state values. 【通过解决这个方程，我们可以得到最优策略和最优状态值。】

We next present the expression of the BOE and then analyze it in detail.

贝尔曼方程：
$\begin{aligned} \color{red}{v_{\pi}(s)}&=\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s] \\[2ex] &=\underbrace{\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{r\in\mathcal{R}}p(r|s,a)r}_{\text{mean of immediate rewards}}+\underbrace{\gamma\sum_{a\in\mathcal{A}}\pi(a|s)\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s'),}_{\text{mean of future rewards}}\\ &=\sum_{a\in\mathcal{A}}\pi(a|s)\left[\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v_{\pi}(s')\right],\quad\text{for all }s\in\mathcal{S} \end{aligned}$

For every $s\in\mathcal{S}$ , the elementwise expression of the BOE（贝尔曼最优方程） is

$\begin{aligned} \upsilon(s)& \begin{aligned}=\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)\left(\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s'\in\mathcal{S}}p(s'|s,a)v(s')\right)\end{aligned} \\ &=\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)q(s,a), \end{aligned}$

where $v(s),v(s^{\prime})$ are unknown variables to be solved and

$q(s,a)\doteq\sum_{r\in\mathcal{R}}p(r|s,a)r+\gamma\sum_{s^{\prime}\in\mathcal{S}}p(s^{\prime}|s,a)v(s^{\prime}).$

Here, $\pi(s)$ denotes a policy for state $s$ , and $\Pi(s)$ is the set of all possible policies for $s$ .

The BOE（贝尔曼最优方程）is an elegant and powerful tool for analyzing optimal policies.

However, it may be nontrivial to understand this equation. For example, this equation has two unknown variables $v (s)$ and $\pi(a|s)$ .

It may be confusing to beginners how to solve two unknown variables from one equation.

Moreover, the BOE is actually a special Bellman equation.

However, it is nontrivial to see that since its expression is quite different from that of the Bellman equation.

We also need to answer the following fundamental questions about the BOE.

Existence: Does this equation have a solution?
Uniqueness: Is the solution unique?
Algorithm: How to solve this equation?
Optimality: How is the solution related to optimal policies?

Once we can answer these questions, we will clearly understand optimal state values and optimal policies.

3.3.1 Maximization of the right-hand side of the BOE

We next clarify how to solve the maximization problem on the right-hand side of the BOE.

At first glance, it may be confusing to beginners how to solve $tw o$ unknown variables $v (s)$ and $\pi(a|s)$ from $o n e$ equation.

In fact, these two unknown variables can be solved one by one.

This idea is illustrated by the following example.

Example $3.1.Consider\:two\:unknown\:variables\:x,y\in\mathbb{R}\:that\:satisfy$

$\begin{aligned}x&=\max_{y\in\mathbb{R}}(2x-1-y^2).\end{aligned}$

$The\:first\:step\:is\:to\:solve\:y\:on\:the\:right-hand\:side\:of\:the\:equation.\:Regardless\:of\:the\:value$ $ofx,\:we\:always\:have\:\max_y(2x-1-y^2)=2x-1,\:where\:the\:maximum\:is\:achieved\:when$ $y=0.\quad The\:second\:step\:is\:to\:solve\:x.\quad When\:y=0,\:the\:equation\:becomes\:x=2x-1$ , $which\:leads\:to\:x=1.\:Therefore,\:y=0\:and\:x=1\:are\:the\:solutions\:of\:the\:equation.$

We now turn to the maximization problem on the right-hand side of the BOE. The BOE in (3.1) can be written concisely as

$v(s)=\max_{\pi(s)\in\Pi(s)}\sum_{a\in\mathcal{A}}\pi(a|s)q(s,a),\quad s\in\mathcal{S}.$

Inspired by Example 3.1, we can first solve the optimal $\pi$ on the right-hand side. How to do that? The following example demonstrates its basic idea.
Example $3.2.\:Given\:q_1,q_2,q_3\in\mathbb{R},\:we\:would\:like\:to\:find\:the\:optimal\:values\:of\:c_1,c_2,c_3$
$t o$ $ma x imi ze$

$\begin{aligned}\sum_{i=1}^3c_iq_i&=c_1q_1+c_2q_2+c_3q_3,\\\end{aligned}$

$\begin{aligned}where\:c_1+c_2+c_3=1\:and\:c_1,c_2,c_3\geq0.\end{aligned}$

$Without~loss~of~generality,~suppose~that~q_3~\geq~q_1,q_2.~Then,~the~optimal~solution~is$ $\begin{aligned}c_3^*=1~and~c_1^*=c_2^*=0.~This~is~because\end{aligned}$

$q_3=(c_1+c_2+c_3)q_3=c_1q_3+c_2q_3+c_3q_3\geq c_1q_1+c_2q_2+c_3q_3$

$\begin{aligned}for~any~c_1,c_2,c_3.\end{aligned}$

Inspired by the above example, since $\sum_a\pi(a|s)=1$ , we have

$\sum_{a\in\mathcal{A}}\pi(a|s)q(s,a)\leq\sum_{a\in\mathcal{A}}\pi(a|s)\max_{a\in\mathcal{A}}q(s,a)=\max_{a\in\mathcal{A}}q(s,a),$

where equality is achieved when

$\left.\pi(a|s)=\left\{\begin{array}{ll}1,&a=a^*,\\0,&a\neq a^*.\end{array}\right.\right.$

Here, $a^* = \arg \max _aq( s, a) .$ In summary, the optimal policy $\pi(s)$ is the one that selects the action that has the greatest value of $q (s, a) .$

3.3.2 Matrix-vector form of the BOE

The BOE refers to a set of equations deﬁned for all states. If we combine these equations, we can obtain a concise matrix-vector form, which will be extensively used in this chapter.

The matrix-vector form of the BOE is

$\upsilon=\max_{\pi\in\Pi}(r_\pi+\gamma P_\pi\upsilon),$

where $v\in\mathbb{R}^{|\mathcal{S}|}$ and max is performed in an elementwise manner. The structures of $r_{\pi}$ and $P_{\pi}$ are the same as those in the matrix-vector form of the normal Bellman equationı

$[r_\pi]_s\doteq\sum_{\alpha\in\mathcal{A}}\pi(a|s)\sum_{r\in\mathcal{R}}p(r|s,a)r,\quad[P_\pi]_{s,s^{\prime}}=p(s'|s)\doteq\sum_{\alpha\in\mathcal{A}}\pi(a|s)p(s'|s,a).$

Since the optimal value of $\pi$ is determined by $v$ , the right-hand side of (3.2) is a function of $v, $ denoted as

$f(v)\doteq\max_{\pi\in\Pi}(r_\pi+\gamma P_\pi v).$
Then, the BOE can be expressed in a concise form as

$\upsilon=f(\upsilon)$

3.3.3 Contraction mapping theorem

Since the BOE can be expressed as a nonlinear equation $v = f (v)$ , we next introduce the contraction mapping theorem [6] to analyze it. The contraction mapping theorem is a powerful tool for analyzing general nonlinear equations. It is also known as the fixedpoint theorem. Readers who already know this theorem can skip this part. Otherwise the reader is advised to be familiar with this theorem since it is the key to analyzing the BOE.

Consider a function $f( x) , $where $x\in \mathbb{R} ^d$ and $\mathbb{R} ^d\to \mathbb{R} ^d.$

A point $x^*$ is called a fxed point if

$f(x^*)=x^*.$

The interpretation of the above equation is that the map of $x^*$ is itself. This is the reason why $x^*$ is called “fixed”. The function $f$ is a $co n t r a c t i o n$ $ma pp in g$ (or contractive function) if there exists $\gamma\in ( 0, 1) $ such that

$\|f(x_1)-f(x_2)\|\leq\gamma\|x_1-x_2\|$

for any $x_1, x_2\in \mathbb{R} ^d.$ In this book, $\|\cdot \|$ denotes a vector or matrix norm.

【强化学习的数学原理】课程：从零开始到透彻理解（完结）
MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
学习笔记-强化学习4-用Banach不动点定理证明Value-based RL收敛性
【强化学习】强化学习数学基础：贝尔曼最优公式
学习心得-强化学习【贝尔曼最优公式】

机器学习(一) 本文(3万字) | 机器学习概述 | 小酒馆燃着灯机器学习人工智能深度学习目标检测 vscode pytorch python
推荐阅读，点击查看文章目录1.统计学习(机器学习）1.1特点1.2对象1.3目的1.4方法1.5步骤2.基本分类2.1监督学习2.1.1输入空间、特征空间和输出空间2.1.2概率分布2.1.3假设空间2.1.4问题的形式化2.2无监督学习2.3强化学习2.4半监督学习与主动学习3.基于模型分类4.基于技巧分类4.1贝叶斯学习4.2核方法5.统计学习三要素5.1模型5.2策略5.2.1损失函数与风险
（九万字）面向2025年BOSS直聘人工智能算法工程师高频面试题解析快撑死的鱼人工智能回归 python pytorch
面向2025年BOSS直聘人工智能算法工程师高频面试题解析1.机器学习（ML）理论解析机器学习是让计算机从数据中学习规律的一套方法论，包含监督学习、无监督学习和强化学习等范式。在监督学习中，给定带标签的数据，算法尝试学习从输入到输出的映射关系；无监督学习则在缺乏标签的情况下挖掘数据内在结构；强化学习则让智能体通过与环境交互、依据奖赏反馈来改进策略(Q-learning-Wikipedia)。机器学
DeepSeek与ChatGPT：AI语言模型的全面对决金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 chatgpt 人工智能语言模型
DeepSeek（深度求索）与ChatGPT作为当前备受关注的两大AI语言模型，在技术架构、应用场景和性能表现上各有特色。以下从六大维度展开全面对比，为不同需求场景提供选择参考：一、核心技术对比维度DeepSeekChatGPT架构设计混合专家系统（MoE）+自研深度优化架构Transformer架构（GPT-3.5/4系列）训练策略万亿token中文语料预训练+领域强化学习多语言混合训练+RLH
muzero 算法原理战神哥
Muzero算法是一种通用的强化学习算法，它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习，并通过回报函数来评估每一步的决策。Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游
DeepSeek技术跟踪和本地部署实践一望无际的大草原人工智能学习笔记 deepseek 大模型技术跟踪 deepseek
春节期间，我也紧跟技术潮流，跟踪学习了并部署了一下DeepSeek，应该说DeepSeek是中国人在AI领域一次技术创新，甚至超越，给各大AI公司提供了一条全新的赛道，其推出的强化学习等技术提醒大家AI不单单是Transformer架构下的堆算力、堆数据，还需要在算法和工程落地方面的不断创新实践，下面具体来说说，供大家参考学习。DeepSeek（深度求索）是一家杭州地区量化私募巨头幻方量化旗下的A
AI架构师必知必会系列：强化学习在金融领域的应用 AI天才研究院 AI实战 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录AI架构师必知必会系列：强化学习在金融领域的应用1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系1.强化学习交易系统的总体架构2.强化学习模型训练流程3.强化学习风控系统架构3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1Q学习3.1.2REINFORCE3.1.3A3C3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式
基于基于强化学习(Q-Learning)用于底层动态频谱接入(DSA)认知无线电网络的资源分配研究（Matlab代码实现）长安程序猿网络 matlab 开发语言
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、动态频谱接入（DSA）的基本原理与挑战1.DSA的核心机制2.关键挑战二、Q-Learning在DSA资源分配中的应用框架1.算法原理2.典型应用场景三、关键参数与模型设计1.状态空间定义2.动作空间设计3.奖励函数设计四、研究进展与优化方法1.
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
deepseek和ChatGPT 4o比较调皮的芋头 chatgpt 人工智能
DeepSeek和ChatGPT4o在实现方式、评测效果和使用体验方面的详细比较：实现方式：DeepSeek：推理型大模型DeepSeek的核心是推理型大模型，与指令型大模型不同，它不需要用户提供详细的步骤指令，而是通过理解用户的真实需求和场景来提供答案。后训练+RL/RLHFDeepSeekR1等推理模型是在通用模型的基础上进行“特训”（后训练+SFT/RL/RLHF），使其不仅知道得多还用得好
强化学习：原理、概念与代码实践 AndrewHZ 深度学习新浪潮人工智能深度学习强化学习机器学习算法 deepseek
一、引言强化学习（ReinforcementLearning）作为机器学习的一个重要分支，旨在通过智能体（agent）与环境的交互，学习到最优的行为策略，以最大化长期累积奖励。它在机器人控制、游戏、自动驾驶、资源管理等众多领域都取得了显著的成功。本文将深入介绍强化学习的数学原理、核心概念，并通过公式推导来加深理解，同时结合一个具体的实例，使用Python语言进行代码实现，帮助读者全面掌握强化学习的
如何训练LLM“思考”（像o1和DeepSeek-R1一样, 高级推理模型解析果冻人工智能 AI员工人工智能 chatgpt 深度学习
2024年9月，OpenAI发布了它的o1模型，该模型基于大规模强化学习训练，赋予了它“高级推理”能力。不幸的是，他们是如何做到这一点的细节从未被公开披露。然而，今天，DeepSeek（一个AI研究实验室）成功复现了这种推理行为，并公开了他们方法的完整技术细节。在这篇文章中，我将讨论这一创新背后的关键思想，并描述它们在底层是如何运作的。一台会思考的笔记本电脑OpenAI的o1模型标志着训练大语言模
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别钟小宇 LLM 人工智能语言模型
SFT（监督微调）和RLHF（基于人类反馈的强化学习）的区别STF（SupervisedFine-Tuning）和RLHF（ReinforcementLearningfromHumanFeedback）是两种不同的模型训练方法，分别用于不同的阶段和目的。以下是它们的主要区别：1.方法概述STF（监督微调）：定义：STF是指在已经预训练好的模型基础上，使用标注好的数据进一步训练模型，使其在特定任务上
评测系统的神经架构搜索优化 AI天才研究院 ChatGPT 计算 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
评测系统的神经架构搜索优化关键词评测系统神经架构搜索优化强化学习人工智能摘要本文将探讨评测系统的神经架构搜索优化这一主题。首先，我们将介绍评测系统的基本概念和重要性，然后深入解析神经架构搜索优化的基本原理和算法。接下来，我们将探讨神经架构搜索优化的应用场景和实战案例分析，最后进行总结和展望。第1章：引言1.1评测系统的重要性评测系统在各个领域都有着广泛的应用，如教育、工业、金融等。它的主要作用是对
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
翻译Deep Learning and the Game of Go（14）第十二章采用actor-critic方法的强化学习 idol_watch 围棋与深度学习
本章包括:利用优势使强化学习更有效率用actor-critic方法来实现自我提升AI设计和训练Keras的多输出神经网络如果你正在学习下围棋，最好的改进方法之一是让一个水平更高的棋手给你复盘。有时候，最有用的反馈只是指出你在哪里赢棋或输棋。复盘的人可能会给出这样的评论，“你下了30步后已经远远落后了”或“在下了110步后，你有一个获胜的局面，但你的对手在130时扭转了局面。”为什么这种反馈是有帮助
【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源？ FF-Studio DeepSeek R1 算法
GRPO，一种新的强化学习方法，是DeepSeekR1使用到的训练方法。今天的这篇博客文章，笔者会从零开始，层层递进地为各位介绍一种在强化学习中极具实用价值的技术——GRPO（GroupRelativePolicyOptimization）。如果你是第一次听说这个概念，也不必慌张，笔者会带领你从最基础的强化学习背景知识讲起，一步步剖析其来龙去脉，然后再结合实例讲解GRPO在实际应用中的思路和操作示
揭秘DeepSeek内幕：清华教授剖析AI模型技术原理大模型. 人工智能 chatgpt 安全 agi gpt 大模型 deepseek
从ChatGPT到各种新兴的AI模型，每一次技术突破都能引发广泛的关注和讨论——而最近AI界的“新宠”，无疑是DeepSeek。在本文中，清华大学长聘副教授将深入剖析DeepSeekR1背后的大规模强化学习技术及其基本原理，并进一步展望大模型技术未来的发展方向。1、透过DeepSeekR1，看大模型技术的发展趋势今天我将从宏观角度为大家介绍DeepSeekR1所代表的大规模强化学习技术，及其基本原
DeepSeek正重构具身大模型和人形机器人赛道！ Robot251 重构机器人人工智能科技自动驾驶
中国人工智能公司DeepSeek（深度求索）以“低成本、高效率、强开放”的研发范式横空出世，火遍并震撼全球科技圈；DeepSeek展现出来的核心竞争力，除了低成本及推理能力，更重要的是开源模型能力追赶上了最新的闭源模型；而对具身智能领域影响最大的当属于其开源大模型DeepSeek-R1。2024年1月20日，公司发布全球首个完全通过强化学习训练的专注于推理任务的高性能语言模型DeepSeek-R1
DeepSeek-R1-Zero 与 DeepSeek-R1 的异同与优劣分析 AI生成曾小健 Deepseek原理与使用人工智能
DeepSeek-R1-Zero与DeepSeek-R1的异同与优劣分析一、相同点核心训练方法：两者均基于强化学习（RL），采用GroupRelativePolicyOptimization（GRPO）算法，通过组内样本的奖励相对比较优化策略模型。目标均为提升语言模型的复杂推理能力（如数学、代码、科学推理）。基础模型：均以DeepSeek-V3-Base作为初始模型，共享相同的架构
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
DQN的原理和代码实现 SmallerFL NLP&机器学习 DQN 强化学习深度学习
文章目录1.概述2.DQN的训练步骤2.1初始化2.2训练循环2.3终止条件2.4评估3.代码示例1.概述深度Q网络（DeepQ-Network,DQN）是强化学习中的一种重要算法，由GoogleDeepMind于2013年提出。DQN结合了Q学习和深度学习，通过使用神经网络来近似Q值函数，解决了传统Q学习在高维状态空间中的问题。2.DQN的训练步骤2.1初始化环境：定义环境（例如，Atari游戏
DQN原理和代码实现 KPer_Yang 机器学习机器学习人工智能
参考：王树森《强化学习》书籍、课程、代码1、基本概念折扣回报：Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.U_t=R_t+\gamma\cdotR_{t+1}+\gamma^2\cdotR_{t+2}+\cdots+\gamma^{n-t}\cdotR_n.Ut=Rt+γ⋅Rt+1+γ2⋅Rt+2+⋯+γn−t⋅Rn.动作价值函数：Qπ(st,at)=E[Ut∣St=st,At=
强化学习在机器人控制中的应用：从理论到实践 Echo_Wish 前沿技术人工智能机器人
强化学习在机器人控制中的应用：从理论到实践大家好，我是你们熟悉的人工智能与Python领域自媒体创作者Echo_Wish。今天我们来聊聊一个炙手可热的话题——强化学习在机器人控制中的应用。近年来，随着人工智能技术的飞速发展，机器人在各个领域的应用越来越广泛。而强化学习作为一种重要的机器学习方法，为机器人控制提供了强有力的技术支持。接下来，让我们一起探讨强化学习在机器人控制中的原理和实践，并通过具体
X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer（src/x_r1）仙人掌_lz 人工智能人工智能深度学习学习
这个项目名为[X-R1](https://github.com/dhcode-cpp/X-R1)，是一个基于强化学习的训练框架，旨在构建一个易于使用、低成本的训练框架，以加速ScalingPost-Training的开发。以下是对该项目的详细解释：项目结构项目的主要目录结构如下：X-R1/├──.gitignore├──LICENSE├──Makefile├──README.md├──requir
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
Bengio新作Aaren：探索Transformer性能与RNN效率的融合 AI记忆深度学习论文与相关应用 transformer rnn 深度学习 Aaren Bengio
论文链接：https://arxiv.org/pdf/2405.13956一、摘要总结：本文提出了一种新的注意力机制，名为Aaren，它将注意力视为一种特殊的递归神经网络（RNN），能够高效地计算其多对一RNN输出。Aaren不仅能够并行训练，而且能够在推理时高效地更新新令牌，仅需要常数内存。实验表明，Aaren在四个流行的序列问题设置（强化学习、事件预测、时间序列分类和时间序列预测）的38个数据
先进制造aps专题二十九基于ai智能体的生产排程和工厂生产仿真引擎的设计 lijianhua_9712 aps ai智能体仿真引擎
上文中，我们说，通常的做法是，可以先通过排产仿真引擎产生生产计划，再在工厂仿真引擎里仿真执行，这样可以预先分析计划和执行的差异情况并进行调整优化这里的产生生产计划，仿真生产执行和数据分析都是人工进行的这些工作可以让ai智能体来做，从而实现整套流程的自动化和智能化我们可以在强化学习框架中结合排产仿真/工厂生产仿真框架，在强化学习框架的准备函数里启动排产仿真引擎获得生产计划，并导入到工厂仿真引擎里执行
DeepSeek R1：引领未来教育革命的自适应学习路径规划系统 Coderabo DeepSeek R1模型企业级应用学习人工智能机器学习算法 python 深度学习
自适应学习路径规划概述自适应学习路径规划是指通过分析用户的学习行为和需求，动态调整学习内容和顺序，以提供个性化、高效的学习体验。在当今快速发展的教育科技领域，这一概念变得尤为重要。随着人工智能技术的进步，特别是深度学习和强化学习的应用，我们能够更加精准地识别学习者的需求，并据此设计出最适合他们的学习路径。利用先进的算法和模型来实现对学习路径的智能化管理。该系统能够实时监控学习者的进度，根据其表现调
Deepseek背后的强化学习RL入门理解和Python脚本实现大F的智能小课人工智能
强化学习简单原理强化学习是一种让智能体通过与环境的交互来学习最优行为策略的方法。想象一下，你有一只小狗，你想让它学会自己找到回家的路。你可以给小狗一些奖励（比如小零食），当它做出正确的动作（比如向家的方向走）时，就给它奖励；当它走错方向时，就不给奖励。小狗会逐渐学会哪些动作能获得奖励，从而找到回家的路。强化学习中的智能体就像是这只小狗，环境就是小狗所处的世界，奖励就是你给它的零食。在强化学习中，智
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23