暖仔会飞

深度学习之：强化学习 Reinforcement Learning

文章目录

认识强化学习
- Sparse Reward
- Supervised Learning v.s. RL
- RL 玩游戏
Policy-based & Value-based
- Policy-based
- - 训练模型的三步骤
  - - 定义目标函数
    - 衡量目标函数的好坏
    - - RL 的目标函数的好坏（reward 总和的期望）
      - 如何求得 $\bar{R_{\theta}}$
    - 优化目标函数
  - Policy-based RL 的一点补充
  - - Version 0
    - Version 1
    - Version 2
    - Version 3
    - - 如何设置 $b$
  - Policy Gradient
  - On Policy v.s. Off Policy
- Value-based

认识强化学习

一般我们知道 Machine learning 一般指的是传统方法（贝叶斯，决策树，逻辑回归等）模型来实现一些数据分析或者分类的任务，而深度学习则是基于深度神经网络发展出来的一系列更加强大的模型，这些模型根据功能可以分为 CNN，RNN, Transformer 等，他们往往基于大量的数据集来拟合数据的分布，从而获得非常强大的视觉或者语言能力。
无论是机器学习还是深度学习，都基于 Supervised learning 或者 Unsupervised learning 又或者 self-supervised learning来进行训练模型。
但 Reinforcement learning 则既不是监督学习也不是无监督学习，而是一种特殊的学习方式。而区别于 ML 和 DL 中常用的 label-based + 梯度下降的训练方式。RL 倾向于一种全新的训练策略。
下面来看一下 RL 的核心思想：
RL 的核心构件包括：
- Agent：代理
- Environment：环境
Agent 可以通过观察环境的状态（state）采取一个动作（action）
这个 action 会改变环境，从而使 agent 获得 reward 或者 penalty，从而 agent 可以不断地接收到来自环境的反馈来改进自己的行为。
而 RL 的目的就是学习一个 actor 函数，这个函数输入就是 environment 当前的 state，输出就是 agent 根据这个状态而采取的 action. 而这个学习的过程则是依靠 reward 进行的。理论上如果模型学的够好，actor 函数足够强大，那么 agent 根据环境可以做最正确的决策。

Sparse Reward

在下面的描述中，会使用以下缩写：
- environment -> e
- environment state -> es
- action -> a
- Reinforcement learning -> RL
比如 alphaGo，在 $0$ 时刻的 alphago 看到的 es 是一个空棋盘，所以他选择 a 是下载某个地方一颗棋子
这个时候，对手就是 e，他会有所行动，也就是 es 发生改变：棋盘上多了一颗对方的白子
于是 alphago 根据当前的 es 再采取新的 a：下在另一个位置黑子
但是下棋这个任务非常特殊，因为如果我们把 对弈胜利 的 reward=1，而 对弈失败 的 reward=-1 那么就会发现，只有在这个棋局的最后一个 a 之后才会产生 reward，其他步骤模型都没有得到任何的反馈，那么这个就非常不好，因为我们知道在我们熟知的一些监督任务中，每个 step 或者 epoch，模型都会根据当前的 loss 做梯度下降来更新参数。但是如果下棋只有最后一个步骤有 reward，那模型很难学到东西。这种困难的问题叫做 sparse reward （稀疏奖励） 。这种问题在 RL 中是经常出现的。

Supervised Learning v.s. RL

对于监督学习来解决这个下棋问题的话，往往会采用下面的方式：
- 即，给定一个局面，然后给出下一步的正确落子方式作为 label
- 但是，这种方式的问题是：下棋这种决策性的游戏根据同样的环境是没有正确答案的。比如都是同一个棋局，高手可能会故意让对方吃掉自己一部分子来换得更大的胜利，所以死板地给定下一个落子位置的方式来训练模型是很死板的
- RL 则是通过让模型和不同的对手（e）进行下棋，然后根据大量的训练来获得真正的下棋能力，面对不同的对手都可以随机应变。
- 在下面的文章中，会介绍 RL 为什么可以随机应变（因为 RL 中存在大量的随机性操作，这也是为什么 RL 的训练不太容易收敛，而且非常耗时）
- alphago 的训练方式是 supervised learning + RL 也就是先通过监督学习获得一个能力还行但很死板的初代版本，然后让两个 alphago 互相采用 RL 的方式进行对弈（3000万盘）

RL 玩游戏

在这个游戏中， RL 负责操控最下面这个绿色的东西，他可以有三种操作 left, right, fire 他的任务是负责杀死这些 alien 杀掉这些 alien 可以获得 reward
最开始的时候的 es 是 $s_1$ （es 也叫 observation），根据这个画面，agent 采取的动作 $a_1$ 是向右移动，因此这个步骤的 reward=0
然后在 $s_2$ 的时候，agent 选择 fire 并且成功射杀一个 alien，从而获得了 reward=5 的收益
经过了多个回合之后，最终 agent 采取了 $a_T$ 获得了 reward 为 $r_T$ 然后游戏就结束了。
这一局游戏称为一个 episode，整个 episode 过程获得的 reward 的总和 $r_{total}$ 是我们希望 maximize 的。
从这个过程中我们可以总结出 RL 的难点在于：
- reward delay：左右移动不会直接产生 reward，但是移到了正确的位置开火可以得到 reward，但是这个 reward 是滞后于左右移动这个行为的。因此如果模型只是根据 reward 来学习 action 的话，很有可能就是一直站在原地开火
- agent 的行为可能产生一些类的后续影响，也就是我们希望模型具有探索精神。比如如果模型觉得 fire 可以得到 reward 而一直 fire 但是却不进行任何的左右移动，那么这个模型就不具备 explore 的能力，结果也就不会太好

Policy-based & Value-based

RL 的模型分成两个主要的分支：基于 policy 的方法和基于 value 的方法；但是当前表现效果最好的 A3C 是将 value 和 policy 结合起来
而 critic 的方式则是充当一个批评者，通过不断纠正 agent 的行为来获得更好的结果

Policy-based

基于策略的方法本质上是训练一个 actor 函数（也可以表示成 $\pi$ ），这个函数可以根据 es （observation）输出一个最有效的 a 帮助 agent 获得最大的收益；actor函数 在很多地方也叫做 policy

训练模型的三步骤

任何深度学习 / 机器学习 / 强化学习都可以分成三个步骤：
- 定义一个目标函数
- 判断这个目标函数是否足够好
- 将目标函数优化

定义目标函数

第一步：定义一个函数：这里的 actor 就是这个函数
- 对于这个玩游戏的任务，那么输入是当前的环境状态（es），在这里就是当前时刻的游戏影像，我们可以先通过 CNN 来提取这个图像的特征，然后把特征向量放到一个分类网络中得到最终是 left, right, fire 的三分类问题。在这里这个分类网络就可以看做是这个 actor 函数，因为他的输出就是针对当前影像的 action
- 假设最后对于 left, right, fire 的概率分布是 0.7, 0.2, 0.1 那么就代表有 70% 的几率是左移。但是不同于分类任务的是，RL 在这里并不会针对采取 left 这个 action，而是按照 0.7 的概率进行这个行为。（而普通的分类任务中，假设分类 猫，狗 的概率分布是 0.7,0.3 那么这个 sample 的 predict_label=猫，但是 RL 并不如此）。

衡量目标函数的好坏

第二步：判断这个目标函数的好坏
- 先看一下在普通的 supervised learning 中的判定一个目标函数好坏的方式：
- 这个目标函数的参数我们用 $\theta$ 表示，当一个 sample 经过目标函数得到的预测结果 predicted_label 如果他和 groundtruth 的差距足够小，即 loss(predicted_label, groundtruth) 足够小，那么我们认为这个目标函数是好的
- 在 RL 中这个过程也是类似的

RL 的目标函数的好坏（reward 总和的期望）

对于一个目标函数 $\pi_{\theta}$ 和某个时刻的 observation $s_i$ ，采取的 action 可以表示为 $a_i = \pi_{\theta}(s_i)$
而这个 $a_i$ 造成的收益 reward 表示为 $r_i$
如果在经过一整个 episode 的游戏之后，整个过程的 reward 的总和可以表示为 $R_{\theta}=\sum_{t=1}^Tr_t$
如果 $R_{\theta}$ 非常大，那么我们就可以认为当前的 $\pi_{\theta}$ 是足够好的。
但是我们在上面讨论过，当一个 $s$ 输入 $\pi_{\theta}$ 的时候存在随机性，这种随机性表现在，即使是同一个 $s$ 假设现在 $\pi_{\theta}(s)$ 的分布表明 left, right, fire 三种行为的概率分别为 0.7,0.2,0.1 那么第一次的结果可能是 left 这个action，但是第二次有可能是 right 因为虽然 right 的概率比 left 小，但是也是有概率发生的。这也就产生了一个问题，就是一次的 $R_{\theta}$ 并不能完全衡量 RL 目标函数的好坏，我们应该用 $\bar{R_{\theta}}$ 也就是 $R_{\theta}$ 的期望值来表示 RL 目标函数的好坏。
因此我们的优化目标是最大化 $\bar{R_{\theta}}$ ，这个优化过程我们依然可以采用梯度下降，那就是我们把 loss 值，看做是 $\bar{R_{\theta}}$ 然后最小化 loss 就可以得到我们想要的解。

如何求得 $\bar{R_{\theta}}$

将一个 episode 的过程看成一个 trajectory $\tau$ ，其中 $\tau=\{s_1, a_1, r_1, s_2, a_2, r_2,...s_T, a_T, r_T\}$

$R(\tau)=\sum_{n=1}^N(r_n)$

如果使用一个 actor 函数 $\pi_{\theta}$ ，那么理论上会有很多个不同的 $\tau$ ，我们假设当前 $\tau$ 出现的概率是 $P(\tau|\theta)$ 因为这个 $\tau$ 的出现概率是跟这个目标函数的参数 $\theta$ 相关
因此我们可以表示当前 episode 的 reward 的期望为：
$\bar{R_{\theta}}=R(\tau)P(\tau|\theta)$
又因为 $\tau$ 的情况是非常多的，我们不可能进行穷举，所以我们只能对 $P(\tau|\theta)$ 进行近似。我们让这个 agent 在 actor 函数参数不变的情况下（使用同一个 $\pi_{\theta}$ ）进行 $N$ 次游戏， $N$ 次游戏的结果可以表示为 $\{\tau^1, \tau^2, ...\tau^N\}$ 这个过程相当于从概率分布为 $P(\tau|\theta)$ 的分布中采样 $N$ 次。
所以上图中左边的求和公式可以近似于右边的求和公式，所以我们将使用如下公式来计算出一个 episode 的 reward 期望值，从而衡量当前的目标函数的好坏
$\frac{1}{N}\sum_{n=1}^NR(\tau^n)$

优化目标函数

因为我们要最大化 $\bar{R_{\theta}}$ 因此，我们采用 gradient asent 的方法，当然也可以取负号，然后用 gradient descent 进行优化，都是一样的。
- 对于上面的公式，我们可以知道因为 $R(\tau)$ 与目标函数的参数 $\theta$ 根本没关系，所以只需要对 $P(\tau|\theta)$ 进行微分计算即可
- 根据 $l o g (f (x))$ 的微分法则，我们可以最终将公式化简成红框所在的那一行
- 然后根据我们上面近似的结果进行替换，可以得到最后一行的结果
- 又因为 $\tau$ 是一个序列，那么这个序列出现的概率可以按照上图中进行化简
- 因为 $s$ 统统与 $\theta$ 无关，所以开始是 $p(s_1)$ 而 $a_1$ 的发生与 $s_1,\theta$ 都有关，因此第二项是 $p(a_1|s_1,\theta)$ 同样的，后面的概率都是这么写出来的
- 经过最终的化简之后可以看到，只有 $p(a_t|s_t,\theta)$ 与 $\theta$ 有关
- 再化简， $l o g$ 运算无非是把连乘变成连加运算，然后将与 $\theta$ 无关的项目从式子中剔除，就得到了最后的公式
从这个式子看， $\nabla \bar{R_{\theta}}$ 代表的是整个 目标函数的优化方向，而根据最终的式子来看，这个公式非常直觉，因为如果把公式里面只保留最重要的部分，也就是：
$\nabla \bar{R_{\theta}}=R(\tau^n)\nabla logp(a_t^n|s_t^n,\theta)$
当使用 $\pi_{\theta}$ 作为 actor 函数时，当面对 $s_t^n$ 这个 environment state，此时如果 $R(\tau)>0$ 那我们希望调整参数 $\theta$ 来让 $p(a_t^n|s^n_t)$ 的概率越大越好，当 $R(\tau)<0$ 则希望面对 $s^n_t$ 时，减小 $a_t^n$ 的概率。
可能理解起来稍微有些绕，好好想想，其实这个结论非常符合常识和直觉
但是这个式子仍然存在一个小问题，就是 $R(\tau^n)$ 有可能全都是正数，这可能造成一部分问题就是所有的行为 $a_i$ 都是被鼓励发生的（更详细的解释可以参考李宏毅老师的视频，在一小时01分钟左右）
为了解决这个问题，人们让 $R(\tau^n)$ 减一个 baseline 的值，从而构造出 $R(\tau^n)$ 有正有负的情况
至于这个 $b$ 是怎么算出来的，我们后面再说。

Policy-based RL 的一点补充

参考视频：李宏毅强化学习 (Reinforcement Learning, RL) 2021
我们根据上面的知识，我们试图最优化一个 episode 的总的 reward 值。这种做法其实可以看做是 version 0 ，但这种做法存在很大的问题，下面的内容就是不同的 version 存在的问题以及如何通过下一个 version 进行修正。

Version 0

为了简化，我们还是用以下缩略符号来表示对应的含义：
- environment -> e
- environment state -> es
- action -> a
- Reinforcement learning -> RL
从第一个环境状态 $s_1$ 开始，将 $s_1$ 输入actor 函数得到 $a_1$ 同时产生 $r_1$ （第一个 action 对应的 reward），然后以此递推下去，直到这个 episode 结束，那么所有的 reward 的总和就是
$R=\sum^nr_i$
这种做法的问题是：只有那些为 reward 增大贡献的 $a$ 会被越来越重视。就像上图中 right 这个行为本身不产生 reward，fire 产生 reward 所以如果按照 version 0 这个 agent 就会一直选择开火，而不移动，但我们都知道移动对于 fire 来说是很重要的。所以这种优化目标会让模型变得短视

Version 1

将从 $a_1$ 向后的所有动作产生的 reward 相加得到 $a_1$ 的累加 reward $G_1$ 来代替 version 0 当中的 $r_1$ ，同样的，可以得到 $G_2, G_3,...,G_N$
这样做的好处是，后面的成功也会归因到前面的步骤，从而避免优化目标函数的时候忽略了这些自身 reward 比较低的 action
所以这时候的优化目标就变成了 $\sum^NG_i$
但是 version 1 仍然也存在问题：当整个 episode 步骤过于长的时候，将第 $N$ 步的 reward 归功于 $r_1$ 未免太牵强了。因此 version 2 采取了 discount factor

Version 2

保留 version 1 的主要思想，但是在计算 $G$ 的时候，对于前面的 action 的 reward 都乘一个衰减系数 $\gamma$ ，就是说：我承认前面步骤的影响，但是离我越远的 action 对我的影响应该越小
按照这种思路，可以生成 $G_1^{'},G_2^{'},...,G_N^{'}$ ，优化目标也就变成了：
$\sum^NG_N^{'}$

插入一个小问题：
虽然现在的目标函数被定义的越来越完善，但是对于围棋这种只有最后才有 reward 而中间没有 reward 的操作，看起来还是束手无策啊。

但其实如果按照上面的目标函数去解决下围棋的这种情景，那么假设最后下棋赢了，那么就会认为所有的步骤都是 postive 的，有效的，而如果输了，那么所有的步骤都是 negative 的

虽然这看起来好像很离谱，但是初代的 alphago 就是这么训练的。

因为并不是一盘棋，是下几千万局，这个过程中有赢有输，每个 action 的 reward 会调整很多次，所以虽然很难 train 但是还是可以 train 出来

Version 3

version 3 是对 version 2 进一步优化，优化的方式是将每一项的 $G^{'}$ 变成 $G^{'}-b$ 这个我们在上面提过。因为有些场景下，如果所有的 $G^{'}$ 都是正值，那么就不太好，所以我们倾向于让他们减去一个共同的数据 $b$ 来保证过程中的 $G^{'}$ 有正有负。这种方法可以看成是一种 标准化
如何设置 $b$ 呢？

如何设置 $b$

Policy Gradient

首先初始化参数
然后按照 epoch 进行循环 ( $E_i,...,E_T$ )，每个 epoch 中执行：
- 使用上一个 epoch 的 actor 函数（参数表示为 $\theta^{i-1}$ ）
- 将 $s_1, ... ,s_N$ 的数据输入 actor 得到 $a_1, ..., a_n$
- 接着计算出每个 action 对应的 reward $A_1,..., A_N$
- 根据这些 reward 得到损失函数（或者优化目标）
- 采用梯度下降或梯度上升来优化目标函数的参数
但是非常神奇的是，我们之前接触的一些项目，都是把数据在 epoch 之外先整理好，但是 RL 训练过程中数据的收集是在 epoch 内部完成的，那为什么收集一次数据只能用于一个 epoch 迭代，而不能一直用呢？
开始时第一个 epoch 的 actor 参数是 $\theta_1$ 然后根据这个 actor 产生的 $\tau=\{s_1, a_1, G^{'}_1, s_2, a_2, G^{'}_2, ..., s_N, a_N, G^{'}_N\}$ 将 actor 的参数更新成了 $\theta_2$ 那么这个时候根据 $s_1$ actor 会产生 $\hat{a_1}$ 和 $\hat{G^{'}_1}$ 所以需要把这些重新收集起来用于优化 $\theta_2\rightarrow\theta_3$ 。

On Policy v.s. Off Policy

上面提到的这些训练方法，被训练的 actor 和与环境进行交互的 actor 是同一个 actor ，这种训练的方式叫做 On Policy 的方法
如果被训练的 actor 和与环境进行交互的 actor 不是同一个 actor 就叫做 Off Policy 的方法

Value-based

value-based 的方法是训练一个 $V^{\pi}$ 这个东西不直接指导 agent 下一步要采取什么 action，他的作用是：给定一个当前环境的状态 $s$ 给出一个评估值 $v$ ，这个评估值表示的是 agent 如果继续玩下去在游戏结束的时候能够获得的预测值
举个具体的例子：
- 第一个游戏图像中的 alien 还有很多并且屏障（粉红色的三坨东西）还是满的，所以游戏不太可能在短期内结束，而击杀 alien 又可以获得 reward，那么给定这个 $s$ ， $V^\pi$ 就会认为：按照当前的情况来看，当游戏结束的时候得到的奖励的值可以比较大（ $V^\pi(s)$ ）比较大，但是第二个图 alien 就很稀疏，并且屏障也都已经被 alien 给打没了，所以他的对应的 $V^\pi(s)$ 就比较小

你可能感兴趣的:(机器学习与深度学习,深度学习,人工智能)

Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
不用再当“技术宅“！这个AI神器让我5分钟变身人工智能达人阳光永恒736 AI工具人工智能 deepseek 一键包本地部署 AI资源
最近我在朋友圈刷到好多朋友都在玩AI画图、AI写诗，看得我心痒痒。可每次想自己试试，打开教程就被满屏的代码吓退——"Python环境配置"、"CUDA驱动安装"这些词比数学作业还让人头疼。直到我发现了一个叫DeepSeek本地部署一键包的神器，我的AI探索之旅终于变得像搭乐高一样简单！夸克网盘分享一、原来AI离我们这么近上周三放学路上，我看见隔壁班的小美用AI给自己照片生成古风造型，这让我突然意识
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek API在AutoCAD中的创新应用与挑战 CodeJourney. 数据库算法人工智能
在数字化设计领域，随着人工智能技术的飞速发展，将AI能力融入传统设计软件成为提升设计效率和质量的重要趋势。AutoCAD作为广泛应用的计算机辅助设计软件，与DeepSeekAPI的结合展现出了巨大的潜力。这种融合不仅为设计工作带来了全新的思路和方法，还在多个方面对设计流程进行了优化和创新。一、DeepSeekAPI赋能AutoCAD的多元应用场景（一）智能设计辅助：让创意快速落地在传统设计过程中，
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
DeepSeek的崛起：2025新春国产AI模型的全球影响力耶耶Norsea 网络杂烩人工智能百度
摘要在2025年新春之际，国产AI模型DeepSeek以现象级的姿态迅速崛起，凭借免费、易用及高性能的特点，吸引了全球科技界的广泛关注。这款大型人工智能模型不仅展现了国产技术的实力，还为用户提供了高效便捷的使用体验，成为行业内的焦点。关键词DeepSeek崛起,2025新春,国产AI模型,免费易用,高性能特点一、国产AI的崭新篇章1.1DeepSeek的诞生背景在2025年新春之际，DeepSee
一文说清楚什么是预训练（Pre-Training）、微调（Fine-Tuning），零基础小白建议收藏！！小城哇哇人工智能语言模型 AI大模型大模型微调预训练 agi LLM
前言预训练和微调是现代AI模型的核心技术，通过两者的结合，机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力，而微调则确保了模型能够根据特定任务进行细化和优化。近年来，人工智能（AI）在各个领域的突破性进展，尤其是在自然语言处理（NLP）方面，引起了广泛关注。两项重要的技术方法——预训练和微调，成为了AI模型发展的基石。预训练通常是指在大规模数据集上进行模型训练，以帮助
ONE Deep模型：LG AI Research的开源突破耶耶Norsea 网络杂烩自动化
摘要由LGAIResearch开发的ONEDeep系列开源AI模型，参数规模覆盖2.4亿至32亿。经评估，2.4B参数规模的ONEDeep模型在性能上优于同类其他模型，展现出显著优势。这一成果为AI技术的应用与研究提供了强有力的支持。关键词ONEDeep模型,开源AI模型,LGAIResearch,2.4B参数,性能优越一、ONEDeep模型概述1.1ONEDeep模型的开发背景在当今人工智能技术
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

深度学习之：强化学习 Reinforcement Learning

文章目录

认识强化学习

Sparse Reward

Supervised Learning v.s. RL

RL 玩游戏

Policy-based & Value-based

Policy-based

训练模型的三步骤

定义目标函数

衡量目标函数的好坏

RL 的目标函数的好坏（reward 总和的期望）

如何求得 R θ ˉ \bar{R_{\theta}} Rθ​ˉ​

优化目标函数

Policy-based RL 的一点补充

Version 0

Version 1

Version 2

Version 3

如何设置 b b b

Policy Gradient

On Policy v.s. Off Policy

Value-based

你可能感兴趣的:(机器学习与深度学习,深度学习,人工智能)

如何求得 $\bar{R_{\theta}}$

如何设置 $b$