云端FFF

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

因为想申请 CSDN 博客认证需要一定的粉丝量，而我写了五年博客才 700 多粉丝，本文开启关注才可阅读全文，很抱歉影响您的阅读体验

本文讨论两个主要内容
1. 表格型 policy evaluation 方法中，使用 Bellman 算子/Bellman 最优算子进行迭代的收敛性
2. 使用函数近似方法进行 policy evaluation 时的收敛性问题
首先补充一点测度论中的定义，然后介绍压缩映射原理和不动点，最后证明收敛性。

文章目录

1. 基础概念
- 1.1 测度论概念补充
- 1.2 收缩映射定理
2. 表格型 Bellman 迭代的收敛性证明
- 2.1 Bellman operator 的收敛性
- 2.2 Bellman optimal operator 的收敛性
3. 函数近似法的收敛性问题

1. 基础概念

1.1 测度论概念补充

注：本人没有学过测度论，就临时看了一下概念，因此这一段不甚准确，具体请参考程士宏《测度论和概率论基础》
测度论其实是概率论的基础，但是二者可以独立开来讲，本科阶段学习的概率论课程通过公理化定义回避了这些底层的内容，可一旦进入随机过程这些更深入的课程后，有些问题离开测度论是无法考虑的。测度论致力于在抽象空间建立类似实变函数中测度、积分和导数那样的分析系统，下面简单捋一下部分关键概念
1. 空间：任给一个非空集合 $X$ ，称之为空间
2. 集合： $X$ 的子集称为集合，用大写字母 $A, B, C ...$ 表示
3. 元素： $X$ 的成员称为元素，用小写字母 $x, y, z ...$ 表示，元素可以被某个集合包含，如 $x\in A$
4. 集合系：以空间 $X$ 中一些集合为元素组成的集合称为 $X$ 上的集合系，用花体字母 $\mathscr{A,B,C...}$ 表示
5. σ域/σ代数：一种特殊的集合系 $\mathscr{F}$ ，满足以下性质
  1. $X\in\mathscr{F}$
  2. $A\in\mathscr{F}\Rightarrow A^c\in\mathscr{F}$ ，其中 $A^c$ 是集合 $A$ 的补集
  3. $A_n\in\mathscr{F},n=1,2,...\Rightarrow \bigcup_{n=1}^\infin A_n\in\mathscr{F}$
  就是说 $\sigma$ 域上的集合关于集合的补和并封闭，是一种要求很强的集合系，下图表现了不同集合系从宽松到严格的顺序
  
  我们最关注 $\sigma$ 域，因为其性质允许我们建立测度
6. 可测空间：非空集合 $X$ 和其上的一个 $\sigma$ 域放在一起组成可测空间 $(X,\mathscr{F})$
7. 生成σ域：由集合系 $\mathscr{E}$ 生成的 $σ$ 域 $\mathscr{S}$ ，是包含 $\mathscr{E}$ 的最小的 $\sigma$ 域，满足
  1. $\mathscr{S}\supset\mathscr{E}$
  2. 对任意 $\sigma$ 域 $\mathscr{S}'$ 都有 $\mathscr{S}'\supset\mathscr{E} \Rightarrow \mathscr{S}'\supset\mathscr{S}$
  这种由集合系生成的 $\sigma$ 域记作 $\sigma(\mathscr{E})$
8. 映射：设 $X$ 和 $Y$ 是任意给定的集合，若对每个 $x\in X$ ，存在唯一的 $f(x)\in Y$ 与之对应，则称 $f$ 是从 $X$ 到 $Y$ 的映射
9. 原像： $\forall B\in Y$ 集合 $B$ 在映射 $f$ 下的原像为
  $f^{-1}B := \{x:f(x)\in B\}$ $\forall \mathscr{E}\in Y$ ，集合系 $\mathscr{E}$ 在映射 $f$ 下的原像为其包含所有集合的原像的集合
  $f^{-1}\mathscr{E} := \{f^{-1}B:B\in \mathscr{F}\}$ 可证明 $Y$ 上的任何集合系 $\mathscr{E}$ 有 $\sigma(f^{-1}\mathscr{E} )=f^{-1}\sigma(\mathscr{E})$
10. 可测映射/随机元 & 使映射可测的最小σ域：给定可测空间 $(X,\mathscr{F})$ 到 $(Y,\mathscr{S})$ 以及 $X$ 到 $Y$ 的映射 $f$ ，若
  $f^{-1} \mathscr{S}\subset \mathscr{F}$ 则称 $f$ 为从 $(X,\mathscr{F})$ 到 $(Y,\mathscr{S})$ 的可测映射或随机元； $\sigma(f):=f^{-1}\mathscr{S}$ 叫做使映射 $f$ 可测的最小 $\sigma$ 域。这个东西的意义在于，假设我们在 $(X,\mathscr{F})$ 上面定义了一个测度（比如集合的大小），那么对于 $(Y,\mathscr{S})$ 中的任意元素 $y\in \mathscr{S}$ ，都能通过 $f$ 找到其在 $\mathscr{F}$ 上的原像，从而得到其对应的在 $(X,\mathscr{F})$ 上的测度值
11. 广义实数集 $\bar{R} := R \cup \{-\infin,+\infin\}$ ，并且从普通实数集生成其对应的 $\sigma$ 域 $\mathscr{B}_{\bar{R}}:=\sigma(\mathscr{B}_R,\{-\infin,+\infin\})$ （这个准确说叫 Borel 系）
12. 可测函数 & 有限可测函数/随机变量：从可测空间 $(X,\mathscr{F})$ 到 $(\bar{R},\mathscr{B}_{\bar{R}})$ 的可测映射称为 $(X,\mathscr{F})$ 上的可测函数；特别的，从可测空间 $(X,\mathscr{F})$ 到 $(R,\mathscr{B}_R)$ 的可测映射称为 $(X,\mathscr{F})$ 上的有限可测函数/随机变量。这个的意义在于把集合系上的抽象元素映射成实数了，这样就方便我们使用高数工具进行操作，这有点像矩阵论中把向量空间中一个向量转换为它在一组基下的对应的数的坐标
13. 非负集函数：给定空间 $X$ 上的集合系 $\mathscr{E}$ ，定义在 $\mathscr{E}$ 上，取值于 $[0,\infin]$ 的函数称为非负集函数，记为 $\mu,\nu,\tau...$
14. 可列可加性：设 $\mu$ 是 $\mathscr{E}$ 上的非负集函数，若对于任意可列个两两不交的集合 $A_1,A_2,...,A_n$ ，只要 $\bigcup_{n=1}^\infin A_n\in \mathscr{E}$ ，就一定有
  $\mu(\bigcup_{n=1}^\infin A_n) = \sum_{n=1}^\infin \mu(A_n)$ 则称 $\mu$ 具有可列可加性。举例来说，面积作为一种测度具有可列可加性，可以看作上式的 $\mu$ ，当我们要测量一个不规则图形面积时，可以用矩形不断对其进行分割，并且用越来越小的矩形去逼近边缘，最后把所有画出的矩形面积求和得到估计值
15. 测度：设 $\mathscr{E}$ 是 $X$ 上的集合系且 $\empty \notin \mathscr{E}$ ，若 $\mathscr{E}$ 上的非负集函数 $\mu$ 有可列可加性且满足 $\mu(\empty)=0$ ，则称之为 $\mathscr{E}$ 上的测度
  1. 若对于每个 $A\in\mathscr{E}$ 还有 $\mu(A)<\infin$ ，则称测度是有限的；
  2. 若对于每个 $A\in\mathscr{E}$ 存在满足 $\mu(A)<\infin$ 的 $\{A_n\in\mathscr{E},n=1,2,...\}$ ，则称测度是σ有限的
16. 测度空间：虽然前面在很一般的角度上定义了测度，但我们的主要目标还是讨论由 $X$ 的子集生成的某个 $\sigma$ 域 $\mathscr{F}$ 上的测度。我们把空间 $X$ ，加上由其子集生成的某个 $\sigma$ 域 $\mathscr{F}$ ，再加上 $\mathscr{F}$ 上的一个测度 $\mu$ ，三者组成的 $(X,\mathscr{F},\mu)$ 称为测度空间
  
  如果测度空间 $(X,\mathscr{F},P)$ 满足 $P (X) = 1$ ，则称它为 概率空间，对应的 $P$ 称为 概率测度， $\mathscr{F}$ 中的集合 $A$ 称为 事件，而 $P (A)$ 称为事件 $A$ 发生的 概率
17. Lp空间：设 $(X,\mathscr{F},\mu)$ 是测度空间且 $1\leq p<\infin$ ，用 $L_p(X,\mathscr{F},\mu)$ 表示 $(X,\mathscr{F},\mu)$ 上全体模 $p$ 阶可积的可测函数 $f$ 的集合，即满足
  $\int_X|f|^p d\mu<\infin$ 由于只考虑给定测度空间上的集合，故 $L_p(X,\mathscr{F},\mu)$ 简记为 $L_p$ ，其本质是一个赋范向量空间，具有以下性质
  1. 对空间中元素（即映射 $f$ ）定义了范数：范数是从指定空间到实属的映射关系，具有非负性、其次性并满足三角不等式，引入范数意味着空间具有了长度与距离的概念
  2. 具有完备性：这个概念比较绕，我们和欧拉空间做类比
    
    粗略但是直观的说，完备是指空间中没有任何遗漏的点。而想要理解 “没有遗漏的点” 这个概念需要用到距离，一个空间需要定义距离，完备才变得有意义。从实数空间入手，我们说实数空间 R 是完备的，在实数空间中，距离的定义是两元素差的绝对值，可以想想看，任何一个点在与它距离趋近为0的地方都存在一个点并且这个点是在实数空间中的，因此我们说实数空间是完备的
    
    完备性的具体定义需要借助柯西序列，请参考机器学习的数学基础（2）：赋范空间、内积空间、完备空间与希尔伯特空间
  3. $L^p$ 空间又称 Lebesgue空间，其中的函数 $f$ 都是 Lebesgue可积的，这里可参考泛函分析笔记(八)Banach 空间中的lp空间和Lebesgue空间 (勒贝格空间)
  说白了就是空间中一些具有特殊性质的测度的集合

1.2 收缩映射定理

收缩映射 Contraction Mapping：收缩映射 $T:L^p \to L^p$ 是定义在 $L_p$ 空间上的映射，满足 $\forall f,g\in T^p$ 有
$||T(f)-T(g)||_\rho \leq c ||f-g||_\rho, \space\space\space (0\leq c<1)$ 其中 $||·||_\rho$ 是 $\rho$ -范数，可以把它看作一种距离度量，也就是说原先的两个可测函数 $f, g$ 经过收缩映射后距离减小了

如果其中 $T$ 是微分算子，则称压缩映射 $T$ 是满足 Lipschitz 条件的映射
收缩映射定理：若 $T$ 是 $L^p$ 空间上的收缩映射，则方程
$\Leftrightarrow T(f) = f$ 在 $L^p$ 空间内仅有一个 $f$ 解，称之为 $L^p$ 内 $T$ 的 不动点。注意到若 $T$ 是微分算子，则上式为一个常微分方程，因此收缩映射定理常用于证明常微分方程解的存在性和唯一性。从几何意义上看， $T$ 将 $f$ 映射回自身
压缩映射原理的证明思路如下：
1. 首先任选 $f_0\in L^p$ ，然后反复使用 $T$ 进行映射得到一个无穷的序列
  $f_1 = T(f_0),\space f_2 = T(f_1),...,\space f_n = T(f_{n-1}),...$
2. 注意到由于来自压缩映射，其中任意相邻两项距离度量越来越近，即 ${f\}$ 是一个柯西序列，由于 $L^p$ 空间具有完备性，该序列必然收敛到 $L^p$ 内部，这说明不动点 $\lim_{n\to\infin}f_n$ 一定存在
3. 最后考虑 $T(f_0)$ 是否收敛回 $f_0$ 自身，这只须证明 $\lim_{n\to\infin}||f_n-f_0||=0$ 即可，我们利用范数的三角不等式，不断向 $f_n$ 和 $f_0$ 之间插入 $f_i$ ，并结合柯西序列性质进行放缩，最后即可得证不动点一定唯一，且为 $\lim_{n\to\infin}f_n=f_0$
详细证明流程可以参考压缩映射不动点定理

2. 表格型 Bellman 迭代的收敛性证明

考察 MDP 中全体 $s$ 或 $(s, a)$ 组成的空间 $X$ 及其自身组成的集合系 $\mathscr{F}=X$ ，显然其上的子集合关于集合的补和并封闭，故这也是一个 $\sigma$ 域，这样 $(X,\mathscr{F})$ 就组成测度空间，价值函数 $V (s)$ 和 $Q (s, a)$ 将其中的元素映射为实数，属于可测函数，因此 $V,Q\in L^p$
下面利用上述压缩映射原理来证明常见的两种 Bellman 迭代的收敛性，只需证明两种 Bellman 算子都是压缩映射

注意：以下分析是基于 model-based 情况的，即状态转移矩阵和奖励函数已知。对于 model-free 情况（使用 TD 方法）收敛性仍然成立，但要求估计更新步长满足随机近似条件

2.1 Bellman operator 的收敛性

先考察关于策略 $\pi$ 的 Bellman 算子 $\mathcal{B}_\pi$ ，该算子应用于 model-based 的 evaluation 方法 policy evaluation
$(\mathcal{B}_\pi U)(s) := \sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)[r(s,a,s')+\gamma U(s')]$ $\forall s,s',s''\in\mathcal{S},a\in\mathcal{A}$ ，对于任意两个价值函数 $U_1(s),U_2(s)$ ，考察映射后二者距离
$\begin{aligned} |(\mathcal{B}_\pi U_1)(s)-(\mathcal{B}_\pi U_2)(s)| &= \Big|\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\gamma[U_1(s')-U_2(s')]\Big| \\ &\leq \gamma\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\Big|U_1(s')-U_2(s')\Big| \\ &\leq \gamma\sum_{a}\pi(a|s)\sum_{s'}p(s'|s,a)\Big(\max_{s''}|U_1(s'')-U_2(s'')|\Big) \\ &= \gamma\max_{s''}|U_1(s'')-U_2(s'')| \\ &= \gamma||U_1-U_2||_\infin \\ \end{aligned}$ 注意到对于任意 $s\in\mathcal{S}$ 上式都成立，故对 $s=\argmax_{s}|(\mathcal{B}_\pi U_1)(s)-(\mathcal{B}_\pi U_2)(s)|$ 也成立，即有
$||\mathcal{B}_\pi U_1-\mathcal{B}_\pi U_2||_\infin \leq \gamma||U_1-U_2||_\infin \\$ 因此 Bellman 算子是一个压缩映射，根据收缩映射定理，policy evaluation 一定能收敛到唯一的价值函数 $V (s)$ 或 $Q (s, a)$

2.2 Bellman optimal operator 的收敛性

进一步考察 Bellman 最优算子 $\mathcal{B}^*$ ，该算子应用于 model-based 的 evaluation 方法 value iteration
$(\mathcal{B}^*U)(s,a) := r(s,a)+\gamma \sum_{s'}p(s'|s,a)\max_{a'}U(s',a')\\$ $\forall s,s',s''\in\mathcal{S},a,a',a_1',a_2'\in\mathcal{A}$ ，对于任意两个价值函数 $U_1(s,a),U_2(s,a)$ ，考察映射后二者距离
$\begin{aligned} |(\mathcal{B}^* U_1)(s,a)-(\mathcal{B}^* U_2)(s,a)| &= \Big|\gamma\sum_{s'}p(s'|s,a)[\max_{a_1'}U_1(s',a_1')-\max_{a_2'}U_2(s',a_2')]\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\Big|\max_{a_1'}U_1(s',a_1')-\max_{a_2'}U_2(s',a_2')\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\Big|\max_{a'}(U_1(s',a'))-U_2(s',a')\Big| \\ &\leq \gamma\sum_{s'}p(s'|s,a)\max_{a'}\Big|U_1(s',a')-U_2(s',a')\Big| \\ &\leq \gamma\max_{s'',a''}|U_1(s'',a'')-U_2(s'',a'')| \\ &= \gamma||U_1-U_2||_\infin \\ \end{aligned}$ 注意到对于任意 $s\in\mathcal{S},a\in\mathcal{A}$ 上式都成立，故对 $s,a=\argmax_{s,a}|(\mathcal{B}^* U_1)(s,a)-(\mathcal{B}^* U_2)(s,a)|$ 也成立，即有
$||\mathcal{B}^* U_1-\mathcal{B}^* U_2||_\infin \leq \gamma||U_1-U_2||_\infin \\$ 因此 Bellman optimal operator 也是一个压缩映射，根据收缩映射定理，value iteration 一定能收敛到唯一的最优价值函数 $V^*(s)$ 或 $Q^*(s,a)$

3. 函数近似法的收敛性问题

本段参考：CS294-112 at UC Berkeley
当使用函数近似法估计价值时，往往不会收敛，本节以 DQN 类算法中的价值网络为例进行分析，该类价值网络基于 Bellman optimal equation 进行优化，其损失函数设计为 TD error 的 L2 损失，通过优化该损失减小 TD error，使价值估计靠近 TD target。关于 DQN 论文的详解，请参考：论文理解【RL经典】 —— 【DQN】Human-level control through deep reinforcement learning

注意：以下分析是基于 model-free 情况的
现在我们要优化以 $\phi$ 参数化的 DQN 类价值网络 $V_\phi$ ，其训练过程可以看做反复执行以下两步
1. 计算样本的 TD target，即对于样本 $i$ 计算 $y_i \leftarrow \max_{a_i}(r(s_i,a_i)+\gamma \mathbb{E}[V_\phi(s_i')])$ 此步可以看做使用 Bellman optimal operator $\mathcal{B}^*$ 进行一步更新，即
  $V\leftarrow \mathcal{B^*}V$
2. 执行一步 L2 损失回归，更新网络参数 $\phi$ ，即 $\phi \leftarrow \argmin_\phi\frac{1}{2}\sum_i||V_\phi(s_i)-y_i||^2$ 注意这是一步学习过程，确定了一个参数 $\phi$ ，就唯一地确定了一个新的网络价值 $V^{'}$ ，如果价值我们的函数逼近器的假设空间为 $\Omega$ ，这一步等价于在 $\Omega$ 中找出了一个 $V^{'}$ ，即
  $\leftarrow \argmin_{V'\in\Omega}\frac{1}{2}\sum||V'(s)-(\mathcal{B^*}V)(s)||^2$ 仔细分析这一步最小二乘回归，我们知道最小二乘回归等价于做向量空间投影（可参考一文看懂最小二乘法），因此这一步可以看作在 $\Omega$ 空间中找出一个距离 $\mathcal{B^*}V$ 最近的点，不妨使用一个投影算子 $\Pi$ 来表示它
  $\Pi : \Pi V = \argmin_{V'\in\Omega}\frac{1}{2}\sum||V'(s)-V(s)||^2$
综上所述，DQN 类算法中的价值网络，其训练过程可以看做使用 $\Pi\mathcal{B}^*$ 算子进行反复迭代，即
$V\leftarrow \Pi\mathcal{B^*}V$
接下来考虑函数近似模型的表示能力，我们知道目前最强的函数近似工具，也就是神经网络，在参数量无穷的情况下可以近似任意函数，这时 $\Omega$ 空间是无限大的；但当参数有限时，无论使用什么模型，都只能表示有限大小的假设空间 $\Omega$ ，不妨使用二维空间中的一条直线来表示 $\Omega$ ，则使用 $\Pi\mathcal{B}^*$ 算子的一步更新可以表示如下

观察一下发生了什么
1. 假设神经网络随机初始化，则价值网络初始化为 $\Omega$ 上任意一点 $V$
2. 使用 $\mathcal{B}^*$ 进行一步更新，这时 $\mathcal{B}^*V$ 仍在 $L^p$ 空间内，但是不一定还在 $\Omega$ 空间中了
3. 使用 $\Pi$ 算子做一步投影，回到 $\Omega$ 空间上的 $V^{'}$
再考察一下这里的两个算子 $\mathcal{B}^*$ 和 $\Pi$
1. $\mathcal{B}^*$ ：由 2.2 节， $\mathcal{B}^*$ 关于无穷范数 $||·||_\infin$ 是压缩映射
2. $\Pi$ ：投影本质上相当于对样本的某些维度进行压缩，两个点在投影前后的距离度量一定是收缩的，如下图所示
  
  显然投影后两个样本点的欧式距离肯定是减小的， $\Pi$ 关于 2范数 $^2$ 范数是压缩映射，
两个算子单独看都能得到压缩映射，性质都很好，但是一旦把它们组合起来， $\Pi\mathcal{B}^*$ 不能关于任何范数成为压缩映射，这意味着迭代过程中，两个算子都会在各自的距离度量上将 $f, g$ 拉近，但同时很可能会在对方的距离度量上将 $f, g$ 推远，收敛性无法保证。举例来说，如下图所示，目标位置是星星处，一次迭代后得到的价值估计反而离目标更远了

每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
【韩玲】领读小组2月21日打卡文集合 9ce517ee104c
【输出者】健芳【打卡素材】对财富说是Day50【作者】［澳］奥南朵【标题】让努力看得见【字数】7931建立新信念做事情失败的原因都由我们自己无意识的旧有的信念去掌控着。故步自封，没让自己去更新迭代自己的信念。建立新的信念，相信自己的财富会越来越多。2改掉坏习惯以前的懒床、刷手机、煲剧、这些都是封锁自己思想的坏习惯，以为这样就可以让自己过得充实。其实真的不是，而是带给自己一种伤害，阻碍自己努力上进的
Python 推导式(Comprehensions) 戒灵
1,列表推导式num=[1,2,-5,10,-7,5,7,-1]filtered_and_squared=[x**2forxinnumifx>0]print(filtered_and_squared)迭代器(iterator)遍历输入序列num的每个成员x断言式判断每个成员是否大于零如果成员大于零，则被交给输出表达式，平方之后成为输出列表的成员。列表推导式被封装在一个列表中，所以很明显它能够立即生
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
高性能javascript--算法和流程控制海淀萌狗
-for,while和do-while性能相当-避免使用for-in循环，==除非遍历一个属性量未知的对象==es5:for-in遍历的对象便不局限于数组，还可以遍历对象。原因：for-in每次迭代操作会同时搜索实例或者原型属性，for-in循环的每次迭代都会产生更多开销，因此要比其他循环类型慢，一般速度为其他类型循环的1/7。因此，除非明确需要迭代一个属性数量未知的对象，否则应避免使用for-i
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
leetcode刷题day13|二叉树Part01（递归遍历、迭代遍历、统一迭代、层序遍历）小冉在学习 leetcode 算法职场和发展
递归遍历思路：使用递归的方式比较简单。1、递归函数的传参：因为最后输出一个数组，所以需要传入根节点和一个容器，本来想写数组，但发现长度不能确定，所以选择list。2、终止条件：当访问的节点为空时，return3、递归函数的逻辑：先访问一个节点，递归访问其他节点144.二叉树的前序遍历代码如下：classSolution{publicListpreorderTraversal(TreeNoderoo
设计模式 23 访问者模式 WineMonk #设计模式设计模式访问者模式
设计模式23创建型模式（5）：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式结构型模式（7）：适配器模式、桥接模式、组合模式、装饰者模式、外观模式、享元模式、代理模式行为型模式（11）：责任链模式、命令模式、解释器模式、迭代器模式、中介者模式、备忘录模式、观察者模式、状态模式、策略模式、模板方法模式、访问者模式文章目录设计模式23访问者模式（VisitorPattern）1定义2结构3
如何给QQ邮箱自动发邮件？无惧「小爱」下线！代码全公开，两步搞定 AI码上来 AI实战微信人工智能 python
前两天，搞了个微信AI小助理-小爱(AI)，爸妈玩的不亦乐乎。零风险！零费用！我把AI接入微信群，爸妈玩嗨了，附教程（下）最近一直在迭代中，挖掘小爱的无限潜力:链接丢给它，精华吐出来！微信AI小助理太强了，附完整提示词拥有一个能倾听你心声的「微信AI小助理」，是一种什么体验？小爱打工，你躺平！让「微信AI小助理」接管你的文件处理，一个字：爽！我把多模态大模型接入了「小爱」，痛快来一场「表情包斗图」
【Python基础】Python迭代器与生成器（两种强大工具）姑苏老陈 Python编程入门 python 开发语言 python迭代器与生成器
本文收录于《Python编程入门》专栏，从零基础开始，分享一些Python编程基础知识，欢迎关注，谢谢！文章目录一、前言二、迭代器2.1创建迭代器2.2自定义迭代器2.3处理大型文件三、生成器四、生成器表达式五、实际应用案例5.1数据库查询5.2网络数据流处理六、总结一、前言在Python中，迭代器与生成器是两种非常强大的工具，它们可以帮助我们有效地处理大量数据，特别是在需要逐个访问元素的情况下。
python中的迭代器有什么用 hakesashou python基础知识 python 开发语言
什么是Python迭代器？迭代器（Iterator）：迭代器可以看作是一个特殊的对象，每次调用该对象时会返回自身的下一个元素，从实现上来看，一个迭代器对象必须是定义了__iter__()方法和next()方法的对象。1、Python的Iterator对象表示的是一个数据流，可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，所以Iterator的计算是惰性的，只有在需要返回下一个数
MySQl篇（SQL - 基本介绍）（持续更新迭代） wclass-zhengge mysql sql 数据库
目录一、简介二、SQL方言（分页查询为例）1.简介2.SQL方言大比拼2.1.Oracle2.1.1.使用ROWNUM实现分页查询2.1.2.使用ROW_NUMBER()实现分页查询2.2.MySQL2.3.PostgreSQL三、语法规范四、注释五、MySQL脚本中的标点符号一、简介1、SQL是结构化查询语言（StructureQueryLanguage），专门用来操作/访问关系型数据库的通用语
OpenAI o1 的价值意义及“强化学习的Scaling Law” & Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考光剑书架上的书 ChatGPT 大数据AI人工智能计算人工智能算法机器学习
OpenAIo1的价值意义及“强化学习的ScalingLaw”蹭下热度谈谈OpenAIo1的价值意义及RL的Scalinglaw。一、OpenAIo1是大模型的巨大进步我觉得OpenAIo1是自GPT4发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT4o和o1是发展大模型不同的方向，但是o1这个方向更根本，重要性也比GPT4o这种方向要重要得多，原因下面会分析。为什
如何运用SCRM系统做好客户管理？腾迹 big data 产品运营大数据
随着互联网的更新迭代发展，大部分的企业都是有在应用SCRM系统来进行客户关系管理，丰富、完善用户标签，从而更加了解消费者所需要的产品和服务。SCRM的全称是SocialCustomerRelationshipManagement，是社会化客户关系管理的简称，主打的是以客户互动为中心，增加参与体验、互动了解，创造双向价值的工具。SCRM更加以消费者为中心，并且重点关注充分发挥每个消费者的社交价值，实
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
Java的迭代器接口 shymoy java 开发语言
文章目录是什么iterator内部方法iterabe内部方法如何实现是什么iteratorIterator是java中用于遍历集合中元素的一个接口，提供了一种通用方法来遍历集合中的元素。内部方法booleanhasNext()：检查是否还有下一个元素。如果有，返回true，否则返回false。Tnext()：返回集合中的下一个元素。voidremove()：从集合中移除最后一次调用next()返回
通过与AI代理结对编程在集成课程中促进AI辅助学习循环的方法神一样的老师论文阅读分享人工智能结对编程学习
本篇论文提出了一种新的方法论，利用人工智能（AI）技术的最新进展，为学生制定一个AI辅助的代码学习循环。这种方法在现有的学习过程中创新性地融入了结对编程，以增强学生的互动式学习体验。以下是论文的主要内容概述：摘要(Abstract)：提出了一种新方法，利用AI技术来辅助学生学习编程。方法包括将示例代码转化为脚手架代码作为练习，通过教师与AI的配对来实现。脚手架代码作为学生在硬件平台上迭代完成和调试
【60天备战软考高级系统架构设计师——第十天：软件设计与架构综合练习】冷风扇666 备战-软考系统架构架构
经过前十天的学习，我们已经了解了软件工程生命周期模型、需求分析与管理方法，以及软件设计与架构的核心内容。为了巩固这些知识点，今天我们将进行一个综合练习。前十天学习内容回顾第1-3天：软件工程概述学习了软件生命周期模型（如瀑布模型、迭代模型、敏捷模型等）、软件工程原则（如开闭原则、单一职责原则等），以及常用的工程方法。第4-6天：需求分析与管理需求分析与管理是软件开发的关键环节之一。我们掌握了需求获
Open3D 使用RANSAC分割平面今夕是何年，单目+双目计算机视觉
目录1，概述2，拟合平面3，实现过程4，主要函数：defsegment_plane(self,distance_threshold,ransac_n,num_iterations):'''5，代码实现6，结果展示1，概述随机抽样一致性算法QRANSAC(Randomsampleconsensus)是一种迭代的方法来从一系列包含有离异值的数据中计算数学模型参数的方法。RANSAC算法本质上由两步组成
增强for循环 (for each循环)详解 blaizeer Java java
“我们仍需共生命的慷慨与繁华相爱，即使岁月以刻薄和荒芜相欺”文章目录前言文章有误敬请斧正不胜感恩！增强for循环1.遍历数组2.遍历字符串数组3.遍历集合（如List）4.遍历Set集合5.遍历Map的键值对6.遍历二维数组7.遍历对象数组总结前言写在开始：增强for循环(也称foreach循环)是迭代器遍历方法的一个“简化版”，是JDK1.5以后出来的一个高级for循环，专门用来遍历数组和集合。
弦截法-C++【可直接复制粘贴/欢迎评论点赞】月白风清江有声数值计算方法与算法 c++算法开发语言
弦截法（也称为弦切法）在C++中实现时，是一种用于求解非线性方程根的迭代方法。下面从背景、优点和缺点三个方面进行阐述：背景弦截法是基于牛顿迭代法的一种改进方法，它避免了牛顿迭代法中直接求导的复杂性。在牛顿迭代法中，每一步迭代都需要计算函数的导数，这在函数形式复杂或导数不易求解时变得尤为困难。而弦截法则利用函数值的差商来近似导数的倒数，从而简化了计算过程。在C++中实现弦截法，通常是通过定义待求解的
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
[AI资讯·0605] GLM-4系列开源模型，OpenAI安全疑云，ARM推出终端计算子系统，猿辅导大模型备案…… 老牛同学 AI 人工智能 ai 大模型 AI资讯
AI资讯1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？AI「末日」突然来临，公司同事集体变蠢！只因四大聊天机器人同时宕机OpenAI员工们开始反抗了！AI手机PC大爆发，Arm从软硬件到生态发力，打造行业AI百宝箱GLM-4开源版本：超越Llama3，多模态比肩GPT4V，MaaS平台也大升级猿辅导竟然是一家AI公司？大模型全家桶曝光｜甲子光年FineChatBI，帆软在AI方
一张图详解开源监控夜莺（Nightingale）的架构夜莺开源监控开源架构夜莺监控 Nightingale 开源夜莺
夜莺监控是一款开源云原生观测分析工具，采用All-in-One的设计理念，集数据采集、可视化、监控告警、数据分析于一体，与云原生生态紧密集成，提供开箱即用的企业级监控分析和告警能力。夜莺于2020年3月20日，在github上发布v1版本，已累计迭代100多个版本。夜莺最初由滴滴开发和开源，并于2022年5月11日，捐赠予中国计算机学会开源发展委员会（CCFODC），为CCFODC成立后接受捐赠的
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
反思的魔力：用语言的力量强化AI智能体步子哥人工智能机器学习
在浩瀚的代码海洋中，AI智能体就像初出茅庐的航海家，渴望探索未知的宝藏。然而，面对复杂的编程任务，他们常常迷失方向。今天，就让我们跟随“反思”的灯塔，见证AI智能体如何通过语言的力量，点亮智慧的明灯，成为代码世界的征服者！智能体的困境近年来，大型语言模型（LLM）在与外部环境（如游戏、编译器、API）交互的领域中大放异彩，化身为目标驱动的智能体。然而，传统的强化学习方法如同一位严苛的训练师，需要大
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

强化学习拾遗 —— 表格型方法和函数近似方法中 Bellman 迭代的收敛性分析

文章目录

1. 基础概念

1.1 测度论概念补充

1.2 收缩映射定理

2. 表格型 Bellman 迭代的收敛性证明

2.1 Bellman operator 的收敛性

2.2 Bellman optimal operator 的收敛性

3. 函数近似法的收敛性问题

你可能感兴趣的:(#,强化学习,Bellman算子,Bellman迭代,收敛性,Bellman)