努力发光的程序媛

协方差矩阵自适应调整的进化策略(CMA-ES)

关于CMA-ES，其中 CMA 为协方差矩阵自适应(Covariance Matrix Adaptation)，而进化策略（Evolution strategies, ES）是一种无梯度随机优化算法。CMA-ES 是一种随机或随机化方法，用于非线性、非凸函数的实参数（连续域）优化。

作者Nikolaus Hansen于2016年在Machine Learning上发布了关于CMA-ES详细教学。

原文链接：The CMA Evolution Strategy: A Tutorial
CMA-ES讲座Slide：cma-es.key (polytechnique.fr)
更多教学内容查看：Talks (seminars, tutorials,… most including slides)
CMA-ES源码：https://cma-es.github.io
更多内容请查看作者主页：Homepage of Nikolaus Hansen (polytechnique.fr)

CMA-ES

1. 前言
- 1.1 黑盒优化
- 1.2 Why Evolution Strategies?
- 1.3 ES进化策略的基本思想
- 1.4 进化策略的分类
- - 1.4.1 不可重组的进化策略
  - 1.4.2 可重组的进化策略
2. 准备知识
- 2.1 正定矩阵的特征分解
- 2.2 多元正态分布
- 2.3 黑箱随机优化
- 2.4 Hessian矩阵和协方差矩阵
3. CMA-ES理论
- 3.1 采样
- 3.2 选择与重组：更新均值
- 3.3 协方差矩阵自适应
- - 3.3.1 估计协方差矩阵
  - 3.3.2 协方差矩阵的Rank- $\mathbf{\mu}$ 更新
  - 3.3.3 协方差矩阵的Rank-one更新
  - 3.3.4 协方差矩阵结合
- 3.4 步长控制

1. 前言

1.1 黑盒优化

优化就是计算一个函数的最大值或者最小值的问题。假设函数f(x)的具体表达式是未知的，把它看作一个黑盒函数，我们只能通过向盒子输入得到输出。它可能存在局部最小点和全局最小点，很显然进行坐标点穷举然后对比出最小值的方法是不可行的，这时就需要我们根据策略一步步地向最小值逼近，不同策略就对应着不同的优化算法。

在机器学习的过程中，搭建的模型并不是一开始就能根据输入获得我们想要的结果，所以就需要对我们的模型进行优化，以使误差函数值（loss）达到最小或者适应度函数值（fitness）达到最大。

所谓的黑盒优化就是指寻找黑盒函数的全局最优解。非形式化的来说，一个黑盒函数F可理解为从输入 $X (x 1, x 2, x 3...)$ 到输出的一个映射。但是映射关系F的具体表达式及梯度信息均未知，我们只能通过不断地将数据输入到黑盒函数中然后通过得到的输出值来猜测黑盒函数的结构信息。下图表示一个黑盒问题的映射关系。

1.2 Why Evolution Strategies?

ES是一种无梯度随机优化算法，具有较好的并行扩展性(scalability), 不变性(invariance under some transformations), 和较为充分的理论分析，在中等规模（变量个数在3~300范围内）的复杂优化问题上具有较好的效果。

这里不得不提一下 OpenAI上的这篇文章Evolution Strategies as a Scalable Alternative to Reinforcement Learning 由于具有良好的并行性，ES用很短的时间完成了模型的训练。这篇文章所引起对ES的关注可能比其他论文加起来都多。

1.3 ES进化策略的基本思想

进化策略(Evolution Strategies, ES)做黑箱优化（Black box optimization）的主要思路，即通过反复迭代调整一个正态分布进行搜索。进化策略中迭代的正态分布一般写成 $N({{m}_{t}},\sigma _{t}^{2}{{C}_{t}})$ ,包含三个参数 ${{m}_{t}},{{\sigma }_{t}},{{C}_{t}}$ ,而正态分布参数所起的作用为：

• ${{m}_{t}}$ 均值，决定分布的中心位置。在算法中，决定搜索区域；

• ${{\sigma }_{t}}$ 步长参数，决定分布的整体方差(global variance)。在算法中，决定搜索范围的大小和强度。

• ${{C}_{t}}$ 协方差矩阵，决定分布的形状。在算法中决定变量之间的依赖关系，以及搜索方向之间的相对尺度(scale).

ES算法设计的核心就是如何对这些参数进行调整，尤其是步长参数和协方差矩阵的调整，以达到尽可能好的搜索效果。对这些参数的调整在ES算法的收敛速率方面有非常重要的影响。一般的，ES调整参数的基本思路是，调整参数使得产生好解的概率逐渐增大（沿好的搜索方向进行搜索的概率增大）。

一般的，进化策略在搜索中反复迭代以下步骤：

Sampling：采样产生一个或者一组候选解(candidate solutions);
Evaluation：对新产生的解计算对应的目标函数值；
Selection：依据目标函数值选择部分或者全部解；
Update：使用选择的解更新分布参数.

在进化算法中，一次完整的迭代称为一代（generation），一个候选解称为一个个体，计算目标函数值的过程称为评估。每次迭代产生的新的候选解称为子代（offspring），通过选择得到的用于产生子代的解称为父代（parent）。

CMA-ES 调整参数的基本思路是，调整参数使得产生好解的概率逐渐增大（沿好的搜索方向进行搜索的概率增大）。

图1：CMA-ES的进化过程

1.4 进化策略的分类

1.4.1 不可重组的进化策略

ES中，一个新解是通过在 $N({{m}_{t}},\sigma _{t}^{2}{{C}_{t}})$ 采样产生的。一般的，一个新解可以写成 $x={{m}_{t}}+{{\sigma }_{t}}y,y\sim N(0,{{C}_{t}})$

根据产生解和选择解的方式的不同，算法可以分为不同的类型。主要包含以下三种类型：

(1+1)-ES：每次迭代只产生一个新解，通过和父代进行比较，较好的一个成为下一次迭代的父代，否则直接舍去或淘汰，并相应地调整分布参数。

Step1: 选择一个初始解x和变异强度 $\sigma$
Step2: 通过变异创建新的解：y=x+N(0, $\sigma$ )
Step3：如果f(y) Step4: 如果满足终止条件，算法停止，否则执行Step2

形式简单，更易于理论分析；
性能良好，某些变异个体代表精英；
集中在局部搜索；

$\mathbf{(\mu + \lambda)}$ -ES：引入种群的方法，使用多个父代和子代，初始化 $\mu$ 个初始解，通过初始解和变异强度 $\sigma$ 创建 $\lambda$ 个变异解，在子代中选择最优个体与父代合并

Step1: 初始化具有 $\mu$ 个解的初始种群和变异强度 $\sigma$
Step2：创建 $\lambda$ 个变异解，生成子代时从 $\mu$ 个父代中随机选择:y^(j)=x⁽ⁱ⁾+N(0, $\sigma$ )
Step3: 将父代与子代合并形成一个新的种群集合P，在P中选择最优的 $\mu$ 个解，以确保种群大小不变。
$P=\left( \cup _{j=1}^{\lambda }\left\{ {{y}^{(j)}} \right\} \right)\cup \left( \cup _{i=1}^{\mu }\left\{ {{x}^{(i)}} \right\} \right)$
Step4: 如果满足终止条件，算法停止，否则执行Step2

引入种群的思想，易于并行化；
围绕最优点进行搜索，可能会长时间陷入某个局部范围；
当前主要用于多目标优化;

注： $(\mu + \lambda)$ -ES和(1+1)-ES 被称为精英算法，指算法集中在当前所找到的最优解附近进行搜索。

$\mathbf{(\mu,\lambda)}$ -ES: 每次迭代产生 $\lambda$ 个新解，其中较好的 $\mu$ 个成为下一次迭代的父代，其他的直接舍去，并相应的调整分布参数。

所有解都只存活一代，避免长时间陷入某个范围；
$(\mu,\lambda)$ -ES每次只保留产生的最好的解，这种常用于理论分析。

该算法包含两种变体：

(1) 选择后代中最好的一个作为分布均值

$m\leftarrow \arg {{\min }_{{{x}_{i}}}}f({{x}_{i}})$

(2) 以最佳µ个子代的加权平均值作为分布均值(CMA采用的策略)

$m\leftarrow \sum\limits_{i=1}^{\mu }{{{w}_{i}}}{{x}_{i:\lambda }}$

1.4.2 可重组的进化策略

在可重组进化策略中，首先选择一组父代个体进行重组以寻找一个新解，之后对该解采用之前介绍的变异操作。重组时并不是选择两个父代或所有父代，而是随机选择 $\rho \in [1,\mu ]$ 个父代，当 $\rho =1$ 时说明没有重组。重组方式主要有两种：中间和离散。在中间重组算子中$\rho $个选择的平均解向量计算如下：

$y=\frac{1}{\rho }\sum\limits_{i=1}^{\rho }{{{x}^{(i)}}}$

可重组ES： $(\mu /\rho +\lambda )-\text{ES}$

Step1:初始化具有μ个解${{x}^{(i)}},i=1,2,\ldots ,\mu $的初始种群，和变异强度σ

Step2:创建λ个变异解，每个解使用从μ个父代中随机选择 $\rho$ 个按如下方式：

通过 $\rho$ 个父代个体的中间重组或离散重组，计算重组解y
对重组解进行变异： ${{y}^{(j)}}={{y}^{(i)}}+N(0,\sigma )$

Step3:将父代和子代合并成一个新的父代种群P，从P中选择最好的μ个解，以保证种群大小不变:
$P=\left( \cup _{j=1}^{\lambda }\left\{ {{y}^{(j)}} \right\} \right)\cup \left( \cup _{i=1}^{\mu }\left\{ {{x}^{(i)}} \right\} \right)$

Step4:如果满足终止条件，算法停止，否则执行Step2。

而对于 $(\mu /\rho ,\lambda )-\text{ES}$ 中，在上述算法的Step3中，只使用子代种群来创建新种群。

2. 准备知识

2.1 正定矩阵的特征分解

对于任意一个正定矩阵 $C\in {{R}^{n\times n}}$ ，都有特征向量的标准正交基 $B={{[{{b}_{1}},\ldots ,{{b}_{n}}]}^{T}}$ 其对应的特征值为 $d_{1}^{2},\ldots ,d_{n}^{2}>0$ ，也就是说对于每个 $b_{i}$ 都有 $C{{b}_{i}}=d_{i}^{2}{{b}_{i}}$ ，C的正交分解为： $\text{C=B}{{\text{D}}^{\text{2}}}{{\text{B}}^{\text{T}}}$ ，其中B是正交矩阵，满足 ${{B}^{T}}B=B{{B}^{T}}=I$ , $B$ 的列向量构成一个标准正交基的特征向量， $D^{2}$ 是对角矩阵，其主对角元素为矩阵C的特征值。

$\left. {{\text{C}}^{-1}}={{\left( \text{B}{{\text{D}}^{2}}{{\text{B}}^{\text{T}}} \right)}^{-1}}={{\text{B}}^{\text{T}}}^{-1}{{\text{D}}^{-2}}{{\text{B}}^{-1}}=\text{B}{{\text{D}}^{-2}}{{\text{B}}^{\text{T}}}=\text{B}\left[ \begin{matrix} \frac{1}{d_{1}^{2}} & \cdots & \cdots & \cdots \\\vdots & \frac{1}{d_{2}^{2}} & \cdots & \cdots \\ \vdots & \vdots & \ddots & \vdots \\\vdots & \vdots & \cdots & \frac{1}{d_{n}^{2}} \\\end{matrix} \right. \right]{{\text{B}}^{\text{T}}}$

${{C}^{\frac{1}{2}}}=BD{{B}^{T}}$

${{C}^{-\frac{1}{2}}}=B{{D}^{-1}}{{B}^{T}}=B\text{diag}(\frac{1}{{{d}_{1}}},\cdots ,\frac{1}{{{d}_{n}}}){{B}^{T}}$

其中 ${{\text{D}}^{\text{2}}}\text{=DD=diag}{{({{\text{d}}_{\text{1}}},\ldots \ldots ,{{\text{d}}_{\text{n}}})}^{\text{2}}}\text{=diag}(\text{d}_{\text{1}}^{\text{2}},\ldots \ldots ,\text{d}_{\text{n}}^{\text{2}})$ , $d_{i}$ 是特征值的平方根,协方差矩阵是半正定的矩阵。

2.2 多元正态分布

多元正态分布N(m, C)，其中m是均值，C是协方差。

对于一个二维向量x和一个正定实对称矩阵C，方程 $x^{T}Cx = D$ ,其中D是常量，描述了一个中心在原点的椭圆。中心在原点的椭圆协方差矩阵的几何解释如下图：椭圆的主轴对应协方差的特征向量，主轴长度对应协方差的特征值的大小。

特征分解： $\text{C=B}{{\text{D}}^{\text{2}}}{{\text{B}}^{\text{T}}}$

如果 $\text{D=}\delta \text{I}$ ，此时如下图左所示为一个圆；如果B=I， $C = D^{2}$ ，此时如图中间所示，进行了一定程度的拉伸，椭圆的主轴与坐标轴垂直；右图进行了一定方向的旋转，更加接近于最优解的方向。

图2：椭圆体描绘了不同正态分布的等密度线

正态分布N(m,C)可以写成以下形式：

$\begin{aligned} \mathcal{N}(\boldsymbol{m},\boldsymbol{C})& \thicksim m+\mathcal{N}(0,C) \\ &\sim m+C^{\frac12}\mathcal{N}(0,\mathbf{I}) \\ &\sim m+BD\underbrace{B^{\mathsf{T}}\mathcal{N}(\mathbf{0},\mathbf{l})}_{\sim\mathcal{N}(\mathbf{0},\mathbf{l})} \\ &\sim m+B\underbrace{DN(0,\mathbf{I})}_{\sim\mathcal{N}(\mathbf{0},\mathbf{D}^2)}, \end{aligned}$

2.3 黑箱随机优化

考虑一个黑箱搜索情景，想要最小化代价函数，目标是寻找一个或者多个候选解x,使函数f(x)尽可能的小。而黑箱搜索所能提供的信息只有函数f(x)。搜索点可以自由的选择,但是同时意味着大的搜索信息量。

$\begin{matrix}f\colon\mathbb{R}^n\to\mathbb{R}\\x\mapsto f(x)\end{matrix}$

一个随机优化的流程如下：

初始化分布参数 $\theta$
迭代次数g: 0,1,2,…
从分布中采样 $\lambda$ 个独立的点 $P\left( x|\theta^{(g)} \right) \rightarrow x_{1},{\ldots,x}_{\lambda}$
利用f(x)评估样本 $x_{1},{\ldots,x}_{\lambda}$
更新参数 ${{\theta }^{(g+1)}}={{F}_{\theta }}({{\theta }^{(g)}},({{x}_{1}},f({{x}_{1}})),\ldots ,({{x}_{\lambda }},f({{x}_{\lambda }})))$
中断条件满足，结束

在CMA进化算法中，分布函数P是一个多元正态分布。在给定均值和协方差后，正态分布具有最大的熵。

2.4 Hessian矩阵和协方差矩阵

一个凸二次目标函数 ${{f}_{H}}:x\to \frac{1}{2}{{x}^{\text{T}}}Hx$ , 其中，H是Hessian矩阵为正定矩阵，简单理解为二阶偏导数组成的方阵，形式如下:

$\mathrm{H(f)=}\begin{bmatrix}\frac{\partial^2f}{\partial x_1^2}&\frac{\partial^2f}{\partial x_1\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_1\partial x_n}\\\frac{\partial^2f}{\partial x_2\partial x_1}&\frac{\partial^2f}{\partial x_2^2}&\cdots&\frac{\partial^2f}{\partial x_2\partial x_n}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial^2f}{\partial x_n\partial x_1}&\frac{\partial^2f}{\partial x_n\partial x_2}&\cdots&\frac{\partial^2f}{\partial x_n^2}\end{bmatrix}$

在我们搜索的分布函数正态分布N(m, C)中,C与H有相近的关系。前面推导中: ${{\text{B}}^{\text{T}}}{{\text{C}}^{-1}}\text{B}={{\text{D}}^{2}},{{\text{D}}^{2}}$ 是个对角阵,假如H=C=I, ${{f}_{H}}$ 等同于优化函数 ${{f}_{H}}:x\to \frac{1}{2}{{x}^{\text{T}}}Hx$ ，设置 $C^{- 1} = H$ ,在凸二次规划，设置搜索分布的协方差矩阵等于Hession矩阵的逆矩阵等同于把一个椭球函数缩放到一个球面上。因此认为协方差矩阵优化等同于Hessian矩阵逆矩阵的优化。进一步选择协方差矩阵对于搜索空间是等价的，因为对于所有满秩的n阶矩阵A，我们都能找到一个正定Hession矩阵。

$\frac{1}{2}{{\left( \text{Ax} \right)}^{\text{T}}}\text{Ax}=\frac{1}{2}{{\text{x}}^{\text{T}}}{{\text{A}}^{\text{T}}}\text{Ax}=\frac{1}{2}{{\text{x}}^{\text{T}}}\text{Hx}$

3. CMA-ES理论

3.1 采样

CMA-ES 算法的基本特点有：

无梯度优化，不使用梯度信息。
局部搜索中无梯度算法通常比梯度算法慢，通常需要 O(n) 倍的评估。
在复杂优化问题如 $n o n - se p a r ab l e, i ll - co n d i t i o n e d, orr ugg e d / m u lt i - m o d a l$ 上表现良好。

CMA-ES作为一种随机搜索算法是通过运用高斯正态分布随机产生 $\lambda$ 个样本点作为优化过程中的初始种群。首先生成一组多元正态分布 $N\left( {{m}^{(g)}},{{C}^{(g)}} \right)$ ，对其进行线性变化转成标准正态分布的一个变形：

$\begin{aligned} N\big(m^{(g)},C^{(g)}\big)& \sim m^{(g)}+N\Big(0,C^{(g)}\Big) \\ &\sim m^{(g)}+C^{\frac{1}{2}}N(0,I) \\ &\sim m^{(g)}+BDB^{T}N(0,I) \\ &\sim m^{(g)}+BDN(0,I) \end{aligned}$

得到粒子采样的基本公式为： $x_{k}^{(g+1)}\sim{{m}^{(g)}}+{{\sigma }^{(g)}}N\left( 0,{{C}^{(g)}} \right),k=1,\ldots ,\lambda$

进一步可以得到粒子采样的展开式为： ${{x}^{(g+1)}}+{{\sigma }^{(g)}}BDN(0,I),k=1,\ldots ,\lambda$
其中 $x_{k}^{(g+1)}\in {{R}^{n}}$ 是第g+1代的第k个子代（搜索点）， ${{m}^{(g)}}\in {{R}^{n}}$ 表示均值，是第g代搜索分布的中心位置 (也称为期望）， ${{\sigma }^{(g)}}\in R$ 是第g代的全局步长， ${{C}^{(g)}}\in {{R}^{n\times n}}$ 表示第g代的协方差矩阵, $\lambda$ ≥2是样本大小（种群大小）

从粒子采样的基本公式可以看出，CMA-ES 算法的种群突变主要是通过控制均值m，步长 $\sigma$ 以及协方差矩阵C实现的，因此，这三个参数是决定算法性能好坏的重要因素。

3.2 选择与重组：更新均值

均值m^(g+1)通过采用数据 $\text{x}_{\text{1}}^{(\text{g+1})},\ldots \ldots ,\text{x}_{\lambda }^{(\text{g+1})}$ 的加权均值来更新。上面的公式中，从λ个后代中选取μ个权重最大的作为更新均值的样本数据。

$\begin{matrix} {{m}^{(g+1)}} & = & \sum\limits_{i=1}^{\mu }{{{w}_{i}}}\mathbf{x}_{i:\lambda }^{(g+1)} \\\end{matrix}$
$\sum_{i=1}^{\mu}w_i=1,\quad w_1\geq w_2\geq\cdots\geq w_{\mu}>0$

后代方差有效性选择的数量 $\mu_{\text{eff}}$ 计算 $\leq \mu_{\text{eff}} \leq \mu)$ ，通常 ${{\mu }_{\text{eff}}}\approx \mu /4$ 是一个合理的值。
均值 ${{m}^{(g+1)}}$ 的更新公式为： ${{\text{m}}^{(\text{g+1})}}\text{=}{{\text{m}}^{(\text{g})}}\text{+}{{\text{c}}_{\text{m}}}\sum\limits_{\text{i=1}}^{\mu }{{{\omega }_{\text{i}}}}\left( \text{x}_{\text{i}:\lambda }^{(\text{g+1})}\text{-}{{\text{m}}^{(\text{g})}} \right)$

3.3 协方差矩阵自适应

3.3.1 估计协方差矩阵

在整个算法的更新机制中协方差矩阵C的更新是至关重要的，接下来看一下协方差矩阵的更新。在最初估计协方差的时候，假设总体包含足够多的可以用于准确估计协方差矩阵的信息，为了方便，我们假定步长 $\sigma^{(g)}$ =1,可以根据粒子采样的基本公式估计原始协方差矩阵，得到经验协方差矩阵为：
$C_{emp}^{(g+1)}=\frac{1}{\lambda -1}\sum\limits_{i=1}^{\lambda }{\left( x_{i}^{(g+1)}-\frac{1}{\lambda }\sum\limits_{j=1}^{\lambda }{x_{j}^{(g+1)}} \right)}{{\left( x_{i}^{(g+1)}-\frac{1}{\lambda }\sum\limits_{j=1}^{\lambda }{x_{j}^{(g+1)}} \right)}^{T}}$

经验协方差矩阵 $C_{\text{emp}}^{(g + 1)}$ 是协方差矩阵 $C^{(g)}$ 的无偏估计,其中经验协方差的无偏估计量为1/ $\lambda$ -1，现考虑一种不同的方式获得 $C^{(g)}$ 的估计量。

$C_{\lambda }^{(g+1)}=\frac{1}{\lambda }\sum\limits_{i=1}^{\lambda }{\left( x_{i}^{(g+1)}-{{m}^{(g)}} \right)}{{\left( x_{i}^{(g+1)}-{{m}^{(g)}} \right)}^{T}}$

协方差矩阵 $C_{\lambda}^{(g + 1)}$ 也是协方差矩阵 $C^{(g)}$ 的无偏估计。上述两式的显著差异主要在于参考均值的不同，对于 $C_{\text{emp}}^{(g + 1)}$ 来说，它是使用采样点 ${x_{i}}^{(g + 1)}$ 来进行估计，而对于 $C_{\lambda}^{(g + 1)}$ 来说，它使用的是采样分布的均值 $m^{(g)}$ 进行估计的。

可以根据以上式子重新估计协方差矩阵，为了得到更好的协方差矩阵，可使用加权选择机制进行更新，得到如下：

$\mathbf{C}_{\mu}^{(g+1)}=\sum_{i=1}^{\mu}w_{i}\left(x_{i,\lambda}^{(g+1)}-m^{(g)}\right)\biggl(x_{i,\lambda}^{(g+1)}-m^{(g)}\biggr)^{\mathsf{T}}$

我们将更新后的协方差矩阵与多元正态算法EMNA估计进行比较，而EMNA中的协方差矩阵类似于如下：

$\mathbf{C}_{\text{EMN}{{\text{A}}_{global}}}^{(g+1)}=\frac{1}{\mu }\sum\limits_{i=1}^{\mu }{\left( x_{i:\lambda }^{(g+1)}-{{m}^{(g+1)}} \right)}{{\left( x_{i:\lambda }^{(g+1)}-{{m}^{(g+1)}} \right)}^{T}}$

图3：椭圆体描绘了不同正态分布的等密度线

以上是两种协方差矩阵更新的可视化图，等值线表示策略应向右上方移动。左侧：λ=150 N(0,I)分布点的样本。中间：µ=50个选候样本点，用于确定估算方程的条目。右侧：搜索下一代（实心椭球）的分布。

3.3.2 协方差矩阵的Rank- $\mathbf{\mu}$ 更新

上面提出了一个最初的协方差矩阵估计, 但仍然不能得到一个特别好的协方差矩阵，为了得到更好的协方差矩阵，可以利用之前多代的信息进行补偿。例如，在足够多的代数之后, 估计协方差矩阵的均值为：

${{C}^{(g+1)}}=\frac{1}{g+1}\sum\limits_{i=0}^{g}{\frac{1}{{{\sigma }^{{{(i)}^{2}}}}}}C_{\mu }^{(i+1)}$

此时是一个可靠的估计, 为了比较不同代的，合并不同的 $\sigma^{(i)}$ 。在上式中所有生成步骤的权重相同，为了给近几代分配更高的权重，引入了指数平滑。令初始矩阵 $C^{(0)} = I$ 则矩阵写为：

${{C}^{(g+1)}}=\quad (1-{{c}_{\mu }}){{\mathbf{C}}^{(g)}}+{{c}_{\mu }}\frac{1}{{{\sigma }^{(g)}}^{2}}\mathbf{C}_{\mu }^{(g+1)}$

其中: 0≤ $c_{\mu}$ ≤1,是协方差矩阵C的学习率

(1)如果 $c_{\mu}$ =1,则没有保留之前的信息，此时 ${{C}^{(g+1)}}=\frac{1}{{{\sigma }^{{{(g)}^{2}}}}}C_{\mu }^{(g+1)}$

(2)如果 $c_{\mu}$ =0,则没有发生学习，此时 ${{C}^{(g+1)}}={{C}^{(0)}}$

一般地，另 ${{c}_{\mu }}\approx \min (1,{{\mu }_{\text{eff}}}/{{n}^{2}})$ 是比较合理的，其中 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{{m}^{(g)}})/{{\sigma }^{(g)}}$ ， $z_{i:\lambda }^{(g+1)}={{C}^{{{(g)}^{-1/2}}}}y_{i:\lambda }^{(g+1)}$ ，由于上式中的外部乘积之和的秩为min( $\mu$ ,n), 所以此时的更新方式称为协方差矩阵秩 $\mu$ 更新。

最后，我们将上式推广到 $\lambda$ 权重值，这些值既不需要和为1，也不再是非负。

$\begin{aligned}C^{(g+1)}&=(1-c_\mu\sum w_i)\mathbf{C}^{(g)}+c_\mu\sum_{i=1}^\lambda w_i\mathbf{y}_{i.\lambda}^{(g+1)}\mathbf{y}_{i.\lambda}^{(g+1)^\intercal}\\\\&=\mathbf{C}^{(g)1/2}\bigg(\mathbf{I}+c_\mu\sum_{i=1}^\lambda w_i\left(\mathbf{z}_{i.\lambda}^{(g+1)}\mathbf{z}_{i.\lambda}^{(g+1)\intercal}-\mathbf{I}\right)\bigg)\mathbf{C}^{(g)1/2}\end{aligned}$

其中 ${{w}_{1}}\ge \cdots \ge {{w}_{\mu }}>0\ge {{w}_{\mu +1}}\ge {{w}_{\lambda }}$ ，并且通常 $\sum\limits_{i=1}^{\mu }{{{w}_{i}}}=1$ ， $\sum\limits_{i=1}^{\lambda }{{{w}_{i}}}\approx 0$

3.3.3 协方差矩阵的Rank-one更新

之前使用所有选定的搜索步生成协方差矩阵, 现在使用一个选定的搜索步在生成序列中重复更新协方差矩阵。首先, 给出一组向量 ${{y}_{1}},\cdots ,{{y}_{g}}\in {{R}^{n}},{{y}_{g}}\ge n$ 令N(0,I)表示独立的正态分布随机数，则

$\mathcal{N}(0,1){{y}_{1}}+\cdots +\mathcal{N}(0,1){{y}_{g}}\sim\mathcal{N}\left( 0,\sum\limits_{i=1}^{{{g}_{{}}}}{{{y}_{i}}}y_{i}^{T} \right)$

令上式协方差矩阵公式的和仅由一个被加数组成，将 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{{m}^{(g)}})/{{\sigma }^{(g)}}$ 代入得到：

${{\mathbf{C}}^{(g+1)}}=(1-{{c}_{1}}){{\mathbf{C}}^{(g)}}+{{c}_{1}}y_{{}}^{(g+1)}y_{{}}^{(g+1)T}$

式子右边的加数和的秩为1 ，并把最大似然添加到协方差矩阵 $C^{(g)}$ 中, 因此在下一代产生 $y^{(g + 1)}$ 的概率变大了。使用选定的步骤 $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{{m}^{(g)}})/{{\sigma }^{(g)}}$ 去更新协方差矩阵，因为 $y{{y}^{T}}=-y{{(-y)}^{T}}$ ，所以相关步的符号与协方差矩阵的更新无关, 也就是说,在计算协方差矩阵时会丢失符号信息。为了引入符号信息，构建了演化路径。演化路径是一系列连续代的变异步长之和，这个和叫做累积，利用演化路径可有效的去除随机化。要构建演化路径，可以忽略步长。例如，可以通过求和来构建三个搜索步的演化路径

$\frac{{{m}^{(g+1)}}-{{m}^{(g)}}}{{{\sigma }^{(g)}}}+\frac{{{m}^{(g)}}-{{m}^{(g-1)}}}{{{\sigma }^{(g-1)}}}+\frac{{{m}^{(g-1)}}-{{m}^{(g-2)}}}{{{\sigma }^{(g-2)}}}$

在实践中，为了构造演化路径 ${{p}_{\text{c}}}\in {{\mathbb{R}}^{n}}$ ，我们使用指数平滑，并且从 $p_{\text{c}}^{(0)}=0$ 开始，则有如下：

$p_{\text{c}}^{(g+1)}=(1-{{c}_{\text{c}}})p_{\text{c}}^{(g)}+\sqrt{{{c}_{\text{c}}}(2-{{c}_{\text{c}}}){{\mu }_{\text{eff}}}}\frac{{{m}^{(g+1)}}-{{m}^{(g)}}}{{{c}_{\text{m}}}{{\sigma }^{(g)}}}$

它描述了分布均值的移动，并且将每次迭代中移动方向 $\frac{{{m}^{(g+1)}}-{{m}^{(g)}}}{{{\sigma }^{(g)}}}$ 做加权平均，使得这些方向中相反的方向分量相互抵消，相同的分量则进行叠加。

这类似于神经网络优化中常用的 Momentum。在神经网络中 momentum 起什么作用呢？因此，进化路径代表了最好的搜索方向之一。

当 $c_{c} = 1$ 和 $\mu_{\text{eff}} = 1$ 时，上式变为： $p_{c}^{(g+1)}=\frac{x_{i:\lambda }^{(g+1)}-{{m}^{(g)}}}{{{\sigma }^{(g)}}}$ ，此时利用演化路径更新协方差矩阵C的秩1公式为：

${{C}^{(g+1)}}=(1-{{c}_{1}}){{C}^{(g)}}+{{c}_{1}}p_{\text{c}}^{(g+1)}p_{\text{c}}^{(g+1)T}$

注：这里面的系数因子是按照如下方式设计

• 因子 $\mu_{\omega} = \frac{1}{\sum_{i = 1}^{\mu}{\omega_{i}}^{2}}$ 的设计是根据 $\sqrt{\mu_{\omega}}\frac{m_{t - 1} - m_{t}}{\sigma_{t}}\sim N(0,C_{t})$ ，这是因为 $\sqrt{\mu_{\omega}}\frac{m_{t - 1} - m_{t}}{\sigma_{t}} = \sqrt{\mu_{\omega}}\sum_{i = 1}^{\mu}{\omega_{i}y_{i:\lambda}}$ ，因此可以看成是一个从上述分布采样得到的随机向量（确切的说，如果 ${{x}_{i:\lambda }}$ 是随机选择的）

• 因子 $\sqrt{c(2-c)}$ 的设计原理是 ${{(1-c)}^{2}}+{{(\sqrt{c(2-c)})}^{2}}=1$ ，这两条被称为平稳性条件，使得 $p_{\text{c}}^{(g+1)}$ 本身看起来像一个从当前分布 $N(0,C_{t})$ 产生的搜索方向 $p_{\text{c}}^{(g+1)}$ ∼ $N(0,C_{t})$ 。所以 $p_{\text{c}}^{(g+1)}$ 像一个mutation一样用来更新协方差矩阵。

• 变化率/学习率c的设计原理是 ${{c}^{-1}}\propto n$ ，即学习率与所调整的变量自由度（参数个数）成反比。

3.3.4 协方差矩阵结合

将以上协方差矩阵秩 $\mu$ 与秩1结合得到更新后的组合如下：

$\begin{array}{rcl}\mathbf{C}^{(g+1)}&=&\underbrace{(1-c_1-c_\mu\sum_{\mu}w_j)}_{\text{can be close or eqnal to }0}\mathbf{C}^{(g)}+c_1\underbrace{p_{\mathbf{c}}^{(g+1)}p_{\mathbf{c}}^{(g+1)}}_{\text{rank-cone update}}+c_\mu\underbrace{\sum_{i=1}^{\lambda}w_iy_{\mathbf{i}\lambda}^{(g+1)}\left(y_{\mathbf{i}\lambda}^{(g+1)}\right)^{\mathsf{T}}}_{\text{rank-}\mu\text{update}}\end{array}$

如果 $c_{1} = 0$ 则为协方差矩阵秩 $\mu$ 更新，如果 $c_{\mu} = 0$ 则为协方差矩阵秩1更新其中： ${{c}_{1}}\approx 2/{{n}^{2}}$ ， ${{c}_{\mu }}\approx min({{\mu }_{\text{eff}}}/{{n}^{2}},1-{{c}_{1}})$ ， $y_{i:\lambda }^{(g+1)}=(x_{i:\lambda }^{(g+1)}-{{m}^{(g)}})/{{\sigma }^{(g)}}$ , $\sum{{{w}_{j}}}=\sum\limits_{i=1}^{\lambda }{{{w}_{i}}}\approx -{{c}_{1}}/{{c}_{\mu }}$

学习率 c_1，c_µ的设计原理和上面一样，也就是 ${{c}_{1}}\approx \frac{2}{{{n}^{2}}}\text{,}{{c}_{\mu }}\approx \frac{{{\mu }_{w}}}{{{n}^{2}}}$ ，即学习率与所调整的变量自由度（参数个数）成反比。

• 秩1更新有效的利用了连续两代均值的偏差关系
• 秩 $\mu$ 更新利用了 $\mu$ 个样本相对于均值m的偏差，使用的是当前代选出的 $\mu$ 个样本的统计信息来更新矩阵，更充分的利用了种群中的信息
• 前者适用于小种群，后者信息全面适用于大种群，结合秩1 更新与秩 $\mu$ 更新可以更好地利用有用信息

3.4 步长控制

步长的调节在演化策略中也是非常重要的，步长不宜过大也不宜过小：

• 步长过大容易跳过最优点
• 步长过小会过多的浪费时间
• 因此步长的调整需要动态地随问题的变化而调整

CMA-ES 默认使用累积式步长调整 (Cumulative step size adaptation，CSA) 。CSA 是当前最成功、用的最多的步长调整方式。CSA 的原理可以理解为：相继搜索的方向应该是共轭的。

当演化路径太短时，搜索步之间会相互抵消，此时步长需要减小
当演化路径较长时，每个搜索步之间的方向相似，搜索路径可由指向相同的少量长路径来代替, 此时应增加步长
当演化路径较长，理想情况下单个步骤的方向大致垂直时，各搜索步是不相关的，此时是理想步长

图4：进化路径

与前面的进化路径相似，构造另一个进化路径（有些文献里面称为共轭路径 conjugate evolution path）

$\begin{array}{rcl}p_\sigma^{(g+1)}&=&(1-c_\sigma)p_\sigma^{(g)}+\sqrt{c_\sigma(2-c_\sigma)\mu_{\mathrm{eff}}}B\sum_{i=1}^{\mu}w_iz_{i:\lambda}\end{array}$

或者写成：

$\begin{array}{rcl}p_{\sigma}^{(g+1)}&=&(1-c_{\sigma})p_{\sigma}^{(g)}+\sqrt{c_{\sigma}(2-c_{\sigma})\mu_{\mathrm{eff}}}C^{(g)^{-\frac{1}{2}}}\frac{m^{(g+1)}-m^{(g)}}{c_{\mathrm{m}}\sigma^{(\mathrm{g})}}\\\end{array}$

其中： ${{c}_{\sigma }}<1,\sqrt{{{c}_{\sigma }}\left( 2-{{c}_{\sigma }} \right){{\mu }_{eff}}}$ 是归一化常数

• 更新项 $B\sum\limits_{i=1}^{\mu }{{{w}_{i}}}{{z}_{i:\lambda }}$ = ${{C}^{(g)}}^{-\frac{1}{2}}\frac{{{m}^{(g+1)}}-{{m}^{(g)}}}{{{c}_{\text{m}}}{{\sigma }^{(g)}}}$ ，而 ${{C}^{(g)}}^{-\frac{1}{2}}$ $BD^{- 1}B^{T}$ 。因此，这个方向实际上是去掉尺度因子 D 之后的搜索方向。

• 考虑另一种解释. 在上述路径中取 ${{c}_{\sigma }}$ = 1 ，即不进行累积。这时候实际上是"平均搜索方向"，并且"大致"服从标准正态分布。在 ${{c}_{\sigma }}$ < 1 情况下的累积则代表通过历史平均来消除或减小随机性。

为了更新步长, 我们把 $\left\| p_{\sigma }^{(g+1)} \right\|$ 与它的期望步长 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}$ 进行比较，有：

$\ln {{\sigma }^{(g+1)}}=\ln {{\sigma }^{(g)}}+\frac{{{c}_{\sigma }}}{{{d}_{\sigma }}}\left( \frac{\|\mathbf{p}_{\sigma }^{(g+1)}\|}{\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}-1 \right)$

其中, $d_{\sigma}$ ≈1 , 是阻尼参数, $c_{\sigma}$ 表示步长的学习率, 为服从标准正态分布 $N (0, I)$ 的欧几里得范数的期望。

因为 ${{\sigma }^{(g)}}>0$ ，则上式可以写成：

${{\sigma }^{(g+1)}}={{\sigma }^{(g)}}\exp \left( \frac{{{c}_{\sigma }}}{{{d}_{\sigma }}}\left( \frac{\|\mathbf{p}_{\sigma }^{(g+1)}\|}{\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}-1 \right) \right)$

在平稳性条件下有 $p_{\sigma }^{(g+1)}$ ∼ N(0, I) ，即搜索路径可以看成是一个 n 维标准正态分布的随机向量，因此其模长服从卡方分布 $\left\| p_{\sigma }^{(g+1)} \right\|\sim\chi (\text{n})$ ,并且 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}$ ，而且 ${\mathbf{E}\|\mathcal{N}(\mathbf{0},\mathbf{I})\|}=\sqrt{n}$ ，因此，如果模长大于平均值，则指数上是正的，步长变大，否则指数上是负的，步长减小。

确定步长的长度，只需将路径的长度与其在随机选择下的预期长度进行比较即可，因为连续步之间相互独立，所以它们是不相关的，也就是说：

• 如果演化路径比预期的长，则步长增加
• 如果演化路径比预期的短, 则步长减小

• 在理想的条件下，选择不会偏向演化路径的长度，并且该长度等于随机选择下的预期长度 ${{c}_{\sigma }}$ , ${{d}_{\sigma }}$ 是调整步长变化幅度的控制参数，通常设置为 ${{c}_{\sigma }}\propto \frac{1}{n},{{d}_{\sigma }}>1$ ，此外从实验上来说，算法对 ${{c}_{\sigma }}$ 的设置不敏感，可以取到 ${{c}_{\sigma }}\propto \frac{1}{\sqrt{n}}$ 以进行快速调整，大部分情况下效果相差不大。

注：在如果每次迭代步长几乎不变，大致有 $\|{{s}_{t+1}}\|\sim\sqrt{n}$ ,那么会有如下近似： ${{\left( {{m}_{t}}-{{m}_{t-1}} \right)}^{T}}C_{t}^{-1}\left( {{m}_{t+1}}-{{m}_{t}} \right)\approx 0$
即相继的搜索方向关于协方差矩阵的逆 $C_{t}^{- 1}$ 是共轭的，而在二次函数上，这个 $C_{t}^{- 1}$ 收敛于 Hessian
矩阵（相差一个标量因子）。从这个角度来说， $p_{\sigma }^{(g+1)}$ 被称为共轭进化路径。这个是很好的性质。

图5. CMA-ES算法具体实现

图6. 部分参数说明

参考文献：
A survey of the state-of-the-art, Swarm and Evolutionary Computation, 2020

你可能感兴趣的:(CMA-ES,黑盒优化,协方差矩阵自适应)

Java双重检测锁解决MySQL和Redis数据一致性问题
Java双重检测锁解决MySQL和Redis数据一致性问题双重检测锁(Double-CheckedLocking)是一种在多线程环境下优化性能的设计模式，可以用于解决MySQL和Redis之间的数据一致性问题。下面我将介绍如何实现这一方案。问题背景在MySQL和Redis双存储系统中，常见的一致性问题包括：缓存穿透：查询不存在的数据，导致每次请求都打到数据库缓存击穿：热点key失效瞬间，大量请求直
Jetpack Compose 中 Kotlin 协程的使用儿歌八万首 jetpack android android ui Compose kotlin 协程
本文将带你系统性地理解JetpackCompose中协程的使用场景、API设计理念、生命周期对齐、性能优化与常见误区，助你写出既响应迅速又稳定可靠的现代AndroidUI代码。1.为什么在Compose中离不开协程传统View系统就离不开异步：网络请求、数据库I/O、动画……进入声明式UI时代，异步需求不仅没减少，反而更复杂——状态驱动让数据变化更加频繁。协程凭借以下优势成为Compose首选：语
PyCharm + AI 辅助编程向上的车轮笔记 pycharm 人工智能 ide
PyCharm+AI：初学者友好的2个实用场景（附操作步骤）PyCharm专业版（或通过插件集成）支持AI辅助编程（如JetBrainsAI或GitHubCopilot），能根据代码上下文自动生成代码、解释逻辑、优化代码等。以下是2个适合初学者的简单场景，覆盖“代码生成”和“代码解释”核心功能。场景1：AI快速生成斐波那契数列函数（代码补全）背景：你需要实现一个计算斐波那契数列第n项的函数，但对递
TCP通讯开发注意事项及常见问题解析
文章目录一、TCP协议特性与开发挑战二、粘包与拆包问题深度解析1.成因原理2.典型场景与实例验证3.系统化解决方案接收方每次读取10字节2.丢包检测与验证工具3.工程化解决方案四、连接管理关键实践1.超时机制设计2.TIME_WAIT状态优化3.异常处理最佳实践五、高性能TCP开发优化1.缓冲区调优指南2.心跳机制实现3.高并发配置六、安全传输增强七、总结与最佳实践一、TCP协议特性与开发挑战TC
深入理解传输对象模式：优化分布式系统数据交互的利器
在现代分布式系统架构中，如何高效地在不同层或不同服务间传输数据是一个关键问题。频繁的网络调用会导致系统性能下降，用户体验受损。传输对象模式（TransferObjectPattern）正是为解决这一问题而生的经典设计模式。本文将全面剖析传输对象模式的原理、实现、应用场景及最佳实践，帮助开发者掌握这一优化系统性能的利器。一、传输对象模式概述1.1模式定义传输对象模式（也称为值对象模式、数据载体模式或
金属表面划痕检测实践指南 - 使用OpenCV IYA1738
本文还有配套的精品资源，点击获取简介：在机器视觉领域，表面划痕检测是一项关键技术，特别是在金属表面。本文深入探索了如何使用OpenCV库在VisualStudio2019环境下进行表面划痕检测。主要技术包括图像作差、动态阈值处理、边缘检测以及形态学操作。通过这些方法，我们可以有效地从金属表面图像中提取划痕特征。本文详细描述了实施表面划痕检测的步骤，包括图像读取、差分图像计算、阈值处理、边缘检测优化
UGUI 性能优化系列：第四篇——高级优化与注意事项吉良吉影NeKoSuKi 性能优化 unity 游戏引擎 c#开发语言架构
UGUI性能优化系列：第一篇——基础优化与资源管理UGUI性能优化系列：第二篇——Canvas与UI元素管理UGUI性能优化系列：第三篇——渲染与像素填充率优化UGUI性能优化系列：第四篇——高级优化与注意事项在前面的三篇文章中，我们从UGUI的基础渲染管线、资源管理，到Canvas的重建机制、UI元素管理，再到渲染与像素填充率优化，逐步深入地探讨了UGUI性能优化的核心策略。现在，我们将进入本系
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
ASP.NET Core Web API 内存缓存（IMemoryCache）入门指南王维志 asp.net webapi asp.net 缓存后端 c#.net
在WebAPI开发中，频繁访问数据库或第三方服务可能会带来性能瓶颈。为了提升接口响应速度并减轻后端压力，使用缓存是非常有效的优化手段。本文将带你快速上手ASP.NETCore提供的内存缓存（IMemoryCache），无需安装额外库，轻量、简单、适合中小项目什么是IMemoryCache？IMemoryCache是ASP.NETCore自带的缓存机制，使用服务器内存来存储数据对象，单机部署即可使用
昨日感想身心健实
暂时依然以做兼职为主，一到五面试，一个月内找不到，做好长期运营一个网站，开始自己优化，推广自己的个人品牌。目前感兴趣的方面是个人成长，关于心理学与医学。然后就是金融，投资也10多年了，上次遇上那家抽烟公司，我直接全都加不，只想赶紧离开，好像说错了，我对财务报表，财务知识，都是特别去学过，平时都在运用，次数一个月一次是有的。可能成为职业的爱好就是写作与编程，目前来说，长期会一直坚持这些爱好。我这个人
带你走进相位解包裹算法课程 Cedric1113 程序人生
第一节：相位解包裹基础理论与核心概念课程导入相位解包裹在三维测量中的重要性（工业检测、生物医学等）包裹相位与真实相位的关系（反正切函数的主值限制）核心概念解析相位跳变的原因与表现（噪声、光照不均等干扰）解包裹算法分类：路径跟踪法vs.全局优化法经典算法初探Goldstein枝切法（残差点检测与枝切线构建）最小二乘法（全局平滑优化原理）实验演示：仿真包裹相位图的生成与基础算法解包裹效果对比第二节：路
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
Golang 数据库缓存策略：减少 SQL 查询次数
Golang数据库缓存策略：减少SQL查询次数关键词：Golang、数据库缓存、SQL查询次数、缓存策略、性能优化摘要：本文主要探讨了在Golang中使用数据库缓存策略来减少SQL查询次数的相关技术。通过深入讲解缓存的核心概念、算法原理、实际应用场景等内容，帮助读者理解如何利用缓存优化数据库性能。同时，结合具体的代码案例，详细展示了在Golang中实现缓存策略的方法，最后分析了未来的发展趋势与面临
多模态查询优化：5个提升搜索准确率的技巧
多模态查询优化：5个提升搜索准确率的技巧关键词：多模态搜索、特征融合、跨模态对齐、混合索引、语义增强摘要：本文将揭示5个提升多模态搜索准确率的实用技巧，通过生活化案例和代码示例，带您理解如何让图像、文本、语音等不同模态数据协同工作，构建更智能的搜索引擎。背景介绍目的和范围本文旨在帮助开发者和产品经理理解多模态搜索的核心优化技术。涵盖从基础概念到实战应用的完整知识体系，重点解析5个提升准确率的关键技
数据结构与算法里散列表的算法优化技巧数据结构与算法学习散列表算法数据结构 ai
数据结构与算法里散列表的算法优化技巧关键词：散列表、哈希冲突、负载因子、开放寻址法、链地址法、动态扩容、哈希函数优化摘要：本文将深入探讨散列表的核心原理与优化技巧，通过图书馆管理员的比喻揭示哈希冲突的本质，结合Python代码演示动态扩容策略与哈希函数优化方法，最后通过实际案例展示如何将查询速度提升300%。文章包含5个可视化流程图和3个完整代码实现。背景介绍目的和范围本文面向已掌握基础数据结构知
探索AI人工智能中遗传算法的进化奥秘 AI学长带你学AI 人工智能 ai
探索AI人工智能中遗传算法的进化奥秘关键词：遗传算法、自然选择、基因编码、适应度函数、群体进化、交叉变异、优化问题摘要：本文将用生物进化视角解读人工智能中的遗传算法原理。通过达尔文进化论的生活化比喻，结合Python代码实例演示如何模拟基因遗传、自然选择等过程，揭示遗传算法在路径规划、参数优化等场景的应用奥秘。最后探讨遗传算法的局限性与未来发展方向。背景介绍目的和范围本文旨在用通俗易懂的方式解析遗
AI人工智能领域多模态大模型的技术瓶颈与解决方案 AI学长带你学AI 人工智能 ai
AI人工智能领域多模态大模型的技术瓶颈与解决方案关键词：多模态大模型、技术瓶颈、跨模态对齐、计算效率、数据稀缺、模型泛化、解决方案摘要：本文深入探讨了AI人工智能领域多模态大模型发展过程中面临的主要技术瓶颈，包括跨模态对齐困难、计算资源消耗巨大、高质量多模态数据稀缺、模型泛化能力不足等问题。针对这些挑战，我们提出了系统性的解决方案，涵盖算法优化、架构创新、数据增强等多个维度。文章通过理论分析、数学
打造MVP：最小可行产品开发指南 AI天才研究院 AI大模型企业级应用开发实战 Python实战 AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
打造MVP：最小可行产品开发指南关键词：MVP，最小可行产品，产品开发，快速迭代，用户体验，商业策略摘要：本文旨在详细探讨最小可行产品（MVP）的概念、价值以及开发流程，通过分析市场调研、资源优化、快速验证和迭代优化等关键步骤，为读者提供一套完整的MVP开发指南。文章还将通过成功案例分析，总结MVP开发的最佳实践，并展望未来发展趋势。目录大纲：《打造MVP：最小可行产品开发指南》第一部分：MVP概
自学软件测试需要学什么？ AIZHINAN 软件测试软件测试面试自学软件测试软件测试培训转行软件测试
软件测试是一个系统化的领域，需要掌握测试理论、工具、编程、环境配置、业务流程等多方面知识。以下是系统化的学习路径，涵盖从入门到进阶的核心内容：软件测试视频教程，从入门到精通（完整版）零基础小白也可学！一、测试理论基础1.测试基础概念软件测试的定义、目的（质量保障、缺陷预防）。测试流程：需求分析→测试计划→用例设计→执行→缺陷管理→报告。常见术语：黑盒/白盒测试、回归测试、冒烟测试、Alpha/Be
webpack相关 Komorebi_9999 webpack 前端 node.js
一、基础打包指令#基本打包（默认使用webpack.config.js配置）npxwebpack#指定模式（开发/生产）npxwebpack--modedevelopment#开发模式（未压缩，保留注释）npxwebpack--modeproduction#生产模式（自动压缩、优化）二、配置文件相关#指定自定义配置文件npxwebpack--config配置文件名.js#例如：webpack.co
KAIST：LLM混合递归推理大模型任我行大模型-推理优化人工智能自然语言处理语言模型论文笔记
标题：Mixture-of-Recursions:LearningDynamicRecursiveDepthsforAdaptiveToken-LevelComputation来源：arXiv,2507.10524摘要缩放语言模型解锁了令人印象深刻的能力，但伴随的计算和内存需求使训练和部署都很昂贵。现有的效率工作通常针对参数共享或自适应计算，留下了如何同时实现两者的问题。我们引入了混合递归(MoR
【机器学习&深度学习】什么是量化？一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、量化的基本概念1.1量化对比示例1.2量化是如何实现的？二、为什么要进行量化？2.1解决模型体积过大问题2.2降低对算力的依赖2.3加速模型训练和推理2.4优化训练过程2.5降低部署成本小结：量化的应用场景三、量化的类型与实现3.1权重量化（WeightQuantization）3.2激活量化（ActivationQuantization）3.3梯度量化（GradientQuantiz
Python 机器学习：NumPy 实现朴素贝叶斯分类器 Python编程之道 Python编程之道 python 机器学习 numpy ai
Python机器学习：NumPy实现朴素贝叶斯分类器关键词：朴素贝叶斯分类器、NumPy、机器学习、概率模型、条件概率、拉普拉斯平滑、向量化计算摘要：本文系统讲解朴素贝叶斯分类器的核心原理，基于NumPy实现高效的算法框架，涵盖从概率理论到工程实现的完整流程。通过数学公式推导、代码实现和鸢尾花数据集实战，展示如何利用向量化计算优化概率估计，解决特征独立性假设下的分类问题。同时分析算法优缺点及实际应
MATLAB实现基于多目标粒子群优化算法（MOPSO）进行无人机三维路径规划的详细项目实例 nantangyuxi MATLAB matlab 算法无人机人工智能深度学习机器学习数据挖掘
目录MATLAB实她基她她目标粒子群优化算法（MOPSO）进行无人机三维路径规划她详细项目实例1项目背景介绍...1项目目标她意义...2优化无人机飞行路径她安全她...2提升路径规划她她目标协调能力...2实她三维环境下她动态路径规划...2降低计算复杂度，实她高效路径规划...2提供具有工程实践价值她路径规划工具...3丰富她目标优化算法她应用案例...3促进无人机智能自主飞行技术进步...3
NOIP2013提高组复赛数据详细分析与应用指南欧学东
本文还有配套的精品资源，点击获取简介：2013年的NOIP提高组复赛数据，涉及C++编程、算法设计、数据结构、问题分析、时间空间复杂度优化、调试测试、比赛策略、历年试题分析等多个知识点。这些数据对于参赛者、教练和信息技术教育研究者具有重要参考价值，有助于提升信息技术能力和竞赛准备的有效性。1.NOIP竞赛概览全国青少年信息学奥林匹克竞赛（NationalOlympiadinInformaticsi
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
Spring Boot整合阿里云OSS企业级实践：高可用文件存储解决方案努力的小郑 Spring spring boot 阿里云后端
在云原生时代，文件存储已成为现代应用的刚需。阿里云对象存储OSS作为国内市场份额第一的云存储服务，为开发者提供了安全可靠、高扩展的存储解决方案。本文将深入探讨SpringBoot整合OSS的最佳实践。为什么选择阿里云OSS？阿里云OSS在以下场景中展现显著优势：海量数据存储：单Bucket支持EB级存储，轻松应对业务增长高并发访问：支持百万级QPS，满足电商大促等高并发场景成本优化：存储费用低至0
程序员素养（1）注释代码柳书
一段代码的注释，最重要的是两点：1注释要写它存在的原因。这段代码存在是因为兼容浏览器某个版本，还是为了后台的特殊返回妥协处理一下，还是因为要提高性能做的优化，或是避免某个坑。只有写明了原因，在以后别人修改或重构的时候，才能判断当初存在的原因是否已经不复存在，可以去掉。2要写这一块代码是在干什么。有时候不可能每段都把原因写的很清楚，那就要把整体是在干什么写出来，一句话总结一下。因为阅读别人代码经常会
鸿蒙 App 应用开发性能优化全面指南愿天堂没有996 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 性能优化 OpenHarmony 移动开发鸿蒙开发嵌入式硬件 ArkUI
优化应用性能对于应用开发至关重要。通过高性能编程、减少丢帧卡顿、提升应用启动和响应速度，可以有效提升用户体验。本文将介绍一些优化应用性能的方法，以及常用的性能调优工具。ArkTS高性能编程为了提升代码执行速度，进而提升应用整体性能，可以采取以下措施：使用ArkTS高性能编程实践：更有利于方舟编译运行时进行编译优化，生成更高性能的机器码，保障程序运行得更快。使用AOT模式对应用进行编译优化：方舟编译
嵌入式学习-PyTorch（8）-day24 LGGGGGQ 学习 pytorch 深度学习
torch.optim优化器torch.optim是PyTorch中用于优化神经网络参数的模块，里面实现了一系列常用的优化算法，比如SGD、Adam、RMSprop等，主要负责根据梯度更新模型的参数。️核心组成1.常用优化器优化器作用典型参数torch.optim.SGD标准随机梯度下降，支持momentumlr,momentum,weight_decaytorch.optim.Adam自适应学习
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。