Yemiekai

共轭梯度法（Conjugate Gradients）（2）

最近在看ATOM，作者在线训练了一个分类器，用的方法是高斯牛顿法和共轭梯度法。看不懂，于是恶补了一波。学习这些东西并不难，只是难找到学习资料。简单地搜索了一下，许多文章都是一堆公式，这谁看得懂啊。

后来找到一篇《An Introduction to the Conjugate Gradient Method Without the Agonizing Pain》，解惑了。
为什么中文没有这么良心的资料呢？英文看着费劲，于是翻译过来搬到自己的博客，以便回顾。

由于原文比较长，一共 $66$ 页的PDF，所以这里分成几个部分来写。

目录
共轭梯度法（Conjugate Gradients）（1）
共轭梯度法（Conjugate Gradients）（2）
共轭梯度法（Conjugate Gradients）（3）
共轭梯度法（Conjugate Gradients）（4）
共轭梯度法（Conjugate Gradients）（5）

6. Convergence Analysis of Steepest Descent
（最陡下降的收敛性分析）

6.1 Instant Results（实例结果）

为了理解最速下降的收敛性，先考虑这一种情况：
$e_{(i)}$ 是一个特征向量，特征值是 $\lambda_{e}$
于是，残差 $r_{(i)}$ 也是是一个特征向量， $r_{(i)} = - A e_{(i)}=-\lambda_e e_{(i)}$

由误差的定义： $e_{(i)} = x_{(i)} - x$ ，以及公式(12)： $x_{(i+1)} = x_{(i)} + \alpha_{(i)}r_{(i)}$ ，有：
$\begin{aligned} e_{(i+1)} & = e_{(i)} + \dfrac{r^T_{(i)} r_{(i)} }{ r^T_{(i)} A r_{(i)} } r_{(i)} \\[1.5em] &= e_{(i)} + \dfrac{r^T_{(i)} r_{(i)} }{ \lambda_e r^T_{(i)} r_{(i)} }(-\lambda_e e_{(i)}) \\[1.5em] &= 0 \end{aligned}$

(图14)

图(14) 展示了为什么走一步就能收敛到精确解。
点 $x_{(i)}$ 处于椭圆的其中一个轴上，而残差直接指向椭圆的中心，令 $\alpha_{(i)} = \lambda_e^{-1}$ 可以立刻收敛。

对于更一般的分析，我们需要把 $e_{(i)}$ 表示为特征向量的线性组合，并且，要进一步地要求它们是正交的。

我们知道，如果 $A$ 是对称的，则它存在 $n$ 个正交的特征向量。（证明见附录C2）
又由于我们可以任意缩放特征向量，因此这里我们选择的特征向量具有单位长度。
于是得到以下有用的性质：
$v_j^T v_k = \left\{ \begin{aligned} 1, & \qquad j=k, \\ 0, & \qquad j \neq k. \end{aligned} \right. \tag{17}$

把误差项表示为特征向量的线性组合： $e_{(i)} = \sum^n_{j=1} \xi_j v_j \tag{18}$

其中 $\xi_j$ 是 $e_{(i)}$ 的第 $j$ 个特征向量的长度。

由公式(17) 和公式(18)，有如下定义：
$r_{(i)} = -A e_{(i)} = - \sum_j \xi_j \lambda_j v_j \tag{19}$ $\| e_{(i)} \|^2 = e^T_{(i)} e_{(i)} =\sum_j \xi_j^2 \tag{20}$ $e^T_{(i)} A e_{(i)} = ( \sum_j \xi_j v_j^T ) (\sum_j \xi_j \lambda_j v_j) = \sum_j \xi^2_j \lambda_j \tag{21}$ $\| r_{(i)} \|^2 = r^T_{(i)} r_{(i)} =\sum_j \xi_j^2 \lambda_j^2\tag{22}$ $r^T_{(i)} A r_{(i)} =\sum_j \xi_j^2 \lambda_j^3\tag{23}$

式子(19) 表明， $r_{(i)}$ 也能表示为特征向量的和。每个特征向量的长度为 $-\xi_j \lambda_j$ 。
式子(20) 和式子(22) 是毕达哥拉斯法则（Pythagoras’ Law）。

下面继续进行分析，由公式(12) 有：
$\begin{aligned} e_{(i+1)} & = e_{(i)} + \dfrac{r^T_{(i)} r_{(i)} }{ r^T_{(i)} A r_{(i)} } r_{(i)} \\[1.5em] &= e_{(i)} + \dfrac{ \sum_j \xi_j^2 \lambda_j^2 }{ \sum_j \xi_j^2 \lambda_j^3 } r_{(i)} \tag{24} \end{aligned}$

我们在6.1节开头的例子里看到。如果 $e_{(i)}$ 仅由 $1$ 个特征向量组成，那只要选 $\alpha_{(i)} = \lambda_e^{-1}$ ，一次就能收敛。

现在假定 $e_{(i)}$ 是任意的，但所有特征向量的特征值都是 $\lambda$ ，则公式(24) 变成： $\begin{aligned} e_{(i+1)} & = e_{(i)} + \dfrac{ \lambda^2 \sum_j \xi_j^2 }{ \lambda^3 \sum_j \xi_j^2 } {\large(} -\lambda e_{(i)} {\large)} \\[1.5em] &= 0 \tag{24} \end{aligned}$

(图15)

图(15) 再次展示了为什么可以立即收敛。因为所有特征值都相等，那椭圆就变成了圆形，因此，无论从哪一点开始，残差必定指向圆心。和之前一样，设置 $\alpha_{(i)} = \lambda^{-1}$ 。

然而，如果几个特征值是不相等的、非零的，那就无法选择合适的 $\alpha_{(i)}$ 来把每一个特征向量都抵消掉，我们的选择就变成了一种妥协。

实际上，公式(24) 里的分数部分最好是被看做特征值 $\lambda_j^{-1}$ 的加权平均。权重 $\xi_j^2$ 保证了 $e_{(i)}$ 中较长的成分（那个特征向量）优先级低。结果就是，在某一次迭代中， $e_{(i)}$ 中较短的成分（特征向量）可能会增加长度（较长的从来不会被考虑）。因此，最陡下降和共轭梯度被称为粗糙的（roughers）。相比之下，雅克比方法是平滑的（smoother）。最速下降和共轭梯度不是平滑的，尽管大多数数学教材认为平滑。

6.2 General Convergence（一般收敛性）

为了约束最速下降在一般情况下的收敛性，我们定义能量范数（energy norm） $e\|_A = (e^T A e)^{1/2}$
如图(16) 所示

(图16)

这个范数比欧几里得范数（Euclidean norm）更好用，某种情况下更自然。公式(8) 表明最小化 $e_{(i)}\|_A$ 和最小化 $f(x_{(i)})$ 是等价的。对于这个范数我们有：
$\begin{aligned} \| e_{(i+1)}\|^2_A &= e_{(i+1)}^T A e_{(i+1)} \\[0.5em] &= ( e_{(i)}^T + \alpha_{(i)}r_{(i)}^T ) A ( e_{(i)} + \alpha_{(i)}r_{(i)} ) \qquad \text{(by Equation 12)} \\[0.5em] &= e_{(i)}^T A e_{(i)} + 2\alpha_{(i)} r_{(i)}^T A e_{(i)} + \alpha_{(i)}^2 r_{(i)}^T A r_{(i)} \qquad \text{(by symmetry of A)} \\[0.5em] &= \| e_{(i)}\|^2_A + 2 \dfrac{r^T_{(i)} r_{(i)} }{ r^T_{(i)} A r_{(i)} } \left( - r_{(i)}^T r_{(i)} \right) + \left( \dfrac{r^T_{(i)} r_{(i)} }{ r^T_{(i)} A r_{(i)} } \right)^2 r^T_{(i)} A r_{(i)} \\[1.5em] &= \| e_{(i)}\|^2_A - \dfrac{ ( r^T_{(i)} r_{(i)} )^2 }{ r^T_{(i)} A r_{(i)} } \\[1.5em] &= \| e_{(i)}\|^2_A \left( 1- \dfrac{ ( r^T_{(i)} r_{(i)} )^2 }{ (r^T_{(i)} A r_{(i)} )(e^T_{(i)} A e_{(i)} ) } \right) \\[1.5em] &= \| e_{(i)}\|^2_A \left( 1- \dfrac{ ( \sum_j \xi_j^2 \lambda_j^2)^2 }{ ( \sum_j \xi_j^2 \lambda_j^3)( \sum_j \xi_j^2 \lambda_j) } \right) \qquad \text{(by Identities 21, 22, 23)} \\[1.5em] &= \| e_{(i)}\|^2_A \omega^2， \qquad \omega^2= 1- \dfrac{ ( \sum_j \xi_j^2 \lambda_j^2)^2 }{ ( \sum_j \xi_j^2 \lambda_j^3)( \sum_j \xi_j^2 \lambda_j) } \end{aligned} \tag{25}$

这个分析依赖于找到 $\omega$ 的一个上界。为了说明权值和特征值是如何影响收敛性的，我来推导一个 $n = 2$ 时的结果。（就是有 $2$ 个特征向量）。

假设 $\lambda_1 > \lambda_2$ ， $A$ 的光谱条件数（spectral condition number）定义为 $\kappa= \dfrac{\lambda_1}{\lambda_2} \geq 1$ 。

$e_{(i)}$ 的斜坡（slope）（它与“由特征向量定义的坐标系统”相关）依赖于起始点。斜坡用 $\mu = \dfrac{\xi_2}{\xi_1}$ 表示。

我们有： $\begin{aligned} \omega^2 &= 1 - \dfrac{ (\xi_1^2 \lambda_1^2 + \xi_2^2 \lambda_2^2)^2 }{ (\xi_1^2 \lambda_1 + \xi_2^2\lambda_2) (\xi_1^2\lambda_1^3+ \xi_2^2\lambda_2^3) } \\[1.5em] &= 1- \dfrac{ (\kappa^2 + \mu^2)^2}{ (\kappa + \mu^2) (\kappa^3+\mu^2)} \tag{26} \end{aligned}$

$\omega$ 的值决定了最陡下降的收敛速度，图(17) 展示的是它关于 $\mu$ 和 $\kappa$ 的函数。

(图17)

这张图和我的两个例子相符合。

$\bullet$ 如果 $e_{(0)}$ 是一个特征向量，然后斜坡 $\mu$ 是 $0$ （或者无穷）；可已从图中看到，这时 $\omega$ 为 $0$ ，可以立即收敛。

$\bullet$ 如果特征值都相等，则条件数（condition number） $\kappa$ 为 $1$ ，于是 $\omega$ 也是 $0$ 。

如果处于图(17) 的 $4$ 个角落附近，那收敛情况就如图(18) 所示。

(图18)

这些二次型的坐标系统由它们的特征向量决定，都画在图(18) 上了。

图(18)a 和图(18)b 是条件数较大的情况。
如果你幸运地在图(18)a 那里开始（ $\kappa$ 大， $\mu$ 小），那最陡下降可以很快收敛。
然而，当 $\kappa$ 很大的时候，通常你会出现在比较糟糕的地方（ $\mu$ 也很大），见图(18)b 。

解释一下：从图(12) 可以看到，特征值越大的那个方向，越陡峭，梯度越大。
所以图(18)a 和图(18)b 两张中， $v_1$ 的特征值都是大于 $v_2$ ，即 $\lambda_1$ > $\lambda_2$ ，所以 $\kappa$ 大。

$\mu$ 方面：
图(18)a 中 $v 1$ 的长度大于 $v_2$ ，即 $\xi_1$ > $\xi_2$ ，所以 $\mu$ 小。
图(18)b 中 $v 1$ 的长度小于 $v_2$ ，即 $\xi_1$ < $\xi_2$ ，所以 $\mu$ 大。

图(18)c 和图(18)d 中， $\kappa$ 相对较小（俩特征值差不多），所以二次型接近圆形，无论起点在哪里都能快速收敛。

由于 $A$ 是固定的，那 $\kappa$ 就是常量，经过简单的推导可知，当 $\mu = \pm \kappa$ 时，使得式子(26) 最大。
在图(17) 中你可以看到一条微弱的山脊，那就是 $\mu = \pm \kappa$ 时的情况。

(图19)

对于本教程的例子里的 $A$ ，如果选择了一个最糟糕的起点，那就如图(19) 所示。这样的起点不止一个，这条直线上都是： $\dfrac{\xi_2}{\xi_1} = \pm \kappa$ 。

所以令 $\mu^2 = \kappa^2$ ，你就能找到 $\omega$ 的上边界（对应于最糟糕的起点）： $\begin{aligned} \omega^2 & \leq 1 - \frac{4 \kappa^4}{ \kappa^5 +2\kappa^4 +\kappa^3 } \\[1em] & = 1 - \frac{ \kappa^5 - 2\kappa^4 + \kappa^3}{ \kappa^5 +2\kappa^4 +\kappa^3 } \\[1em] & = \frac{(\kappa - 1)^2}{ (\kappa + 1) ^2} \\[1em] \omega^2 & \leq \frac{ \kappa - 1 }{ \kappa + 1 } \end{aligned} \tag{27}$

(图20)

式(27) 的不等式如图(20) 所示，如果矩阵越病态（ill-conditioned）（即条件数 $\kappa$ 越大），则最陡下降的收敛越慢。
在 9.2节中证明了当 $n > 2$ 时式子(27) 依然成立。

如果对称且正定的矩阵的条件数被定义为： $\kappa = \frac{\lambda_{max}}{\lambda_{min}}$ 即最大的特征值比最小的特征值，则最速下降的收敛结果为： $\| e_{(i)} \| _A \leq \left( \frac{\kappa -1}{\kappa+1} \right)^i \| e_{(0)} \| _A \tag{28}$
$\begin{aligned} \frac{ f(x_{(i)}) - f(x) }{ f(x_{(0)}) -f(x) } &= \frac{ \frac{1}{2} e_{(i)}^T A e_{(i)} }{ \frac{1}{2} e_{(0)}^T A e_{(0)} } \qquad \text{(by equation 8)} \\[1em] &= \left( \frac{ \kappa - 1 }{ \kappa + 1 } \right)^{2i} \end{aligned}$

7. The Method of Conjugate Directions（共轭方向）

7.1 Conjugacy（共轭性）

最陡下降经常发现它自己走的方向和先前几步的方向相同（见图(8)）。
（最速下降每一步的方向是当前位置的导数的反方向）

那这样会不会好点呢：我们选择其它的方向，并且每次我们迈出步伐时，在该方向上一步到位。
这里有一个想法：我们取一组正交的搜索方向（search directions）： $d_{(0)},d_{(1)},\dots,d_{(n-1)}$ 。在每个搜索方向上，我们只需要走 $1$ 步，这一步的长度正好与 $x$ 成一条直线。迭代 $n$ 步之后就搞定了。

(图21)

图(21) 展示了这一思想，这个例子把 $2$ 个坐标轴当作搜索方向。
第一步（水平方向）在 $x_1$ 的坐标轴上走到了正确的地方；
第二步（竖直方向， $x_2$ 的轴）直接到达终点。
每个方向只需 $1$ 步。

值得注意的是，误差 $e_{(1)}$ 的方向与搜索方向 $d_{(0)}$ 是正交的。

总的来说，每一步我们走到的点就是： $x_{(i+1)} = x_{(i)} + \alpha_{(i)}d_{(i)}\tag{29}$

为了找到 $\alpha_{(i)}$ 的值，利用条件 “ $e_{(i+1)}$ 应当与 $d_{(i)}$ 正交” ，于是走完这一步后，再也不需要在 $d_{(i)}$ 的方向上前进了。利用这个条件，有： $\begin{aligned} d_{(i)}^T e_{{(i+1)}} &= 0 \\ d_{(i)}^T ( e_{(i)} + \alpha_{(i)} d_{(i)}) &= 0 \qquad \text{(by Equation 29)} \\[0.5em] \alpha_{(i)} &= - \dfrac{d_{(i)}^T e_{(i)}}{ d_{(i)}^T d_{(i)} } \end{aligned} \tag{30}$

很遗憾，我们还有一些东西没有完成。
如果不知道 $e_{(i)}$ ，就没办法算 $\alpha_{(i)}$ 。
然而，要是知道了 $e_{(i)}$ ，那这个问题都已经有解了。

所以，现在的做法是，使搜索方向 $A$ -正交（A-orthogonal）。

如果满足： $d^T_{(i)} A d_{(j)} = 0$ 则称向量 $d_{(i)}$ 和向量 $d_{(j)}$ 是 $A$ -正交的。或者叫共轭（conjugate）。

(图22)

图(22)a 展示了 $A$ -正交的向量是什么样子。想象这张图片是打印在一个泡泡球上，然后你拽着两端拉它，直到椭圆变成圆形。然后这些向量就成了正交的了，如图(22)b。

我们现在的要求是，要 $e_{(i+1)}$ $A$ -正交于 $d_{(i)}$ 。见图(23)a。

(图23)

翻译一下图(23) 的说明：
共轭方向法用 $n$ 步就收敛。
图(a)：第1步沿着 $d_{0}$ 的方向走，走到最小值点 $x_{(1)}$ 。 $x_{(1)}$ 怎么选？在那一点要满足 $e_{(1)}$ 与 $d_{(0)}$ $A$ -正交。也就是 $e_{(1)}^T A d_{(0)} = 0$ 。
图(b)：初始误差 $e_{(0)}$ 可以表示为一组 $A$ -正交的向量（或者叫做组件，components）的和，如图中灰色的线。在共轭方向法中，每走一步，就能消掉其中一个组件。

这个正交性条件恰好等价于，沿着搜索方向 $d_{(i)}$ 寻找最小点，就像最陡下降那样。

为了看到这一结论，把方向导数设为 $0$ ：
$\begin{aligned} \frac{d}{d\alpha}f\left( x_{(i+1)} \right) &= 0 \\[0.5em] f' \left( x_{(i+1)} \right)^T \frac{d}{d\alpha} x_{(i+1)} &= 0 \\[1em] -r^T_{(i+1)} d_{(i)} &= 0 \\[0.5em] d_{(i)}^T A e_{(i+1)} &= 0 \end{aligned}$

可以看到 $e_{(i+1)}$ 和 $d_{(i)}$ 是 $A$ -正交的。

按照公式(30)的推导过程，再把 $e_{(i+1)} = e_{(i)} + \alpha_{(i)} d_{(i)}$ 代到 $d_{(i)}^T A e_{(i+1)}=0$ 得：
$\begin{aligned} \alpha_{(i)} &= - \dfrac{ d_{(i)}^T A e_{(i)} }{ d_{(i)}^T A d_{(i)} } \qquad \qquad (31)\\[1.5em] &= - \dfrac{ d_{(i)}^T r_{(i)} }{ d_{(i)}^T A d_{(i)} } \qquad \qquad (32) \end{aligned}$

不像公式(30)，上面的式子是可以算的。

值得注意的是，要是搜索向量（即搜索方向， $d$ ）刚好是残差，那这个公式就和最陡下降的公式（见式子(11)）一样了。

为了证明确实只需要 $n$ 步，我们把误差项 $e$ 表示为搜索方向 $d$ 的线性组合，即： $e_{(0)} = \sum^{n-1}_{j=0} \delta_j d_{(j)} \tag{33}$

$\delta_j$ 的值可以利用一个数学的技巧来找到。
由于搜索方向是 $A$ -正交的，可以对式(33) 左乘 $d_{(k)}^T A$ 来消掉 $\delta_j$ ：
$\begin{aligned} d_{(k)}^T A e_{(0)} &= \sum_j \delta_{(j)} d_{(k)}^T A d_{(j)} \\[0.5em] d_{(k)}^T A e_{(0)} &= \delta_{(k)} d_{(k)}^T A d_{(k)} \qquad \text{(by A-orthogonality of d vectors) } \\[0.5em] \delta_{(k)} &= \frac{d_{(k)}^T A e_{(0)} }{ d_{(k)}^T A d_{(k)} } \\[0.5em] &= \frac{d_{(k)}^T A e_{(0)} + d_{(k)}^T A \left( \sum_{i=0}^{k-1} \alpha_{(i)} d_{(i)} \right) }{ d_{(k)}^T A d_{(k)} } \qquad \text{(by A-orthogonality of d vectors) } \\[0.5em] &= \frac{d_{(k)}^T A \left( e_{(0)}+ \sum_{i=0}^{k-1} \alpha_{(i)} d_{(i)} \right) }{ d_{(k)}^T A d_{(k)} } \\[0.5em] &= \frac{d_{(k)}^T A e_{(k)} }{ d_{(k)}^T A d_{(k)} } \qquad \text{(by Equation 29) } \end{aligned} \tag{34}$

通过式(31) 和式(34)，我们发现 $\alpha_{(i)} = - \delta_{(i)}$ 。
这一现象让我们有一种新的方式看待误差项。

如下面的公式所示，一个组件一个组件地构建 $x$ 的过程也可以看作是一个组件一个组件地减少误差项的过程（见图(23)b）。
$\begin{aligned} e_{(i)} &= e_{(0)} + \sum^{i-1}_{j=0} \alpha_{(j)} d_{(j)} \qquad \text{(by Equation 33 and} \; \; \alpha_{(i)} = - \delta_{(i)} \text{)}\\[0.5em] &= \sum^{n-1}_{j=0} \delta_{(j)} d_{(j)} - \sum^{i-1}_{j=0} \delta_{(j)} d_{(j)} \\[0.5em] &= \sum^{n-1}_{j=i} \delta_{(j)} d_{(j)} \end{aligned} \tag{35}$

经过 $n$ 步迭代，每一个组件都被干掉了，最后 $e_{(n)} =0$ ，证明完毕。

7.2 Gram-Schmidt Conjugation（格拉姆-施密特共轭）

我们现在所需要的是，找到一组 $A$ -正交的搜索方向 ${d_{(i)}\}$ 。
幸运的是，有一种简单的方法可以生成它们，叫做 共轭格拉姆-施密特过程（conjugate Gram-Schmidt process）。

假设我们有一组 $n$ 个线性无关的向量 $u_0, u_1,\dots,u_{n-1}$ 。
假设 (2维的情况) 其中某个 $u_i$ 由 $2$ 个组件线性组合而成，一部分是 $u^{*}$ ，另一部分是 $u^+$ 。

为了构建 $d_{(i)}$ ，令 $u_i$ 减掉自己【与 $d_{(i-1)}$ 非 $A$ -正交】的那个组件（即图(24) 中的 $u^+$ ）。

(图24)

翻译一下图(24) 的说明：
俩向量的格拉姆-施密特共轭。
首先，从两个线性无关的向量（ $u_0$ 和 $u_1$ ）开始。令第一个方向向量 $d_{(0)}=u_0$ 。
然后， $u_1$ 由两个组件组成：① $u^*$ ，它与 $d_{(0)}$ 是 $A$ -正交的（或者称 ‘共轭’ ）。② $u^+$ ，它与 $d_{(0)}$ 是平行的。
共轭完成之后，只保留 $A$ -正交部分， $d_{(1)}=u^*$ 。

用公式表达就是，先令 $d_{(0)}=u_0$ ，然后对于 $i > 0$ ，令： $d_{(i)} = u_i + \sum^{i-1}_{k=0} \beta_{ik} d_{(k)}$ 其中， $i > k$ 的情况才有 $\beta_{ik}$ 。

这个式子看着很绕，这个 $\beta$ 有 $2$ 个下标，可以试着展开看来理解。假设 $i$ 为 $4$ ，也就是 $4$ 维：
$\begin{aligned} d_{(0)} &= u_{(0)} \\ d_{(1)} &= u_{(1)} + \left( \beta_{10} d_{(0)} \right) \\ d_{(2)} &= u_{(2)} + \left( \beta_{20} d_{(0)} + \beta_{21} d_{(1)} \right) \\ d_{(3)} &= u_{(3)} + \left( \beta_{30} d_{(0)} + \beta_{31} d_{(1)} + \beta_{32} d_{(2)} \right) \end{aligned}$

为了找到这些值，用回之前求 $\xi_j$ 的技巧：
$\begin{aligned} d_{(i)}^T A d_{(j)} &= u_i^T A d_{(j)} + \sum_{k=0}^{i-1} \beta_{ik} d_{(k)}^T A d_{(j)} \\ 0 &= u_i^T A d_{(j)} + \beta_{ij} d_{(j)}^T A d_{(j)}, \qquad i>j \qquad \text{(by A-orthogonality of} \;d \; \text{vectors)} \\[0.5em] \beta_{ij} &= - \frac{u_i^T A d_{(j)}}{ d_{(j)}^T A d_{(j)} } \tag{37} \end{aligned}$

在共轭方向法 （Conjugate Directions）中应用格拉姆-施密特共轭 （Gram-Schmidt conjugation）的难点在于，之前所有的搜索向量都要保存在内存里，用于生成新的搜索向量。生成全部搜索向量的复杂度是 $\mathcal{O}(n^3)$

事实上，如果搜索向量是由轴向单位向量（axial unit vectors）的共轭来构造的，那么共轭方向（Conjugate Directions）就等价于执行高斯消元（Gaussian elimination），见图(25)。

(图25)

因此，在共轭梯度法（CG，Conjugate Gradient）被发现之前，共轭方向法（Conjugate Directions）很少被使用。CG 作为共轭方向法的一种，解决了这一问题。

理解共轭方向（以及共轭梯度）法的关键点是：图(25) 是图(21) 的拉伸版！请记住，当你在执行共轭方向的方法时（或者共轭梯度法），此时你也是在一个拉伸了的空间上执行正交方向法（Orthogonal Directions）。

7.3 Optimality of the Error Term（误差项的最优性）

共轭方向法有一个有趣的特性：它在每一步都能在允许探索的范围内找到最优解。它能在哪里找呢？

令 $D_i$ 为 $i$ 维子空间张成的空间 $\{d_{(0)}, d_{(1)}, \dots, d_{(i-1)}\}$ 。
$e_{(i)}$ 的值是从 $e_{(0)} + \mathcal{D}_i$ 里选出来的。

我说的“最优解”是什么意思呢，意思是共轭方向法从 $e_{(0)} + \mathcal{D}_i$ 选得一个值，使得 $e_{(i)} \|_A$ 最小。见图(26)。实际上，有一些作者是通过在 $e_{(0)} + \mathcal{D}_i$ 中最小化 $e_{(i)} \|_A$ 来推导出共轭梯度法。

(图26)

同样，误差项 $e$ 可以表示为搜索方向 $d$ 的线性组合。（公式(35) ）它的能量范数可以表示为求和。
$\begin{aligned} \|e_{(i)} \|_A &= \quad ? \\ &= \left( \sum_{j=i}^{n-1} \delta_{(j)} d_{(j)} \right)^T A \left( \sum_{k=i}^{n-1} \delta_{(k)} d_{(k)} \right) \\ &= \sum_{j=i}^{n-1} \sum_{k=i}^{n-1} \delta_{(j)} \delta_{(k)} d_{(j)}^T A d_{(k)} \qquad \text{(by Equation 35)} \\ &= \sum_{j=i}^{n-1} \delta_{(j)}^{2} d_{(j)}^T A d_{(j)} \qquad \text{(by A-orthogonality of } d \; \text{vectors)} \end{aligned}$

这个求和公式的每一项都是关于没有被遍历过的搜索方向。
在 $e_{(0)}+\mathcal{D}_i$ 空间中选择任意其它的 $e$ ，其展开式中，也会有与上面求和公式中相同的项，因此 $e_{(i)}$ 的能量范数一定是最小的。
（因为由于 $A$ -正交，很多项被消掉了。其它的 $e$ 还有很多项没有消掉，所以 $e_{(i)}$ 比他们小。）

上面用公式证明了最优性，现在我们从直觉上来看看是怎么回事。想要把共轭方向的工作原理和过程可视化，也许最好的方法是对两个空间进行比较，一个是我们正在用的空间，另一个是 “拉伸了” 的空间，就像图(22) 里那样。

(图27)

图(27)a 和图(27)c 展示了共轭方向法在 $\mathbb{R}^2$ 和 $\mathbb{R}^3$ 上的特性，图示里垂直出现的线是正交的。
另外一方面，图(27)b 和图(27)d 展示同样的画，但是它所在的空间是被拉伸过的（沿着特征向量的轴），因此等高线变成了圆形。
图里画的相互垂直的线都是 $A$ -正交的。

在图(27)a 里，共轭方向法从 $x_{(0)}$ 开始，在 $d_{(0)}$ 的方向上走一步，然后停在了 $x_{(1)}$ 上，在那里的误差向量 $e_{(1)}$ 与 $d_{(0)}$ 是 $A$ -正交的。为什么我们预期这里是 $x_{(0)}+\mathcal{D}_1$ 的最小值点呢？答案在图(27)b 里：在这个拉伸的空间里， $e_{(1)}$ 与 $d_{(0)}$ 垂直，因为他们是 $A$ -正交的。
误差向量 $e_{(1)}$ 是一组同心圆的半径，这个同心圆的轮廓由常量的 $e\|_A$ 形成。
因此， $x_{(0)}+\mathcal{D}_1$ 必定在 $x_{(1)}$ 处与 $x_{(1)}$ 所在的圆相切。
因此， $x_{(1)}$ 就是在 $x_{(0)}+\mathcal{D}_1$ 空间上的能最小化 $e_{(1)}\|_A$ 的那个点。

个人理解：
对于图(27)a， $x_{(0)} + \mathcal{D_1}$ 这个空间是一条直线，第 $1$ 步只能在这个空间上移动。
那么， $x_{(1)}$ 降落在哪里，才能使 $e\|_A$ 最小呢？显然，是与同心圆相切的地方。

这并不奇怪，我们已经在 7.1 节见过， $A$ -共轭（ $A$ -conjugacy）的搜索方向和误差项，等价于沿着搜索方向最小化 $f$ （同样也是最小化 $e\|_A$ ）。然而，在共轭方向法走了第 $2$ 步之后，沿着第 $2$ 个搜索方向 $d_{(1)}$ 最小化 $e\|_A$ ，为什么我们会预计 $e\|_A$ 在方向 $d_{(0)}$ 上仍然是被最小化的呢？走完 $i$ 步之后，为什么经过所有 $x_{(0)} + \mathcal{D}_i$ 之后 $f(x_{(i)})$ 就是最小的呢？

在图(27)b 里， $d_{(0)}$ 和 $d_{(1)}$ 表现为相互垂直，因为它们是 $A$ -正交的。很明显 $d_{(1)}$ 指向解 $x$ ，因为 $d_{(0)}$ 在 $x_{(1)}$ 处与圆心为 $x$ 的圆正切。然而， $3$ 维的例子更有启发性。图(27)c 和图(27)d 都各自展示了两个同心椭球体。 $x_{(1)}$ 位于外面一层的球体上， $x_{(2)}$ 位于里面那层的球体上。仔细观察这些图： $x_{(0)}+\mathcal{D}_2$ 这个平面切片穿过较大的椭球体，并在 $x_{(2)}$ 处于小椭球体相切。 $x$ 是球体的中心，在平面下面。

看着图(27)c ，我们重新表述我们的问题。假设你和我都站在 $x_{(1)}$ 处，想在 $x_{(0)} + \mathcal{D}_2$ 这个空间上走到某个位置，使得 $\|e\|$ 最小。但我们只能沿着搜索方向 $d_{(1)}$ 前进。如果 $d_{(1)}$ 指向最小的点，那我们就成功了。有没有什么理由期望 $d_{(1)}$ 会指向正确的方向呢？

图(27)d 给出了答案。由于 $d_{(1)}$ 和 $d_{(0)}$ 是 $A$ -正交的，它们在这个图中是垂直的。现在，假设你盯着平面 $x_{(0)}+\mathcal{D}_2$ ，就像它是一张纸一样；你所看到的景象将与图(27)b 完全相同。点 $x_{(2)}$ 将会在纸的中心，点 $x$ 将会处于纸的正下方，直接就在点 $x_{(2)}$ 正下面。因为 $d_{(1)}$ 和 $d_{(0)}$ 是垂直的， $d_{(1)}$ 直接指向 $x_{(2)}$ ，是在空间 $x_{(0)} + \mathcal{D}_2$ 里最靠近 $x$ 的点。平面 $x_{(0)} + \mathcal{D}_2$ 与 $x_{(2)}$ 所在的球面相切。如果你走第 $3$ 步，就会直接从 $x_{(2)}$ 下降到 $x$ ，在那个与 $\mathcal{D}_2$ “ $A$ -正交” 的方向上。

要用另外一种方式理解图(27)d 发生了什么，你可以想像你正站在解那里（解就是 $x$ ），拉动一条连着珠子的绳子，这个珠子被限定在平面 $x_{(0)}+\mathcal{D}_i$ 上。每当扩展子空间（expanding subspace） $\mathcal{D}$ 被放大一个维度，珠子就可以自由地靠近你一点。如果你把这个空间拉成图(27)c 那样，你就有了共轭方向法。

这个珠子的例子怎么解释呢？我是这样想的， $x_{(0)}+\mathcal{D}_1$ 这个空间是一条线， $1$ 维的。一开始珠子只能在这上面移动，所以就算把牵着珠子的线拉直了，珠子还是很远（在 $x_{(1)}$ 的地方）。然后珠子的活动空间扩展了一个维度，可以在 $x_{(0)}+\mathcal{D}_2$ 这个空间上活动，这个空间是一个面， $2$ 维的。继续拉珠子上的线，拉直后珠子来到了 $x_{(2)}$ ，离我们的 $x$ 又更近了。最后，再扩展一个维度，珠子能够在整个 $3$ 维空间上活动，这次再拉就把珠子拉到自己身边了，就到达了 $x$ 。

在这些插图中可以看到共轭方向的另一个重要性质，我们已经看到，在每一步中，超平面 $x_{(0)}+\mathcal{D}_i$ 与 $x_{(i)}$ 所处的椭球体正切。回想第4章，任意一点的残差与该点的椭球面正交，因此， $r_{(i)}$ 也与 $\mathcal{D}_i$ 正交。要用数学方法来证明这个现象，用 $d_{(i)}^TA$ 左乘式子(35) 得： $\begin{aligned} -d_{(i)}^TA e_{(j)}&= - \sum_{j=i}^{n-1} \delta_{(j)} d_{(i)}^TA d_{(j)} \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \; (38) \\ d_{(i)}^T r_{(j)} &= 0 , \qquad i−d(i)TAe(j)d(i)Tr(j)=−j=i∑n−1δ(j)d(i)TAd(j)(38)=0,i<j( by A-orthogonality ofd-vectors)(39)$

我们本可以通过另一种方法来推导出这个等式。回想一下，一旦我们朝着搜索方向迈出了一步，我们再也不需要朝着这个方向走了。误差项总是与所有旧的搜索方向 $A$ -正交。由于 $r_{(i)} = -Ae_{(i)}$ ，残差永远与所有旧的搜索方向正交。

由于搜索方向都是从向量 $u$ 构建而来的， $u_0, \dots,u_{i-1}$ 跨越的子空间是 $\mathcal{D}_i$ ，残差 $r_{(i)}$ 同样与前面这些 $u$ 向量正交（见图(28)）。通过计算式子(36) 与 $r_{(j)}$ 的内积可以证明。 $\begin{aligned} d_{(i)}^T r_{(j)} &= u_i^T r_{(j)} + \sum_{k=0}^{i-1} \beta_{ik} d_{(k)}^T r_{(j)} \qquad \qquad \qquad \qquad \qquad (40) \\ 0 &= u_{(i)}^T r_{(j)} , \qquad id(i)Tr(j)0=uiTr(j)+k=0∑i−1βikd(k)Tr(j)(40)=u(i)Tr(j),i<j( by Equation 39 )(41)$

还有一个等式我们稍后会用到。从式子(40) 和图(28) 有：
$d_{(i)}^T r_{(i)} = u_i^T r_{(i)} \tag{42}$

(图28)

最后，注意到，与最陡下降法一样，通过使用递推求残差，可以将每次迭代的矩阵-向量乘法的数量减少为 $1$ ： $\begin{aligned} r_{(i+1)} &= -A e_{(i+1)} \\ &= -A ( e_{(i)} + \alpha_{(i)} d_{(i)} ) \\ &= r_{(i)} - \alpha_{(i)} A d_{(i)} \tag{43} \end{aligned}$

你可能感兴趣的:(概念,人工智能,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
提高教师信息素养，提高道德与法治课教学效益长白159宋彦红
提高教师信息素养，提高道德与法治课教学效益随着经济和社会的发展，信息技术已经运用到课堂教学中，为课堂教学展示了一个崭新的天地。的确，信息技术形象、生动、直观性强，能够将课本中的一些抽想的概念直接展示在学生面前，从而调动学生的眼、耳、脑，让他们兴奋起来，变被动学习为主动学习，充分发挥教师的教育引导作用，创造一个可以使学生积极参与的场景。在制作、使用信息技术的实践过程中，本文拟就教师提升信息素养的必要
ios GCD _Waiting_
1.GCD任务和队列学习GCD之前，先来了解GCD中两个核心概念：任务和队列。任务：就是执行操作的意思，换句话说就是你在线程中执行的那段代码。在GCD中是放在block中的。执行任务有两种方式：同步执行（sync）和异步执行（async）。两者的主要区别是：是否等待队列的任务执行结束，以及是否具备开启新线程的能力。同步执行（sync）：同步添加任务到指定的队列中，在添加的任务执行结束之前，会一直等
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
现代汉语粗糙版文学史与经典学习搬运工
第十六章文学史与经典文学史的兴起在西方,虽然从亚里士多德开始,在人类的著述中已经可以找到文学史概念与写作方式的萌芽,但是,人们一般认为17世纪后期到18世纪是现代文学史写作真正开始的时期。长达百年波及整个欧洲的“古今之争”孕育出文学研究的历史意识,现代意义上的文学史观念在这场影响深远的论争中初见端倪。从18世纪晚期到19世纪初,由于席勒、弗·施莱格尔和赫尔德等人的介入,文学史研究逐渐变得复杂和成熟
到现在才发现自己有病骑着大脑去南极
原来人们真的喜欢对某一概念设限的，为什么这么说的，如果说工作，你可能在脑子浮现出的工作的大概印象就是被动的干着不喜欢的活，被动拿着那些微薄的工资的场景。但是也不排除可能把工作想成成长的样子的人，只是这种物种很少吧。就比如像病这个概念，大部分可能仅仅就把他局限在身体上出现的异常不舒服状况称之为病，直到近代才把病拓展到精神层面。。。最近才发现原来在精神层面上是有病的，原来曾经认为自己是一个无比健康的小
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
今日分享：有的孩子家长常常在对于小朋友老是说谎，还特别爱推卸责任，很头痛，不知道该怎么办！雨燕Cassie
其实六岁以前都不叫撒谎，只能叫做逃避和害怕，因为他们都是没有撒谎的这个概念，家长所谓的撒谎只能说是因为做错了事情，怕受到责罚而找一个「台阶」给自己一下而已，所以家长不能给孩子一个贴上撒谎的这个标签，如果说孩子出现家长所说的撒谎，我们应该做的是：1.允许孩子将事情的原委进行一个表达，给孩子说明的机会，不提示孩子说谎，不急著批评孩子。2.不使用问句，不恐吓和严刑逼供，耐心的以故事或者以分析的形式和孩子
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
2021-07-26 前方的前方
做最好的自己说起来挺可笑的，在很久久以前，我给自己做过很多很多的承诺。这个承诺就是，做最好的自己。但是，怎样去做，才能成为最好的自己，心中从来没有建立起一个清晰的概念。随着时间的流逝，慢慢的感觉到感觉到这个承诺离自己好象越来越远，那个心中最好的自己，一点一点的开始变的模糊起来。直到有一天，在给儿子打电话的时候，说给儿子的几句话，突然让我感觉到，随着时光无声划过，很多东西，已慢慢的成为了光荫的故事。
经纬恒润二面&三七互娱一面&元象二面 Redstone Monstrosity 面试前端
1.请尽可能详细地说明，进程和线程的区别，分别有哪些应用场景？进程间如何通信？线程间如何通信？你的回答中不要写出示例代码。进程和线程是操作系统中的两个基本概念，它们在计算机系统中扮演着不同的角色，并且在不同的应用场景中发挥作用。进程和线程的区别定义：进程：进程是操作系统进行资源分配和调度的基本单位。每个进程都有独立的内存空间和系统资源。线程：线程是进程内的一个执行单元，是操作系统进行调度的最小单位
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name