pp菌

共轭梯度

标签（空格分隔）：数值优化线性代数

这篇文章最早是在作业部落写的，但是没什么人访问，所以这里补录一下

本文介绍和总结共轭梯度(conjugate gradient)算法的如下内容：

共轭梯度算法的背景和由来
梯度算法的几何理解和共轭梯度算法的流程
基于SSOR预条件子的共轭梯度算法
非线性共轭梯度算法

背景

共轭梯度算法的由来，源于求解如下所示的二次型问题：
$KaTeX parse error: \tag works only in display equations$
如果对于问题的求解，可以被转化为如上所示的二次型表达式(Quadratic Form)的极值，那么求解这个问题的方法也称为二次规划(Quadratic Programming)
二次规划问题，有一个极好的性质，这个性质直接导致了该问题的求解有较好的几何解释，这个性质就是如果矩阵 $A$ 为对称矩阵，那么把这个函数对列向量 $x$ 求导取极值，得到的梯度方向向量 $x$ 满足：
$KaTeX parse error: \tag works only in display equations$
这个 $A x = b$ 是经典的线性代数求解线性方程组的问题，求极值即是求解线性方程组，而矩阵 $A$ 的性质，直接决定了梯度方向的情况。
对一个从 $n$ 维到 $1$ 维的函数映射 $f (x)$ ，对列向量求导即：
$f^{'}(x)=\begin{bmatrix} \frac{\partial f(x)}{\partial x_{1}} \\ \vdots\\ \frac{\partial f(x)}{\partial x_{n}} \end{bmatrix}\tag{3}$
如果仅仅只看二次型中的二次项，那么
$g(x)=x^TAx=\sum_{i=0}^{n}\sum_{j=0}^{n}a_{ij}x_ix_j \\ =... + \sum_{i=0}^{n}a_{ik}x_ix_k+\sum_{j=0}^{n}a_{kj}x_kx_j-a_{kk}x_kx_k + ...\\ =...+\sum_{i=0,i\ne k}^{n}a_{ik}x_ix_k + \sum_{j=0,j\ne k}^{n}a_{kj}x_kx_j+a_{kk}x_kx_k+...\\ \implies \frac{\partial g(x)}{\partial x_k}=\sum_{i=0}^{n}a_{ik}x_i+\sum_{j=1}^{n}a_{kj}x_j \tag{4}$
仔细观察上述表达式，可以发现，求导结果的第 $k$ 个元素等于矩阵 $A$ 的第 $k$ 行和第 $k$ 列分别与向量点积的结果，所以
$\frac{\partial g(x)}{\partial x}=A^Tx+Ax \implies \frac{\partial f(x)}{\partial x}=\frac{1}{2}(A^T+A)x-b\tag{5}$
如果A是对称矩阵的形式，那么，通过求导求解极值相当于求解方程组
$\tag{6}$
二次规划是一些问题的最简单的建模表达形式，比如，在EDA(电子电气自动化)软件开发中，有这样的需求，就是要对各个电子元器件在电路板或者FPGA的电路平面进行自动化布局。每个元器件可以抽象为一些有面积的方型块，然后通过设定一些约束，定义损失函数，最后，通过不断迭代减少损失函数，更新各个电路元件的坐标信息，最终得到各个电子元器件在电路中的较优的全局布局结果。这些图可以有多层，而且损失函数通常也是非线性的，迭代求解通常基于各种梯度下降算法。期间需要考虑各个图层每一块面积的覆盖率，重叠程度等等参数。
如果对问题进行全面的建模，那么自然会比较复杂，如果只考虑最简单的情况，通过把元器件视为一个点，同时通过引入锚点，那么这个问题可以被简化为二次规划问题，通常二次规划问题用于电子元器件的预布局，然后才引入非线性函数进一步处理。
如果优化的目标可以被简化为让各个元器件之间的 $x$ 和 $y$ 坐标之间的距离尽可能分散，那么此时损失函数等于
$cf=\sum_{i,j}w_{ij}((x_i-x_j)^2+(y_i-y_j)^2)+ \\ \sum_{f,H(f)}w_{fH(f)}((x_f - x_{H(f)})^2+(y_f-y_{H(f)})^2) \tag{7}$
如果令 $x=(x_1,x_2,...,x_n)^T$ ， $y=(y_1,y_2,...,y_n)^T$ ，那么，完全可以表达成两个二次型表达式，其中后半部分的 $w_{fH(f)}$ 表示的是锚点到可动点的权重，实际优化该函数，锚点部分只会对 $A$ 的对角线，以及 $b^T$ 有影响，优化的结果就是在锚点的约束下，各个点的距离之间尽可能小。
由于问题的特殊形式，问题的求解完全也可以把 $x$ 和 $y$ 左边分别分成两个部分：
$Ax=b_x \tag{8}$ $Ay=b_y \tag{9}$
也就是等价于求解线性方程组了

几何理解和共轭梯度算法的流程

共轭梯度算法来源于二次型问题的求解，二次型问题可以在几何上直观的理解，即使是最速梯度下降(Steepest Descent)，也可以这样来理解。

二次型的图形

二次型的几何图解完全取决于矩阵 $A$ ，如果 $A$ 是正定的矩阵，那么图像将会是：

也就是是一个碗状朝上的结构，因为对于正定矩阵来说，任何非零向量，都有：
$x^TAx>0 \tag{10}$
这个定义的本质是，所有的特征向量所对应的特征值都是正的，因为：
$x^TAx=x^T\lambda x>0 \implies \lambda > 0 \tag{11}$
对于二次型来说，求导的梯度方向由 $A x = b$ 决定， $A$ 正定(positive definite)，意味着各个向量 $x$ 变换到 $A$ 的列空间中得到的向量 $A x$ 都是单调递增的，所以二次型表达式(如果是二维的)的几何图形就是中间凹陷，四周往上的碗状。同理，可以定义半正定，负定等，那么图形就是：

对于既非负定也非正定的情况，就是马鞍型，这个不管使用什么梯度方法，理论上都可能不会收敛。对于更高维度的情况，其实也是类似的，这里边正定或者负定的属性，决定了梯度方向是不是单调递增/递减的。对二次型，后边都是基于对称正定矩阵来分析的，那些梯度方法也源于此来进行基本的几何分析。

Steepest Descent

对于最速梯度下降(Steepest Descent)而言，选定了初始的方向向量 $x_0$ 后，后续每一次迭代所选择的方向向量由当前的梯度方向决定：
$x_{i+1}=x_i+\alpha r_i \tag{12}$
其中 $r_i$ 是方向向量，默认就是取梯度的负方向。这个过程的本质，其实就是线搜索(line search)，如下图所示：

上图是二次型在变量维度为二维的时候的共势等高图，线是梯度负方向，每次迭代的本质就是在沿着这条线走，直到到达某点后停止，得到此时的向量 $x_{i+1}$ ，一般情况下，步长 $\alpha$ 是可以固定的，特别是在函数是非线性，且非常复杂的时候，要想每一次都计算最好的步长，可能是非常复杂且不划算的，不过对于二次型问题而言，我们却可以设法找到最优的 $\alpha$ ，通过查看上图的各个结果向量，为了更接近与最小点， $r_{i+1}$ 应该和 $r_i$ 正交，此时，才是沿着当前的搜索方向的最优解。因为这个时候，向量已经沿着该方向尽可能往这个方向走，且已经不可能贡献再多的效用了，再走就又回去了。
对于二次型，梯度负方向等于：
$f^{'}_i(x)=Ax_i-b \implies r_i=-f^{'}_i(x)=b-Ax_i \tag{13}$
利用正交关系进行推导，可以得到：
$r_{i+1}^Tr_i=(b-Ax_{i+1})^Tr_i=(b-A(x_i+\alpha r_i))^Tr_i=0 \\ (b-Ax_i)^Tr_i-\alpha r_i^TA^Tr_i=r^T_i-\alpha r_i^TAr_i=0$
所以
$\alpha=\frac{r_i^Tr_i}{r_i^TAr_i} \tag{14}$
这里边每次给出 $r_i$ 的时候都相当于直接求导了，如果根据迭代的形式给出下一个方向向量，那么
$r_{i+1}=b-Ax_{i+1}=b-A(x_i+\alpha r_i)=r_i-\alpha Ar_i \tag{15}$
用迭代的形式给出每一次的梯度方向向量，虽然也许能够节省计算开销，但是限于实际机器的浮点精度，可能会产生累积误差，所以一般也需要在迭代了几十次后，重新严格计算梯度，以避免传递误差过大。
这样我们就可以得到最速梯度下降算法的流程是：

import numpy as np


def steepest_descent(A, b, x_initial, max_step, thresh=0.00001):
    assert(isinstance(A, np.matrix))
    assert (isinstance(b, np.matrix))
    assert (isinstance(x_initial, np.matrix))
    x = x_initial
    for _ in range(max_step):
        r = b - A * x
        alpha = (r.transpose() * r) / (r.transpose() * A * r)
        x = x + r * alpha
        dist = np.sqrt(np.sum(np.square(b - A * x)))
        if dist < thresh:
            break
    return x


if __name__ == '__main__':
    N = 100
    Ar = np.mat(np.random.rand(N, N))
    As = Ar * Ar.transpose()  # get positive definite matrix
    bn = np.mat(np.random.rand(N, 1))
    xi = np.mat(np.zeros((N, 1)))
    xr = steepest_descent(As, bn, xi, 1000)
    print('1000:', np.sqrt(np.sum(np.square(bn - As * xr))))
    xr = steepest_descent(As, bn, xi, 10000)
    print('10000:', np.sqrt(np.sum(np.square(bn - As * xr))))
    xr = steepest_descent(As, bn, xi, 20000)
    print('20000:', np.sqrt(np.sum(np.square(bn - As * xr))))

上边的Python代码体现了SD的最直接流程，梯度都是直接计算的，实际真的要应用，还要考虑稀疏矩阵，计算效率问题，否则效率太低了，也没有使用价值。当然，这个只用于二次型问题。
对一些非线性函数问题，就需要通过别的方式求导，而且步长 $\alpha$ 也需要确定，或者设定个固定值！如下所示是该代码的一次运行结果：

1000: 1.9453821317304896
10000: 0.9116628408830175
20000: 0.6950563935826073

Conjugate Gradient

运行SD的例子，会发现，随机生成的一个对称矩阵，迭代了几万次仍然不收敛，可以见得，按照SD的理论公式求解 $A x = b$ 效果有些不理想，收敛过慢。在数值优化里边，一个矩阵迭代求解方法是否收敛，取决于这个矩阵是否严格对角占优，即
$A=(a_ij), \forall i \in [1, n], |a_{ii}| \gt \sum_{i \ne j}|a_{ij}| \tag{16}$
越是严格对角占优，越是收敛得越快。
SD这个方法，使用梯度方向，每次选择梯度方向都和上一次的正交，这样迭代的结果取决于初始点的选择和 $A$ ，如果初始点不理想，可能一直在锯齿状的接近极值点，但是迭代多次后仍然不能命中。
对于当前的二次型而言，不是多么复杂的问题，变量的维度也许就是 $n$ 而已，存不存在这样的迭代方法，使得每一次迭代，都消减一个维度方向，后边的方向和前边的方向都完全正交呢？这样的话，我只需要 $n$ 步迭代就可以直接命中极值点了。这个思想，我觉得就是CG背后的想法。如果选择 $n$ 个线性无关的向量 $u_1,u_2,...,u_n$ ，那么依据施密特(Gram-Schmidt Process)正交化的过程，每个方向向量为：
$d_i=u_i+\sum_{k=0}^{i-1}\beta_{ik}d_k \tag{17}$

Conjugate Direction

在CG中，引入了共轭方向的概念。这个概念本质上就是对正交的推广，任何向量在欧几里得空间内正交意味着：
$x^Ty=0 \tag{18}$
如果引入矩阵 $A$ ，且
$x^TAy=0 \tag{19}$
那么称向量 $x$ 和 $y$ 是 $A$ 正交的，这里边 $A$ 都是方阵，看起来就像是把变量线变换到 $A$ 的行列空间中，然后这些向量在 $A$ 的行列空间中正交。这些两两 $A$ 正交的向量被称为共轭方向向量。如果给个图解，那么就会如下图所示：

前后两个方向向量是 $A$ 正交(A-orthogonal)的，意味着 $d_i^TAd_j=0$ ,即使这两个向量在当前空间不正交，在 $A$ 的空间中正交也行，可以想象，当前空间中的所有向量都变换到 $A$ 的空间后，着两个向量在 $A$ 空间中就是正交的。

二次型的标准化

上边的过程容易让人联想起线性代数中的二次型标准化过程，二次型标准化，首先通过平移变换，让二次型变成了如下的形式：
$f(x)=x^TAx \tag{20}$
然后找寻 $A$ 的 $n$ 个标准正交的特征向量 $C=(c_1,c_2,...,c_n)$ ，然后做如下变换：
$\implies f(x)=x^TAx=y^TC^TACy=y^T\Lambda y \tag{21}$
最终 $A$ 变成了对角矩阵的形式，这个时候对应的二次型的几何图形就是很标准的碗状了
个人觉得， $A$ 正交也是希望在 $A$ 标准化后的空间中正交。其实标准化前后，所代表的线性空间是不变的。在几何理解里边，都以标准化后的空间中的向量来分析理解。

CG的推导过程

二次型的基本迭代流程还是不变的：
$x_{k+1}=x_{k}+\alpha_{k}d_k \tag{22}$
如果采用迭代求解梯度，那么下边的等式仍然成立：
$r_{k+1}=r_k-\alpha_{k}Ar_k \tag{23}$
对等式22向 $\alpha_{k}$ 求导：
$\frac{\partial f(x_{k+1})}{\partial \alpha_{k}}=f^{'}(x_{k+1})^T\frac{\partial x_{k+1}}{\partial \alpha_k} \\ =-r_{k+1}^Td_k=-(Ax-Ax_{k+1})^Td_k=-d_k^TAe_{k+1}=0 \\ \implies d_k^TAe_{k+1}=0 \tag{24}$
可以看到，最优的步长是使得下一个误差方向和当前的方向 $A$ 正交，由于
$e_{k+1}=e_k+\alpha_kd_k \tag{25}$
所以
$d_k^TA(e_k+\alpha_kd_k)=0 \implies \alpha_k=-\frac{d_k^TAe_k}{d_k^TAd_k}=\frac{d_k^Tr_k}{d_k^TAd_k}\\ e_k=x_k-x, Ax=b \tag{26}$
最优的步长因子和当前的梯度和方向向量均相关。从上边的表达式知道，当前反向和剩余误差方向是 $A$ 正交的，而我们也希望：
$d_k^TAd_{k+1}=0 \tag{27}$
如果下一个方向向量和当前的也 $A$ 正交就好了，当然了，如果下一个方向向量 $d_{k+1}$ 刚好选择到了剩余的误差向量 $e_{k+1}$ ，那么下一次迭代就会直接命中极值点了，但是一般这个是不可能的，因为 $e_{k+1}$ 是依赖于 $\alpha_k$ 的，会有循环求解的问题，除非我们已经知道解了，否则我们是得不到 $e_{k+1}$ 的，而且在高维空间中，和 $d_k$ 向量 $A$ 正交的向量是有很多个的，我们希望的是找到一个 $d_{k+1}$ 满足上边表达式即可，于此同时，也满足
$d_k^TAd_m=0, \forall m \lt k \tag{28}$
这样每次迭代都减少了一个维度，那么，最多 $n$ 步就可以收敛了。
这个过程，在变量为二维的情况下理解，大概如下图所示：

这些椭圆是三维图形在二维的等势面，其实就是 $f (x)$ 相等的值所构成的一个椭圆。
一开始选择梯度作为初始方向，也就是等势椭圆的切线，下一步，由于取 $A$ 正交关系， $d_1$ 和 $e_1$ 是同向的，两步就命中结果了。对应到 $A$ 的空间中，这个椭圆就是个圆。变量是四维的情况，也可以用下图表示：

变量为三维的情况，加上因变量实际上是四个维度的，由于二次型也可以描述能量关系，所以相等能量的各个三维自变量构成的图形在三维就是个椭球体。映射到 $A$ 的空间中其实就是个标准的球型。每次迭代搜寻的方向向量，都是和过去所有的方向向量 $A$ 正交的，三维的情况可以看得比较明显，那就是 $d_1^Td_0=0, e_1^Td_0=0, e_1 \ne d_1$ ，也就是方向向量在高维度的情况下，即使和过去的方向向量都 $A$ 正交，但是也不能说这个方向向量就是当前的错误向量。但是从事实出发，错误向量 $e$ 随着每次迭代，都减少了各个方向向量的那部分，所以，错误向量 $e_0$ 即，一开始，初始点到极值点的错误向量可以表示为：
$e_0=\sum_{j=0}^{n-1}\delta_jd_j \tag{29}$
而等式28中又限定了各个方向向量的关系，所以可以：
$d_k^TAe_0=\sum \delta_kd_k^TAd_j=\delta_kd_k^TAd_k \\ \implies \delta_k=\frac{d_k^TAe_0}{d_k^TAd_k}=\frac{d_k^TA(e_0 + \sum_{j=0}^{k-1}\alpha_jd_j)}{d_k^TAd_k}=\frac{d_k^TAe_k}{d_k^TAd_k} \\ \implies \delta_k=\frac{d_k^Tr_k}{d_k^TAd_k}=-\alpha_k \tag{30}$
所以
$e_0=-\sum_{j=0}^{n-1}\alpha_jd_j \\ \implies e_k=e_0 + \sum_{j=0}^{k-1}\alpha_jd_j=-\sum_{j=k}^{n-1}\alpha_jd_j \tag{31}$
上边的推到也证明，只要我们满足条件

条件1：各个方向向量 $d_i$ 和 $d_j$ 之间两两 $A$ 正交
条件2：通过求导让每一次迭代的步长因子 $\alpha$ 取得最优

那么每一次迭代求解的过程，其实就是相当于减少了这个方向向量上的误差，每一步的误差向量可以被表示为方向向量的连加的形式，这样只需要迭代 $n$ 步后就会直接收敛到极值点。这个和我们在几何上边的理解是完全一致的。
只是，我们该如何选择这些方向向量 $d_k$ 呢？
如果仅仅只是随便选择一组线性无关的构造基 $u_1,u_2,...u_n)$ ，然后如同等式17那样构造方向向量，并满足 $A$ 正交，那么：
$\forall i > j, d_i^TAd_j=u_i^TAd_j+\sum_{k=0}^{i-1}\beta_{ik}d_k^TAd_j=0 \\ \implies \beta_{ij}=-\frac{u_i^TAd_j}{d_j^TAd_j} \tag{32}$
通过这一种方式，也可以得到如何去构造所有的方向向量，只是，任何方向向量 $d_i$ 都和过去的 $i - 1$ 个向量相关，而且每次迭代还需要求解系数，这样就直接导致了计算所需的内存和时间开销巨大，没有实用价值。所以这一组构造基不应该随便选。而应该让等式32得出的各个系数拥有良好的关系，减少计算所需的开销。
事实上，共轭方法，在一开始提出的时候，确实存在实现上的困难，不过通过仔细查看这些关系，我们还没有把梯度向量引入。
在计算过程中，我们始终要得到当前点的梯度，在上边两个条件满足的情况下，观察错误向量，梯度等之间的关系：
$\forall i \lt j, -d_i^TAe_j=-\sum_{j=p}^{n-1}\delta_jd_i^TAd_j=-d_i^Tr_j \\ \implies d_i^Tr_j=0 \tag{33}$
也就是说，任何迭代后期的梯度 $r_j$ 都是和之前的方向 $d_i$ 在当前空间正交的，进一步的
$d_i^Tr_j=u_i^Tr_j+\sum_{k=0}^{i-1}\beta_{ik}d_k^Tr_j=0 \\ \implies u_i^Tr_j=d_i^Tr_j \ne 0, j = i \\ \implies u_i^Tr_j=d_i^Tr_j=0, \forall j \gt i \tag{34}$
结合前边的所有关系，可以得到如下图所示的关系图：

图中所示， $u_2$ 和 $d_2$ 到 $r_2$ 的投影是相等的，所以末端所在的平面和 $d_0$ 以及 $d_1$ 所在的平面共面。通过上边的各个关系可以知道，没有必要取选择别的基 ${u_k}$ ，直接让 $u_k=r_k$ 就是最优的选择，这个时候，各个向量的关系图将会变成如下所示：

这样做的直接结果有：
$\alpha_k=\frac{d_k^Tr_k}{d_k^TAd_k}=\frac{r_k^Tr_k}{d_k^TAd_k} \tag{35}$
$\beta_{ij}=-\frac{u_i^TAd_j}{d_j^TAd_j}=-\frac{r_i^TAd_j}{d_j^TAd_j},\forall i\gt j \\ r_i^Tr_{j+1}=r_i^T(r_j-\alpha_jAd_j) \\ \implies r_i^TAd_j=\frac{1}{\alpha_j}(r_i^Tr_j-r_i^Tr_{j+1}) \\ \implies r_i^TAd_j=0,\beta_{ij}=0,\forall i>j+1 \\ \implies r_i^TAd_j=-\frac{1}{\alpha_j}r_i^Tr_i,\\ \beta_{i,j+1}=\frac{r_{i}^Tr_{i}}{r_{i-1}^Tr_{i-1}},i=j+1 \tag{36}$
综合前边所属，CG的流程可以被表示为：

$d_0=r_0=b-Ax_0$
for loop until reach max_step or cost_function below threshold:
$\qquad \alpha_k=\frac{r_k^Tr_k}{d_k^TAd_k}$
$\qquad x_{k+1}=x_k+\alpha_kd_k$
$\qquad r_{k+1}=r_k-\alpha_kAd_k\space or \space r_{k+1}=b-Ax_{k+1}$
$\qquad \beta_{k+1}=\frac{r_{k+1}^Tr_{k+1}}{r_k^Tr_k}$
$\qquad d_{k+1}=r_{k+1}+\beta_{k+1}d_k$
return $x_n$

使用Python代码实现：

import numpy as np


def conjugate_gradient(A, b, x_initial, max_step, threshold=0.00001):
    assert(isinstance(A, np.matrix))
    assert(isinstance(b, np.matrix))
    assert(isinstance(x_initial, np.matrix))
    r_old = b - A * x_initial
    d = r_old
    x = x_initial
    for i in range(max_step):
        alpha = (r_old.transpose() * r_old) / (d.transpose() * A * d)
        x = x + d * alpha
        # r_new = b - A * x
        r_new = r_old - A * d * alpha
        beta = (r_new.transpose() * r_new) / (r_old.transpose() * r_old)
        d = r_new + d * beta
        r_old = r_new
        cf = np.sqrt(np.sum(np.square(b - A * x)))
        if cf < threshold:
            print("Using step: ", i)
            break
    return x


if __name__ == '__main__':
    N = 200
    Ar = np.mat(np.random.rand(N, N))
    As = Ar * Ar.transpose()
    bn = np.mat(np.random.rand(N, 1))
    xi = np.mat(np.random.rand(N, 1))
    xr = conjugate_gradient(As, bn, xi, 1000)
    print('1000:', np.sqrt(np.sum(np.square(bn - As * xr))))
    xr = conjugate_gradient(As, bn, xi, 10000)
    print('10000:', np.sqrt(np.sum(np.square(bn - As * xr))))

运行上述程序的一个输出：

Using step:  410
1000: 6.43707958798e-06
Using step:  410
10000: 6.43707958798e-06

大约需要两倍于维度的迭代次数才可以收敛到要求的范围，虽然理论上100维的变量值需要100次迭代，但是实际上各种浮点数运算误差导致不可能实现这样理想化的结果。通过对比会发现，迭代效果要比SD要好。当然了，实际使用的时候，判断损失函数其实没必要通过那样的形式。而且可以几十次迭代后才计算一下等等。

基于SSOR预条件子的共轭梯度算法

方程组的迭代求解

上边的迭代算法，本质上其实还是在求解形如 $A x = b$ 的方程。毕竟最终的结果，都是让 $e = A x - b$ 尽可能的接近于零。一般情况下，对于 $A x = b$ 的求解，通常直接通过求逆 $x=A^{-1}b$ 得到，这就存在求矩阵的逆可能不存在等等问题。如果 $A$ 不是方阵，且 $\gt \gt n$ ，那么就是在求解超定方程组，方程组可能没有解，求解 $A x = b$ 的过程就会等效于最小二乘，因为，为了让误差最小，其实就是让最终的的解 $Ax=b^{'}$ 得到的 $b^{'}$ 离 $b$ 最近，那么 $b^{'}$ 只能是 $b$ 到 $A$ 的列空间的投影，所以它们之间的差和 $A^T$ 的列空间正交，所以有
$A^T(Ax-b)=0 \implies x = (A^TA)^{-1}A^Tb \tag{37}$
即使 $A$ 是非方阵，但是 $A^TA$ 却是对称方阵，所以求解逆是可行的，这个时候其实还是转换成了
$A^TAx=A^Tb,b^{'}=A^Tb, A^{'}=A^TA \implies A^{'}x=b^{'} \tag{38}$
所以还是可以使用上边的梯度迭代方法来求解。所以可以见得，线性系统问题，即可以表达为求解 $A x = b$ 的系统问题，还是比较多的。
求解的方法，除了直接求逆，以及高斯的LU分解，其它的基本就是迭代方法了。最早的迭代有高斯-赛德尔迭代，SOR等，它们都是首先把 $A$ 拆分:
$\tag{39}$
也就是把矩阵拆解成对角，上三角，下三角的形式，对于高斯-赛德尔方法，把 $(D + L + U) x = b$ 变成了：
$(L+D)x_{k+1}=-Ux_k+b \\ x_{k+1}=D^{-1}(b-Ux_k-Lx_{k+1})\tag{40}$
提取成对角，上下三角矩阵的原因，恐怕还是因为逆矩阵好算。上边的过程，每次迭代其实都是循环回代的过程，所以等式40右边有 $x_{k+1}$ ，其实是说要用当前解出来的那些新的变量值的意思。
对于SOR来说，则引入了松弛系数 $w$ ，迭代过程是
$x_{k+1} =(wL+D)^{-1}[(1-w)Dx_k-wUx_k]+w(D+wL)^{-1}b \tag{41}$
上边的等式其实是用了 $w (D + L + U) x = w b$ 转换而来。
这些方法都有其收敛条件，在数值优化中有分析。
对于稀疏矩阵，或者是对称正定矩阵来说，还是一般使用本篇总结的梯度迭代方法。只不过值得留意的却是， $A x = b$ 竟然对应于一个二次型的极值求解过程

Precondition

在数值分析里边，矩阵迭代求解的收敛速度取决于矩阵条件数：
$\cdot ||A||^{-1} \tag{42}$
其中 $∣ ∣ A ∣ ∣$ 是矩阵范数，数值分析里边研究了矩阵迭代的收敛很大程度上取决于条件数，而预条件方法就是为了减少条件数，快速收敛。详细的分析很复杂，详情可看数值分析教材，这里只阐述用于共轭梯度算法的预条件过程。
预条件是希望找到一个 $M$ ，将问题转化为求解：
$M^{-1}Ax=M^{-1}b \tag{43}$
其中 $M$ 是 $\times n$ 的可逆矩阵，称为预条件矩阵。在改进的共轭梯度方法中，这个矩阵 $M$ 是对称正定的。这个矩阵试图对 $A$ 逆转，从而让 $A$ 的条件数降低。此外，还引入了一种广义 $M$ 内积 $v,w)_M=v^TMw$ 来取代欧几里得内积，所有内积默认都改成 $M$ 内积，原始的共轭梯度方法仍然成立，因为矩阵 $M^{-1}A$ 相对于新的内积仍然是对称正定矩阵：
$(M^{-1}Av,w)_M=v^TAM^{-1}Mw\\ =v^TAw=v^TMM^{-1}Aw=(v,M^{-1}Aw)_M \tag{44}$
那么，由于CG的推到基本都是基于 $v^TAw$ 的形式，如果把等式44的内积结果应用到所有推导的过程，就有：
$z_k=M^{-1}b-M^{-1}Ax_k=M^{-1}r_k \\ \alpha_k=\frac{(z_k, z_k)_M}{(d_k, M^{-1}Ad_k)_M} \\ x_{k+1}=x_k+\alpha_kd_k \\ z_{k+1}=z_{k}-\alpha_kM^{-1}Ad_k \\ \beta_k=\frac{(z_{k+1},z_{k+1})_M}{(z_k,z_k)_M} \\ d_{k+1}=z_{k+1}+\beta_kd_k \tag{45}$
这里边一个有意思的地方在于，这个方法，把 $v^TM^{-1}w$ 的欧几里得的内积，替换成了 $v, M^{-1}Aw)_M$ ，定义内积在 $M$ 的逆空间里边，因为 $M$ 内积仍然满足普通内积该有的性质，所以可以完全替代欧几里得内积，公式仍然不发生变化。
进一步转换可以得到：
$(z_k,z_k)_M=z_k^TMz_k=z_k^Tr_k \\ (d_k,M^{-1}Ad_k)_M=d_k^TMM^{-1}Ad_k=d_k^TAd_k \\ (z_{k+1},z_{k+1})_M=z_{k+1}^Tr_{k+1} \tag{46}$
对于SSOR(对称连续过松弛)预条件子来说：
$M=(D+wL)D^{-1}(D+wU),w \in (0,2) \\ \implies M^{-1}=(D+wU)^{-1}D(D+wL)^{-1} \tag{47}$
总结上边的过程可以得到，SSOR预条件子的共轭梯度算法的流程是：

$r_0=b-ax_0,z_0=M^{-1}r_0,d_0=z_0$
for loop until reach max_step or cost_function below threshold:
$\qquad \alpha_k=\frac{z_k^Tr_k}{d_k^TAd_k}$
$\qquad x_{k+1}=x_k+\alpha_kd_k$
$\qquad r_{k+1}=r_k - \alpha_kAd_k$
$\qquad z_{k+1}=M^{-1}r_{k+1}$
$\qquad \beta_{k+1}=\frac{z_{k+1}^Tr_{k+1}}{z_k^Tr_k}$
$\qquad d_{k+1}=z_{k+1}+\beta_{k+1}d_k$
return $x_n$

对应的Python代码：

import numpy as np

def get_ssor_precondition_matrix(A, w):
    UD = np.triu(A)
    LD = np.tril(A)
    dim = A.shape[0]
    D = np.mat(np.zeros((dim, dim)))
    for i in range(dim):
        D[i, i] = A[i, i]
    for i in range(dim):
        for j in range(i+1, dim):
            UD[i, j] = w * UD[i, j]
    for i in range(dim):
        for j in range(0, i):
            LD[i, j] = w * LD[i, j]
    # 对上下三角矩阵求逆矩阵，其实不必用通用的求逆方法，不停回代即可
    return np.mat(np.linalg.inv(UD)) * D * np.mat(np.linalg.inv(LD))


def precondition_conjugate_gradient(A, b, x_initial, max_step,
                                    threshold=0.00001, w=0.2):
    assert(isinstance(A, np.matrix))
    assert(isinstance(b, np.matrix))
    assert(isinstance(x_initial, np.matrix))
    r_old = b - A * x_initial
    M_inv = get_ssor_precondition_matrix(A, w)
    z_old = M_inv * r_old
    d = z_old
    x = x_initial
    for i in range(max_step):
        alpha = (z_old.transpose() * r_old) / (d.transpose() * A * d)
        x = x + d * alpha
        # r_new = b - A * x
        r_new = r_old - A * d * alpha
        z_new = M_inv * r_new
        beta = (z_new.transpose() * r_new) / (z_old.transpose() * r_old)
        d = z_new + d * beta
        r_old = r_new
        z_old = z_new
        cf = np.sqrt(np.sum(np.square(b - A * x)))
        if cf < threshold:
            print("Using step: ", i)
            break
    return x


if __name__ == '__main__':
    N = 200
    Ar = np.mat(np.random.rand(N, N))
    As = Ar * Ar.transpose()
    bn = np.mat(np.random.rand(N, 1))
    xi = np.mat(np.random.rand(N, 1))
    xr = precondition_conjugate_gradient(As, bn, xi, 1000, 0.00001, 0.05)
    print('w=0.05:', np.sqrt(np.sum(np.square(bn - As * xr))))
    xr = precondition_conjugate_gradient(As, bn, xi, 1000, 0.00001, 0.5)
    print('w=0.5:', np.sqrt(np.sum(np.square(bn - As * xr))))
    xr = precondition_conjugate_gradient(As, bn, xi, 1000, 0.00001, 1)
    print('w=1:', np.sqrt(np.sum(np.square(bn - As * xr))))

运行三次的结果：

runfile('C:/Users/zczx1/.spyder-py3/temp.py', wdir='C:/Users/zczx1/.spyder-py3')
Using step:  378
w=0.05: 6.71578034331e-06
Using step:  405
w=0.5: 9.67223926338e-06
Using step:  573
w=1: 8.09438315554e-06

runfile('C:/Users/zczx1/.spyder-py3/temp.py', wdir='C:/Users/zczx1/.spyder-py3')
Using step:  371
w=0.05: 6.1508910381e-06
Using step:  401
w=0.5: 8.51261715479e-06
Using step:  602
w=1: 7.57385104633e-06

runfile('C:/Users/zczx1/.spyder-py3/temp.py', wdir='C:/Users/zczx1/.spyder-py3')
Using step:  373
w=0.05: 6.44798434081e-06
Using step:  406
w=0.5: 6.55294163482e-06
Using step:  580
w=1: 8.13783429322e-06

虽然随机生成的矩阵不太能说明问题，但是这个只能说，在松弛系数比较小的时候，PCG和CG相比，相对来说减少了迭代的次数。但是当松弛系数较大的时候，还不如CG。

非线性共轭梯度算法

算法流程

上边的总结，都是在二次型问题上进行的分析。可以看到，虽然算法本身的实现比较简单，但是算法背后的数学思路如果进行严谨地推导的话，还是有些复杂的，不过因为有了几何的理解，所以也还是比较直观。
但是如果这个问题的表达式函数 $f (x)$ 是非线性的，共轭梯度的思想仍然可以被推广，只是形式上不那么精确。而事实上，就算严格按照上边的算法流程，通过上边的实践也会发现，由于round off误差，其实不能达到理论的计算效果，所以在某种程度上近似求解也是可以的。回顾共轭梯度算法和核心，其实就两个：

依据步长和方向向量更新解向量，即 $x_{k+1}=x_k+\alpha_kd_k$
利用梯度更新方向向量，即 $d_{k+1}=r_{k+1}+\beta_{k+1}d_{k}$
其中， $r_k=-f^{'}(x_k),d_0=-f^{'}(x_0)$ ，我们只需要考虑怎么选择 $\alpha_k$ 和 $\beta_{k+1}$ 即可
对 $\alpha_k$ ，是希望找到这样的步长因子使得 $f^{'}(x_k+\alpha_kd_k)^Td_k=0$ ，本质上还是希望下一个梯度方向和当前的方向向量正交，这个时候应该就是最优的解，和SD中的线搜索是类似的。不过，在实际的实现中，可能只是设置一个固定值，然后乘以一个比例，这个比例随着迭代的进行可能会变得越来越小。所以:
$\alpha_k=argmin(f(x_k + \alpha_kd_k) \space or \space \alpha_k=C\times radio \tag{48}$
而对于 $\beta_{k+1}$ ，不同的学者提出了使用不同的公式，比如：
$\beta_{k+1}^{FR}=\frac{r_{i+1}^Tr_{i+1}}{r_i^Tr_i} \tag{49}$
$\beta_{k+1}^{PR}=max(0, \frac{r^T_{k+1}(r_{k+1}-r_{k})}{r_k^Tr_k}) \tag{50}$
也还有很多其它的计算方法，不过显然，这些只是一种近似求解的方法。因为非线性的损失函数各种各样，精确的求解不现实。这样，非线性CG的流程如下:

$d_0=r_0=-f^{'}(x_0)$
for loop until max step or $f^{'}(x) \lt thresh$ :
$\qquad \alpha_k=argmin(f(x_k+\alpha_kd_k))$
$\qquad x_{k+1}=x_k+\alpha_kd_k$
$\qquad r_{k+1}=-f^{'}(x_{k+1})$
$\qquad \beta_{k+1}^{PR}=max(0, \frac{r^T_{k+1}(r_{k+1}-r_{k})}{r_k^Tr_k})$
$\qquad d_{k+1}=r_{k+1}+\beta_{k+1}d_k$

非线性函数中最优 $\alpha$ 的选择

寻求最优的步长因子的过程其实就是广义线搜索，根据泰勒级数展开，有：
$f(x+\alpha d) \approx f(x)+\alpha [\frac{d}{d\alpha}f(x+\alpha d)]_{\alpha=0}+\frac{\alpha^2}{2}[\frac{d^2}{d\alpha^2}f(x+\alpha d)]_{\alpha=0} \\ = f(x)+\alpha[f^{'}(x)]^Td+\frac{\alpha^2}{2}d^Tf^{''}(x)d \tag{51}$
$\frac{d}{d\alpha}f(x+\alpha d) \approx [f^{'}(x)]^Td+\alpha d^Tf^{''}(x)d=0 \\ \implies \alpha=-\frac{f^{'}(x)^Td}{d^Tf^{''}(x)d} \tag{52}$
从等式52中，可以看到二次型中求解最优 $\alpha$ 的影子，如果是二次型，那么就是 $\alpha=\frac{r^Td}{d^TAd}$ 的形式了，不过对于非线性问题来说，就需要计算二阶导数。二阶导数为：
$f^{''}(x)= \begin{bmatrix} \\ \frac{\partial^2f}{\partial x_1 \partial x_1} & \frac{\partial^2f}{\partial x_1 \partial x_2} & \cdots & \frac{\partial^2f}{\partial x_1 \partial x_n}\\ \frac{\partial^2f}{\partial x_2 \partial x_1} & \frac{\partial^2f}{\partial x_2 \partial x_2} & \cdots & \frac{\partial^2f}{\partial x_2 \partial x_n}\\ \vdots & & \ddots & \\ \frac{\partial^2f}{\partial x_n \partial x_1} & \frac{\partial^2f}{\partial x_n \partial x_2} & \cdots & \frac{\partial^2f}{\partial x_n \partial x_n}\\ \end{bmatrix} \tag{52}$
其实就是求解Hessian矩阵。这个计算量可谓真的大，而且随着迭代，这个矩阵的具体数值，可能还是需要不断计算的，这个开销几乎是不可忍受的，所以严格的计算步长因子基本是不可取的。何况有些时候，可能都求不出二阶导，也无怪乎实际应用中，直接给个固定步长乘以比例了事。与其算这个矩阵那么复杂，不如多迭代几次。

非线性函数求导简介

非线性CG需要对函数进行求导，而求导的方法，目前有:

公式法
符号微分法
自动微分法
这些根据具体场景来实现，只是非线性CG迭代流程就是如上所示的过程。
值得注意的是，非线性函数的这个过程，最终收敛到的可能只是局部极值，和初始值的选择相关。如果初始值在一个类二次型的区域，那么就可以收敛到这块区域的极值点。

总结

本文总结了本人学习EDA软件中布局算法中使用到的共轭梯度相关的内容。共轭梯度算法，应用到实际工程当中，可能还是使用非线性的部分内容，只是由于也是近似的求解，所以和随机梯度下降相比也没有太多的优势，毕竟都是和初始点相关，所以引入更多的随机性，也许可以取得更好的效果！

参考资料

1. An Introduction to the Conjugate Gradient Method Without the Agonizing Pain
2. Numerical Analysis

@fsfzp888
2019 年 01月

你可能感兴趣的:(机器学习基础)

Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【机器学习基础】Anaconda与Pycharm使用叫我东方小巴黎机器学习基础人工智能
这里写目录标题指定py版本安装包指定py版本安装包condaenvlistactivatexxxcondalistpipinstallxxx
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
应用数学与机器学习基础 - 线性代数篇绎岚科技机器学习深度学习机器学习线性代数
线性代数1.标量、向量、矩阵、张量学习线性代数，会涉及以下几个数学概念：标量（scalar）：定义：一个标量就是一个单数的数，不同于线性代数中大多数概念会涉及到多个数。表示法：我们用斜体表示标量。标量通常赋予小写的变量名称。当我们介绍标量时，会明确它们是哪种类型的数。比如，在定义实数标量时，我们可能会说”让s∈Rs\in\mathbb{R}s∈R表示一条线的斜率“；在定义自然数标量时，我们可能会说
机器学习基础篇（八）——逻辑回归柚子味的羊数据分析机器学习机器学习算法逻辑回归
机器学习基础篇（八）——逻辑回归一、简介分类问题是机器学习中常见的一种问题，而逻辑回归则是非常适合二分类问题的一种算法。逻辑回归可以将数据集中的点划分成为两个类别。例如，我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率，如果它低于0.5，那么就属于A类。如果高于0.5，那么该数据点属于B类。（大部分情况下阈值设为0.5，特定情况下也可以设置为其他值）举个栗子如图所示，学生考试是否成
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
【机器学习基础】正则化为梦而生~ 机器学习机器学习人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！后面的内容会越来越有意思~⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】机器学习入门（1）【机器学习基础】机器学习入门（2）【机器学习基础】机器学习的基本术语【机器学习基础】机器学习的模型评
机器学习基础（一）理解机器学习的本质昊昊该干饭了人工智能 python 机器学习人工智能 python
导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。目录机器学习机器学习概念相关概念机器学习根本：模型数据的语言：特征与标签训练与测试：模型评估机器学习的分类监督学习：有指导的学习过程非监督学习：自我探索的过程强化学习：通过试错学习构建与分析鸢尾花数据模型鸢尾花数据集简介加载数据集创建和训练模型进行预测与评估模型机器学习机器学习概念机器学习是人工智
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
四、机器学习基础概念介绍 ITS_Oaij 脑电机器学习机器学习人工智能
四、机器学习基础概念介绍1_机器学习基础概念机器学习分类1.1有监督学习1.2无监督学习2_有监督机器学习—常见评估方法数据集的划分2.1留出法2.2校验验证法（重点方法）简单交叉验证K折交叉验证（单独流出测试集）（常用方法/Sklearn的默认方法）k折交叉验证（不单独留出测试集）留一法交叉验证Subject-wise交叉验证2.3bootstrap自助法3_有监督机器学习—学习评价指标3.1准
【机器学习 & 深度学习】开发工具Anaconda的安装与使用为梦而生~ 机器学习python实战机器学习深度学习 python conda pycharm 人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络学习笔记【Python基础&机器学习】Python环境搭建（适合新手阅读的超详细教程）文章目录前言安装Anaconda关于Anaconda的介
跨模态行人重识别都需要学什么 ALGORITHM LOL 人工智能
跨模态行人重识别（Cross-ModalityPersonRe-identification,简称Cross-ModalityRe-ID）是计算机视觉领域的一项挑战性任务，旨在跨越不同模态之间（例如，可见光与红外线图像）识别同一行人。该任务涉及图像处理、特征提取、模态转换、深度学习等多个方面。1.基础知识计算机视觉与图像处理：理解图像基础（如像素、色彩空间）、图像变换、图像增强技术。机器学习基础：
ChatGPT学习大纲冷暖从容 ChatGPT chatgpt 学习人工智能
引言在2023年2月份左右开始使用ChatGPT时，就被它强大的理解能力和应答效果所折服，这期间一直在断断续续的学习和使用，也没形成一个完整的学习过程，最近刚好有空，就寻思着好好再学习总结一下，故写出了ChatGPT学习系列的文章，供与大家学习交流。第1周-ChatGPT基础知识ChatGPT简介了解ChatGPT的基本功能和应用场景。人工智能与机器学习基础学习AI和机器学习的基本概念，为理解
机器学习概述及流程机智的冷露机器学习人工智能机器学习 python
概述一、目标1、掌握机器学习基础环境安装2、掌握常用的科学计算库对数据进行展示、分析二、人工智能三要素1、数据2、算法2、算力：CPU适合I/O密集型程序，GPU适合计算密集型和易于并行的程序。三、人工智能主要分支1、计算机视觉（CV）2、自然语言处理（NLP）：文本挖掘/分类、机器翻译、语音识别3、机器人四、机器学习工作流程简介从数据中自动分析获得模型，再利用模型对未知数据进行预测。1、获取数据
机器学习基础——matplotlib.pyplot和seaborn的使用小螳螂
importmatplotlib.pyplotaspltimportnumpyasnp第一步生成数据集x=np.linspace(-3,3,50)#平均采样,[-3,3]采样50个x.shape(50,)y1=2*x+1y1.shape(50,)y2=x**2y2array([9.00000000e+00,8.28029988e+00,7.59058726e+00,6.93086214e+00,6
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）程序员一诺 python笔记人工智能深度学习深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
机器学习入门-----sklearn 辣椒酱. python 机器学习 sklearn 人工智能
机器学习基础了解概念机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来定义：从数据中自动分析获得模型，并利用模型对特征数据【数据集：特征值+目标值构成】进行预测算法数据集的目标值是类别的话叫做分类问题；目标值是连续的数值的话叫做回归问题；统称监督学习；另一类是无监督学习，这一类的数据集没有目标值，典型：聚类；做什么可以进行传统预测、图像识别、自然语言处理传统预测店铺销量预测、量化
【机器学习】科学库使用手册第2篇：机器学习任务和工作流程（已分享，附代码）程序员一诺 python笔记机器学习人工智能机器学习人工智能
本系列文章md笔记（已分享）主要讨论人工智能相关知识。主要内容包括，了解机器学习定义以及应用场景，掌握机器学习基础环境的安装和使用，掌握利用常用的科学计算库对数据进行展示、分析，学会使用jupyternotebook平台完成代码编写运行，应用Matplotlib的基本功能实现图形显示，应用Matplotlib实现多图显示，应用Matplotlib实现不同画图种类，学习Numpy运算速度上的优势，知
【深度学习】从0完整讲透深度学习第2篇：TensorFlow介绍和基本操作（代码文档已分享）程序员一诺 python笔记深度学习人工智能深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
机器学习基础、数学统计学概念、模型基础技术名词及相关代码个人举例是lethe先生机器学习人工智能
1.机器学习基础（1）机器学习概述机器学习是一种人工智能（AI）的分支，通过使用统计学和计算机科学的技术，使计算机能够从数据中学习并自动改进性能，而无需进行明确的编程。它涉及构建和训练机器学习模型，以便能够对未见过的数据进行预测或做出决策。机器学习的基本目标是通过从数据中发现模式和规律，自动提取和学习数据中的特征，并用这些特征构建预测模型或分类模型。（2）数学统计学概念1、概率论：概率论是研究随机
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
【机器学习 & 深度学习】卷积神经网络简述为梦而生~ 机器学习深度学习机器学习人工智能深度学习神经网络 cnn 计算机视觉自然语言处理
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】一元线性回归（适合初学者的保姆级文章）【机器学习基础】多元线性回归（适合初学者的保姆级文章）【机器学习基础】决策树（
【Python基础 & 机器学习】Python环境搭建（适合新手阅读的超详细教程）为梦而生~ 机器学习python实战 python 机器学习开发语言人工智能数据挖掘 pycharm
个人主页：为梦而生~关注我一起学习吧！重要专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍python网络爬虫从基础到实战：Python的主流应用领域之一，也可以与人工智能领域相结合的技术往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述【python爬虫开发实战&情感分析
深度学习知识点汇总-机器学习基础（5）深度学习模型优化
2.5分类算法的评估指标有哪些？图1混淆矩阵上图中术语解释：TP（Truepositives）。表示被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；FP（Falsepositives）。表示被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；FN（Falsenegatives）。表示被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；TN（Tru
机器学习基础2 qingxi_ran 机器学习人工智能
提示：MachneLearning机器学习吴恩达目录一、JupyterNotebooks（数据分析神器）二、回归模型（线性回归）三、分类模型（离散）四、术语一、JupyterNotebooks（数据分析神器）机器学习和数据科学从业者使用最广泛的工具在命令行输入pipinstalljupyter在命令行输入jupyternotework熟练使用jupyternotebook（三天）二、回归模型（线性
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

共轭梯度

共轭梯度

背景

几何理解和共轭梯度算法的流程

二次型的图形

Steepest Descent

Conjugate Gradient

Conjugate Direction

二次型的标准化

CG的推导过程

基于SSOR预条件子的共轭梯度算法

方程组的迭代求解

Precondition

非线性共轭梯度算法

算法流程

非线性函数中最优 α \alpha α的选择

非线性函数求导简介

总结

参考资料

你可能感兴趣的:(机器学习基础)

非线性函数中最优 $\alpha$ 的选择