orion-orion

数值最优化：一阶和二阶优化算法(Pytorch实现)

1 最优化概论

(1) 最优化的目标

最优化问题指的是找出实数函数的极大值或极小值，该函数称为目标函数。由于定位\(f(x)\)的极大值与找出\(-f(x)\)的极小值等价，在推导计算方式时仅考虑最小化问题就足够了。极少的优化问题，比如最小二乘法，可以给出封闭的解析解(由正规方程得到)。然而，大多数优化问题，只能给出数值解，需要通过数值迭代算法一步一步地得到。

(2) 有约束和无约束优化

一些优化问题在要求目标函数最小化的同时还要求满足一些等式或者不等式的约束。比如SVM模型的求解就是有约束优化问题，需要用到非线性规划中的拉格朗日乘子和KKT条件。这里我们仅介绍无约束优化，有约束优化放在后面的章节讲解。

(3) 线性和非线性规划

线性函数是指目标函数和约束都为线性的优化问题，非线性规划是指目标函数和约束有一个为非线性的优化问题。线性规划一般在运筹学（经济模型、图论网络流等）中有重要运用，而非线性规划在机器学习中有着重要的运用。我们把主要目光放在非线性规划。

(4) 凸优化和非凸优化

按照斯坦福 Boyd 教授(编写凸优化圣经《convex optimization》的那位)的观点，优化问题的分水岭不是线性和非线性，而是凸和非凸。这句话侧面说明了凸优化做为一种特殊的优化问题，显得非常重要，尤其是在机器学习领域。那么为什么凸优化会如此重要呢？首先我们拉看什么是凸函数。凸函数的定义如下：
① \(Ω\)为凸集，如果对任意的\(x_1，x_2 \in Ω\)以及每一个\(α(0\leqslant \alpha \leqslant 1)\)，有 \(f(αx_1+(1-\alpha)x_2)<=αf(x_1) + (1-α)f(x_2)\)，则称定义在凸集上的函数\(f\)是凸的(convex)。
② \(Ω\)为凸集，如果对每一个\(α(0<α<1)\)以及\(x_1，x_2 \in Ω\)且\(x_1\neq x_2\)，有\(f(αx_1+(1-α)x_2)<αf(x_1) + (1-α)f(x_2)\)则称\(f\)是严格凸的(strictly convex)。
以下展示了几个凸函数的图像例子，从几何角度看没如果图形中两点的连线处处都不在图形的下方，则函数是凸的。或者做为二维空间中的函数，如果函数的图形是碗状的，这个函数就是凸的。

那么凸函数有什么神奇的性质值得我们为之兴奋呢？我们有定理：\(f\)是至少含有一个内点的凸集\(Ω\)上的凸函数，当前仅当\(f\)的Hessian矩阵\(\bm{H}\)在整个\(Ω\)上是半正定的。
此处Hessian矩阵正是函数的曲率概念在\(\R^n\)上的推广，凸函数在每个方向上都有正（至少是非负）的曲率。如果一个函数的Hessian矩阵在一个小区域内是半正定的，则称该函数是局部凸的；如果Hessian矩阵在这个区域内是正定的(但不妨碍我说\(\bm{H}\)在整个\(Ω\)上是半正定的，细品)，则称这个函数是严格局部凸的(locally strictly convex)。
以下插入一下函数极值点的必要和充分条件的介绍：

函数极值点的必要和充分条件

而我们对于任意一个无约束优化问题，函数的最值是要满足一阶必要条件和二阶必要条件的。
一阶必要条件： 设\(Ω\)是\(\R^n\)的一个子集并且\(f\)是\(Ω\)上的函数。如果\(\bm{x}^*\)是\(f\)在\(Ω\)上的相对极小点，那么对\(\bm{x}^*\)点处的任意一个可行的方向\(\bm{d}∈\R^n\)，有\(∇f(\bm{x}^*)\bm{d}>=0\)。一个非常重要的特殊情形发生在当\(\bm{x}^*\)在\(Ω\)内部时(\(\bm{x}^*\)是\(Ω\)的内点，\(Ω=\R^n\)就对应这种情形)。在这种情况下，从\(\bm{x^*}\)发散出去的每个方向都是可行方向，因此对所有的\(\bm{d}∈\R^n\)，都有\(\nabla f(\bm{x}^{*})\bm{d}>=0\)，这就意味着\(\nabla f(\bm{x}^*)=0\)。
二阶必要条件： 设\(Ω\)是\(\R^n\)的一个子集并且\(f\)是\(Ω\)上的函数。如果\(\bm{x}^*\)是\(f\)在\(Ω\)上的相对极小点，那么对\(\bm{x}^*\)处的任意一个可行方向\(\bm{d}∈Ω\)，有：
① \(∇f(\bm{x}^*)\bm{d}>=0\)
② 如果\(∇f(\bm{x}^*)\bm{d}=0\)，那么\(d^T∇^2f(\bm{x}^*)\bm{d}>=0\)

同样的，我们在无约束情形下，设\(\bm{x}^*\)是集合\(Ω\)的内点。并且设\(\bm{x}^*\)是函数\(f\)在\(Ω\)上的一个内点，那么:
① \(\nabla f(\bm{x}^*)=0\)
② 对所有\(\bm{d}\)，\(\bm{d}^T∇^2f(\bm{x}^*)\bm{d}\geqslant0\)（这个条件等价于说明Hessian矩阵\(\bm{H}\)是半正定的)

二阶充分条件：稍微加强一下二阶必要条件的条件②，我们就能得到\(\bm{x^*}\)是相对极小点的条件：
① \(∇f(\bm{x}^*)=0\)；
② \(\bm{H}(\bm{x}^*)\)正定。
那么\(\bm{x}^*\)是\(f\)的一个严格相对极小点(因为严格正定，不存在Hessain矩阵\(\bm{H}\)特征值为0的困扰)

而上面说了，如果Hessian矩阵在这个区域内是正定的，则称这个函数是严格局部凸的(locally strictly convex)，故我们看出上面说的的二阶充分条件要求在每个点\(\bm{x}^*\)处的函数是严格局部凸的。
推广之，设\(f\)是定义在凸集\(Ω\)上的凸函数，那么使函数达到极小值的点集\(Γ\)是凸集，并且\(f\)的相对极小点也是全局极小点。
这下大家应该知道凸函数的好处了，凸函数没有“坑坑洼洼”，相对极小就是全局极小，这样找到相对极小点就可以收功，便于设计出高效的优化算法，如我们求解SVM中的SMO算法(SVM是个凸优化问题)。而有很多“坑坑洼洼”的函数想要找到全局极小点是NP-hard问题，只能采用遗传算法、退火算法这类启发式算法进行求解。我们在深度学习中的大多数函数（可以把带激活层的神经网络当成一个嵌套的函数）是非凸的，不过我们找到这类函数的全局最小值意义不大，一般我们找到局部极小拟合程度就足够好，从而可以解决我们的问题了。因此，在神经网络中我们一般不采用启发式算法来优化，多是采用随机梯度下降、拟牛顿法、动量法等“更正统”的优化算法来找到局部最优解以近似全局最优解。

2 不使用导数的无约束优化——Fibonacci 搜索（也称黄金分割搜索）

(1) 线搜索算法

在一条已知的直线（只有一个变量）上确定极小点的过程，被称为线搜索（line search）。对于一般不能解析地求极小值的非线性函数，这一过程实际上是采用一些巧妙的沿直线搜索的方法来实现的。这些线搜索技巧实际上就是求解一维极小化问题的方法，因为高维问题最终是通过进行一系列逐次线搜索来求解的，所以这些线搜索方法是非线性规划算法的基石。

(2) 黄金分割搜索

求解线搜索问题的一个最普遍的方法是本节所描述的斐波那契搜索方法。一旦解的范围已知，黄金分割搜索是一种有效找出单变量函数\(f(x)\)的最小值的方式。我们假设\(f\)是一个单峰函数，在区间\([a,b]\)上具有相对极小。选择区间内的两点\(x_1\)和\(x_2\)，使得\(a。我们将使用新的更小的区间替换原始区间。根据以下法则该区间可以继续括住极小值。如果\(f(x_1)\leqslant f(x_2)\)，则在下一步中保持区间\([a, x_2]\)。如果\(f(x_1)>f(x_2)\)，则保持\([x_1, b]\)。如下图所示。

不过，我们如何将\(x_1\)和\(x_2\)放置在区间\([a,b]\)上呢?我们在选择\(x_1\)和\(x2\)时有两个标准：
(a) 关于区间保持对称(由于我们不知道极小在区间的哪一侧)
(b) 选择\(x_1\)和\(x_2\)使得不管在下一步中使用哪种选择，\(x_1\)和\(x_2\)都是下一步中的某个采样点。为了简化讨论，我们以\([a,b]=[0, 1]\)为例子，可以推广到其他区间。即要求\(x_1 = 1 - x_1\)(关于区间中心对称)，\(x_1 = x_2^2\)。如下图所示，如果新区间为\([0, x_2]\)，标准(b)保证原始的\(x_1\)将会在下个区间中变为\(x_2\)，因而仅仅需要进行依次函数求值，即\(f(x_1g)\)，（这里\(g\)为\(x_2\)的初始值）同样，如果新的区间为\([x_1, 1]\)，则\(x_2\)变为新的"\(x_1\)"。这种重用函数求值的能力意味着在第一步后，每步仅需要目标函数的单次求值。每轮迭代演示如下：

根据上图所示，我们需要选择黄金分割搜索的比例，即\(x_2\)所放置的位置。旧区间和新区间的比例为\(1/g = (1+ \sqrt{5})/2\)，即黄金分割。这样，每轮放置的\(x_1 = 1-g=(1+ \sqrt{5})/2，x_2 = g = ( \sqrt{5} − 1)/2=0.618\)，如下图所示：

下面我们采用黄金分割算法求

\[f(x)=x^6-11x^3+17x^2-7x+1 \]

在区间\([0,1]\)上的最小值：

import numpy as np
import math
def gss(f, a, b, k):
    g = (math.sqrt(5)-1)/2
    # 计算x1和x2
    x1 = a + (1-g)*(b-a)
    x2 = a + g*(b-a)
    f1, f2 = f(x1), f(x2)
    for i in range(k):
        if f1 < f2 :
            # 依次更新b, x2, x1
            b = x2
            x2 = x1
            # 这里代码设计的很巧妙，b是已经更新后的新b
            x1 = a + (1-g)*(b-a)
            f2 = f1
            f1 = f(x1)
        else:
            a = x1
            x1 = x2
            x2 = a + g*(b-a)
            f1 = f2
            f2 = f(x2)
    y = (a+b)/2    
    return(a, b), y
if __name__ == '__main__':
    a, b = 0, 1
    k = 15
    (a,b), y = gss(lambda x: x**6-11*x**3+17*x**2-7*x+1, a, b, k)
    print("(%.4f, %.4f)"%(a, b), y)

算法的运行结果如下：

(0.2834, 0.2841) 0.28375198388070366

可以看到函数\(f(x)=x^6-11x^3+17x^2-7x+1\)在区间\([0,1]\)上的最小值在\(0.2834\)到\(0.2841\)之间，可以近似为\(0.28375\)。

3 使用一阶导数的无约束优化——梯度下降法

设\(f\)是多元函数，\(\bm{x}^{(t)}\)和\(\bm{x}^{(t+1)}\)都是向量。梯度下降法的迭代式为：

\[\bm{x}^{(t+1)} = \bm{x}^{(t)}-η∇f(\bm{x}^{(t)}) \]

这里\(η\)是优化算法的迭代步长，在机器学习领域一般称为学习率。学习率做为机器学习算法的一个重要的超参数，其大小对机器学习模型的学习效果有着重要影响，太小了迭代算法可能根本无法收敛，太大了可能产生震荡而错过极小值。
下面我们采用梯度下降算法求函数

\[f(\bm{x}) = 5x_1^4 + 4x_1^2x_2 - x_1x_2^3 + 4x_2^4 - x_1 \]

的最小值(采用Pytorch框架求梯度)：

import numpy as np
import math
import torch

#x.grad为Dy/dx(假设Dy为最后一个节点)
def gradient_descent(x0, k, f, eta): #迭代k次,包括x0在内共k+1个数
    # 初始化计算图参数
    x = torch.tensor(x0, requires_grad=True)
    for i in range(1, k+1):
        y = f(x)
        y.backward() 
        with torch.no_grad(): 
            x -= eta*x.grad
        x.grad.zero_()  #这里的梯度必须要清0，否则计算是错的
    x_star = x.detach().numpy()
    return f(x_star), x_star 

# 多元函数，但非向量函数（指返回值为向量）
def f(x):
    return 5*x[0]**4 + 4*x[0]**2*x[1] - x[0]*x[1]**3 + 4*x[1]**4 - x[0]

if __name__ == '__main__':
    x0 = np.array([1.0, -1.0])
    k = 25 # k为迭代次数
    eta = 0.01 # ita为迭代步长
    minimum, x_star = gradient_descent(x0, k, f, eta)
    print("the minimum is %.5f, the x_star is: ( %.5f, %.5f)"\
        % (minimum, x_star[0], x_star[1]))

该算法运行结果如下：

the minimum is -0.44577, the x_star is: ( 0.52567, -0.41689)

可以看到，算法最终收敛到点\(x^*=( 0.52567, -0.41689)^T\)，最小值为\(-0.44577\)。
(注意，这里的求导操作采用的Pytorch内置的Autograd工具，关于Autograd工具的使用，请查阅Pytorch官方文档(地址: https://pytorch.org/tutorials/beginner/basics/autogradqs_tutorial.html)，这里不再赘述。Pytorch中的Autograd求梯度采用的是反向传播算法(类似与动态规划从后往前逐步计算导数)，后面我们在讲解多层感知机的时候会学习这个算法，这里会调用tensor.backward()这个API使用即可。

4 使用二阶导数的无约束优化——牛顿法

（1）引例：牛顿法求方程的根

我们现在有个问题是求函数的。为了找到函数\(f(x)=0\)的根，给定一个初始估计\(x^{(0)}\)，画出函数\(f\)在\(x^{(0)}\)点的切线，用切线来近似函数\(f\)，求出其与\(x\)轴的交点做为函数\(f\)的根，但是由于函数\(f\)的弯曲，该交点可能并不是精确解，因而，该步骤要迭代进行。
从下面的几何图像中我们可以推出牛顿方法的公式。

\(x^{(0)}\)点的切线斜率可由导数\(f^{'}(x^{(0)})\)给出，切线上的一点是\((x^{(0)}, f(x^{(0)}))\)。一条直线的点斜率方程是\(y-f(x^{(0)}) = f^{'}(x^{(0)})(x-x^{(0)})\)，因而切线和\(x\)轴的交点等价于在直线中令\(y=0\)：

\[\begin{aligned} & f^{'}(x^{(0)})(x-x^{(0)}) = 0 - f(x^{(0)}) \\ \Rightarrow \quad & x-x^{(0)} = -f(x^{(0)})/f^{'}(x^{(0)}) \\ \Rightarrow \quad &x=x^{(0)}-f(x^{(0)})/f^{'}(x^{(0)}) \end{aligned} \]

求解\(x\)得到根的近似，我们称之为\(x^{(1)}\),然后重复整个过程，从\(x^{(1)}\)开始，得到\(x^{(2)}\)，等等，进而得到如下的牛顿法迭代公式：

\[\left \{ \begin{aligned} & x^{(0)} = 初始估计\\ & x^{(t+1)} = x^{(t)} - f(x^{(t)})/f^{'}(x^{(t)}) \\ \end{aligned} \right. \]

下面我们采用牛顿法求方程

\[f(x) = x^3 + x - 1 = 0 \]

的根如下：

import numpy as np
import math
import torch
#x.grad为dy/dx(假设dy为最后一个节点)
def newton(x0, k, f): #迭代k次,包括x0在内共k+1个数
    # 初始化计算图参数
    x = torch.tensor([x0], requires_grad=True)
    for i in range(1, k+1):
        # 前向传播，注意x要用新的对象，否则后面y.backgrad后会释放
        y = f(x)
        y.backward() # y.grad是None
        # 更新参数
        with torch.no_grad(): 
            x -= torch.divide(y, x.grad)   
        x.grad.zero_() # 清空梯度，使下一轮建立新的计算图，否则因为backward释放资源下一轮再backward出错
        #注意x.grad不能是0，否则要出错使g(x)/x.grad变为none
    return x.detach().numpy()[0]
if __name__ == '__main__':
    f = lambda x: x**3 + x - 1
    x0 = 1.0
    res = newton(x0, 10, f)
    print(res)

该算法运行结果如下：

0.6823278

可以看到，最终方程的根收敛到0.6823278

（2）牛顿法求多元函数极值

牛顿法的基本思想是利用一个二次函数局部地近似要极小化的函数\(f\)(对于\(f\)是多元函数的情况，即在某个特定的点用一个曲面去近似函数)，然后求出这个近似函数的精确极小点。例如在\(\bm{x}^{(t)}\)附近我们用\(f\)的二阶泰勒展开式来近似\(f\)，即：

\[f(\bm{x})≈q(\bm{x})=f(\bm{x}^{(t)})+∇f(\bm{x}^{(t)})(\bm{x}-\bm{x}^{(t)})+\frac{1}{2}(\bm{x}-\bm{x}^{(t)})^T\bm{H}(\bm{x}^{(t)})(\bm{x}-\bm{x}^{(t)}) \]

求上式右端的极小点，即使用上面介绍的牛顿法求解方程\(q^{'}(x)=0\)。
即

\[0 = q^{'}(\bm{x}) = ∇f(\bm{x}^{(t)}) + \bm{H}(\bm{x}^{(t)})(\bm{x}-\bm{x}^{(t)}) \]

这样，我们通过求使得\(q\)的导数为零的点来计算\(f\)极小点\(\bm{x}\)的一个估计值\(\bm{x}^{(t+1)}\)。于是可以得到：

\[\bm{x}^{(k+1)} = \bm{x}^{(t)} - \bm{H}^{-1}(\bm{x}^{(t)})∇f(\bm{x}^{(t)}) \quad (修正后可能引入阻尼因子η) \]

这就是牛顿法的迭代式。如果目标函数单峰，在区间中具有极小值，则使用极小值附近的初始估计开始牛顿方法的计算，这将会收敛到极小值\(\bm{x}^*\)。不过，直接使用矩阵求逆算法复杂度较高(矩阵求逆算法见《Introduction to algorithms》矩阵运算一章)，我们这里采用直接求解方程\(\bm{H}(\bm{x}^{(t)})\bm{v} = -∇f(\bm{x}^{(t)})\)，并令\(\bm{x}^{(t+1)} = \bm{x}^{(t)} + \bm{v}\)，这样可以提高计算效率(虽然复杂度仍然是\(O(n^3)\)，但常数阶减少了)。下面我们采用牛顿法求多元函数

\[f(\bm{x}) = 5x_1^4 + 4x_1^2x_2 - x_1x_2^3 + 4x_2^4 - x_1 \]

的极值算法如下：

import numpy as np
import math
import torch
from torch.autograd.functional import hessian
from torch.autograd import grad
# 多元函数，但非向量函数
def f(x):
    return 5*x[0]**4 + 4*x[0]**2*x[1] - x[0]*x[1]**3 + 4*x[1]**4 - x[0] 

#x.grad为Dy/dx(假设Dy为最后一个节点)
def gradient_descent(x0, k, f, alpha): #迭代k次,包括x0在内共k+1个数
    # 初始化计算图参数
    x = torch.tensor(x0, requires_grad=True)
    for i in range(1, k+1):
        y = f(x)
        y.backward() 
        # 1阶导数可以直接访问x.grad
        # 高阶倒数我们需要调用functional.hession接口，这里返回hession矩阵
        # 注意，Hession矩阵要求逆
        H = hessian(f, x)
        with torch.no_grad():
            # 如果为了避免求逆，也可以解线性方程组Hv = -x.grad，使x+v
            # v = np.linalg.solve(H, -x.grad)
            # x += torch.tensor(v)
            x -= torch.matmul(torch.inverse(H), x.grad)
        x.grad.zero_() 
    x_star = x.detach().numpy()
    return f(x_star), x_star 

if __name__ == '__main__':
    x0 = np.array([1.0, 1.0])
    k = 25 # k为迭代次数
    eta = 1 # 
    alpha = 0
    # 基于牛顿法的推导，在最优解附近我们希望eta=1
    minimum, x_star = gradient_descent(x0, k, f, alpha)
    print("the minimum is %.5f, the x_star is: ( %.5f, %.5f)"\
        % (minimum, x_star[0], x_star[1]))

该算法运行结果如下：

the minimum is -0.45752, the x_star is: ( 0.49231, -0.36429)

一般而言牛顿法因为利用了二阶导数信息，收敛速度比一阶方法比如梯度下降法要快。
不过牛顿法需要计算Hessian矩阵\(\bm{H}\)的逆，需要\(O(n^3)\)的时间复杂度，\(n\)在这里是变量的维度，在机器学习模型里就是需要优化参数的个数。后来出现了牛顿法的近似版本——拟牛顿法BFGS。

(3) 拟牛顿法求多元函数极值

Broyden-Fletcher-Goldfarb-Shanno(BFGS)算法具有牛顿法的一些优点，但没有牛顿法的计算负担。拟牛顿法所采用的方法(BFGS是其中最突出的)是使用矩阵\(\bm{M}^t\)近似逆，迭代地近似更新精度以更好地近似\(\bm{H}^{-1}\)。
BFGS的近似的说明和推导出现在很多关于优化的教科书中，包括Luenberger和叶荫宇编著的《Linear and nonlinear programming》第10章。当Hessian逆近似\(\bm{M}^t\)更新时，变量的最后更新为：

\[\bm{x}^{(t+1)} = \bm{x}^{(t)} - η\bm{M}^{t}∇f(\bm{x}^{(t)}) \]

观察公式可知，如果矩阵\(\bm{M}^t\)是\(f\)的Hessian矩阵的逆，这一公式就是牛顿法的迭代公式，如果\(\bm{M}^k= \bm{I}\)(单位矩阵)，这一公式对应最速下降法。这里我们选取\(\bm{M}^t\)做为Hessian矩阵逆的近似。不过，即使如此，BFGS算法必须存储Hessian逆矩阵\(\bm{M}^t\)，需要\(O(n^2)\)的存储空间，使BFGS不适用于大多数具有百万级参数的现代深度学习模型。

5、组合优化和 NP-Hard 问题介绍

以上我们讨论的连续问题的求解算法，这些问题最大的特点就是我们要优化的变量都是连续型的数值。然而还有一类问题是离散(组合)优化问题，这类问题要优化的变量常常都是离散的整数，比如最短路径问题、0-1背包问题、旅行商问题(TSP)、哈密顿回路、欧拉回路、网络流问题等，这类问题有些和离散数据结构，比如树、图等有关。这些问题在计算机科学领域有些得到了经典的专用算法，如解决单源最短路径的Dijkstra算法、多源最短路径的Floyd-Warshell算法；解决网络流问题的Ford-Fulkerson算法等，时间复杂度相对较低；但有些问题没有经典的专用算法，需要写成线性规划（常常是整数规划）的形式进行解决，这样算法的时间复杂度往往很高，甚至多项式时间内不可解。
这类问题有些可以在多项式时间内给出解法，如0-1背包问题、欧拉回路问题、网络流问题等，有些在多项式时间内不可解，如旅行商问题(TSP)、哈密顿回路等。（有趣的是，欧拉回路和哈密顿回路极其相似，欧拉回路是使一次性经过所有边的步数最小，哈密顿回路是使一次性经过所有点的步数最小，但欧拉回路在多项式时间内可解，哈密顿回路则不然）我们一般把在多项式时间内无法找到全局最优解的问题称为NP-Hard的。一般神经网络想找到全局最优解就是NP-Hard的，不过我们常常用局部最优解来近似全局最优解，这样就已经能取得不错的拟合效果了。故如何将问题表述成线性规划形式可参见《Introduction to algorithms》第29章；具体的P问题、NP问题、NPC问题(NP完全问题)、NP-Hard问题的关系可参见《Introduction to algorithms》第34章。

知名程序库和源码阅读建议

(1) Scipy

Python 的科学计算库 Scipy 封装了包括线性规划在内的很多优化算法。熟练使用Scipy也是机器学习工程师的必备技能之一。除此之外，在数学建模类似的比赛中Numpy+Scipy+Scikit-learn+Matplotlib等的组合也是可以媲美Matlab的一大杀器。
文档地址：https://docs.scipy.org/doc/scipy/index.html
源码地址：https://github.com/scipy/scipy

你如果想进一步在运筹学领域发展（包括不限于凸优化、组合优化、图论、动态规划、近似算法等）从事诸如美团物流法研发工程师等岗位，那么你可以进一步接触大规模优化工具，比如CPLEX，Gurobi，Xpress等商业优化求解器（算法包）其实，运筹学和控制论无处不在，强化学习的核心—Bellman-Ford方程就源于最优控制和动态规划。

(2) CPLEX

文档地址：https://www.ibm.com/analytics/cplex-optimizer
源码地址：不开源

(3) Gurobi

文档地址：https://www.gurobi.com/
源码地址：不开源

(4) Xpress

文档地址：https://www.fico.com/en/products/fico-xpress-optimization
源码地址：不开源

自动求导和计算图是深度学习的精华，它是数学和工程的结合，是一个艺术品，熟练掌握Tensorflow和Pytorch等框架的自动求导机制非常重要，尤其是后面搭建神经网络模型的时候方便debug。后面我们会详细介绍自动求导机制所用到的反向传播算法的底层实现，这里大家可以先通过阅读官方文档和源码的方式熟悉下。（Tensorflow和Pytorch的核心源码都是C++，需要一定的C++甚至 CUDA 的基础(因为涉及到GPU并行加速))

(5) Pytorch

文档地址: https://pytorch.org/
源码地址：https://github.com/pytorch/pytorch

(6) Tensorflow

文档地址: https://tensorflow.google.cn/
源码地址：https://github.com/tensorflow/tensorflow

最后，Pytorch 也好，Tensorflow 也罢，它们所采用的自动求导机制都是数值求导，最终只能求出导数的数值。假如说我想知道一个给定函数的符号求导的导函数解析式呢？或者说我给定一个函数式子，想知道这个式子的不定积分解析式是什么样的呢?(尤其是在完成数学作业的时候，尤其是高数Ｏ（∩＿∩）Ｏ哈哈～）这个时候就像你郑重推荐Python的符号计算库sympy。这玩意有多厉害大家自己下去研究了，我曾经试过它成功积出了21年大学生数学竞赛最后一道压轴题的一道积分，最后每一项都一模一样。。。阅读它的源码也会让你体会到与数值计算不同的另一个世界——符号计算世界的魅力。

(7) sympy

文档地址: https://www.sympy.org/en/index.html
源码地址：https://github.com/sympy/sympy

参考文献

[1] Luenberger D G, Ye Y. Linear and nonlinear programming[M]. Reading, MA: Addison-wesley, 1984.
[2] Boyd S, Boyd S P, Vandenberghe L. Convex optimization[M]. Cambridge university press, 2004.
[3] Timothy sauer. 数值分析(第2版)[M].机械工业出版社, 2018.
[4] Cormen T H, Leiserson C E, Rivest R L, et al. Introduction to algorithms[M]. MIT press, 2009.

你可能感兴趣的:(数值最优化：一阶和二阶优化算法(Pytorch实现))

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

数值最优化：一阶和二阶优化算法(Pytorch实现)

1 最优化概论

(1) 最优化的目标

(2) 有约束和无约束优化

(3) 线性和非线性规划

(4) 凸优化和非凸优化

2 不使用导数的无约束优化——Fibonacci 搜索（也称黄金分割搜索）

(1) 线搜索算法

(2) 黄金分割搜索

3 使用一阶导数的无约束优化——梯度下降法

4 使用二阶导数的无约束优化——牛顿法

（1） 引例：牛顿法求方程的根

（2） 牛顿法求多元函数极值

(3) 拟牛顿法求多元函数极值

5、组合优化和 NP-Hard 问题介绍

知名程序库和源码阅读建议

(1) Scipy

(2) CPLEX

(3) Gurobi

(4) Xpress

(5) Pytorch

(6) Tensorflow

(7) sympy

参考文献

你可能感兴趣的:(数值最优化：一阶和二阶优化算法(Pytorch实现))

（1）引例：牛顿法求方程的根

（2）牛顿法求多元函数极值