愤怒的可乐

最优化简明版(下)

最优化方法

牛顿法和拟牛顿法都是求解无约束最优化问题的常用方法，具有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的海森矩阵的逆矩阵，计算比较复杂，而且有时候海森矩阵不一定存在逆阵。拟牛顿法通过正定矩阵近似海森矩阵的逆矩阵或海森矩阵，简化了这一计算过程。

牛顿法

考虑无约束最优化问题
$\min_{x \in \Bbb R^n} f(x) \tag{23}$
其中 $x^*$ 为目标函数的极小值点。

假设 $f (x)$ 具有二阶连续偏导数，若第k次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开：
$f(x^{(k)}) + g_k^T(x - x^{(k)}) + \frac{1}{2}(x-x^{(k)})H(x^{(k)}) (x-x^{(k)}) \tag{24}$
根据公式 $(20)$ 在 $x^{(k)}$ 处进行二阶展开，并忽略高阶项。

这里， $g_k=g(x^{(k)}) = \nabla f(x^{(k)})$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的海森矩阵(Hessian matrix):
$\left[ \frac{\partial^2 f}{\partial x_i\partial x_j}\right]_{n \times n} \tag{25}$
在点 $x^{(k)}$ 的值。其中 $\frac{\partial^2 f}{\partial x_i \partial x_j}$ = $\frac{\partial^2 f}{\partial x_j \partial x_i}$ ，所以它也是一个对称矩阵，并且二阶偏导为实数，所以它是一个实对称矩阵。

函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0.当 $H(x^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。

牛顿法(Newton Method)在每个迭代点处将目标函数近似为二次函数，然后通过求解梯度为 $\pmb 0$ 的方程得到迭代方向。

具体地，牛顿法寻找目标函数作二阶近似后梯度为 $\pmb 0$ 的点，逐步逼近极值点。根据费马引理，函数在点 $x$ 处取得极值的必要条件是梯度为 $\pmb 0$ ：
$\nabla f( x) = \pmb 0 \tag{26}$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$\nabla f(x^{(k+1)}) = \pmb 0 \tag{27}$
由于式 $(24)$ 对 $x$ 求偏导有：
$\nabla f(x) = g_k + H_k(x-x^{(k)}) \tag{28}$
其中 $H_k=H(x^{(k)})$ 。

上式 $(28)$ 是如何得到的呢？

可以把该式 $(24)$ 展开：

$f(x^{(k)}) + \begin{pmatrix} \frac{\partial f x^{(k)}}{\partial x_1}& \frac{\partial f x^{(k)}}{\partial x_2} & \cdots & \frac{\partial f x^{(k)}}{\partial x_n} \end{pmatrix}_{1 \times n} (x-x^{(k)})_{n \times 1} + \frac{1}{2}(x-x^{(k)})^T_{1\times n} \begin{bmatrix} \frac{\partial^2 f x^{(k)}}{\partial x_1^2} & \frac{\partial^2 fx^{(k)}}{\partial x_1\partial x_2} & \dots & \frac{\partial^2 f x^{(k)}}{\partial x_1\partial x_n}\\ \frac{\partial^2 f x^{(k)}}{\partial x_2\partial x_1}& \frac{\partial^2 f x^{(k)}}{\partial x_2^2} & \dots & \frac{\partial^2 f x^{(k)}}{\partial x_2\partial x_n}\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2 f x^{(k)}}{\partial x_n\partial x_1} & \frac{\partial^2 f x^{(k)}}{\partial x_n\partial x_2}& \dots & \frac{\partial^2 f x^{(k)}}{\partial x_n^2}\end{bmatrix}_{n\times n} (x-x^{(k)})_{n\times 1} \tag{29}$

上式两边同时对 $x$ 求梯度，可得式 $(28)$ 。

但式 $(28)$ 是怎么来的呢？

首先，等式 $(24)$ 右边与 $x$ 有关的项有只有 $g_k^T(x-x^{(k)})$ 和$\frac{1}{2}(x-x^{(k)})H(x{(k)}) (x-x^{(k)}) $。这里利用到了下面两个公式：
$\begin{aligned} \frac{\partial a^T x}{\partial x} &= \frac{\partial x^T a}{\partial x} = a \\ \frac{\partial x^Tax}{\partial x} &= (a+a^T)x \end{aligned}$
以及海森矩阵是对称阵，有 $H_k = H^T_k$ 。

联合式 $(27)$ 和式 $(28)$ 有
$g_k + H_k(x^{(k+1)}-x^{(k)}) = 0 \tag{30}$
牛顿法要求海森矩阵是可逆的，解等式 $(30)$ 有：
$x^{(k+1)} = x^{(k)} - H_k^{-1} g_k \tag{31}$
或
$x^{(k+1)} = x^{(k)} +p_k \tag{32}$
其中
$H_kp_k = -g_k \tag{33}$

由于在泰勒公式中忽略了高阶项将函数进行了近似，因此这个解不一定是目标函数的驻点，需要反复用式 $(31)$ 进行迭代，这个迭代算法就是牛顿法。

$p_k= - H_k^{-1} g_k $称为牛顿方向。

算法牛顿法

输入：目标函数 $f (x)$ ，梯度 $\nabla f(x)$ ，海森矩阵 $H (x)$ ，精度要求 $\epsilon$ ;

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 取初始值 $x^{(0)}$ ，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。

(3) 若 $||g_k ||< \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ 。

(4) 计算 $H_k=H(x^{(k)})$ ，并求 $p_k$
$p_k =- H_k^{-1} g_k$
(5) 置 $x^{(k+1)} = x^{(k)} + p_k$ 。

(6) 置 $k = k + 1$ ，转(2)。

与梯度下降法相比，牛顿法有更快的收敛速度，但每次迭代的成本也更高，每次迭代需要计算梯度向量与海森矩阵，并计算海森矩阵的逆矩阵，最后计算矩阵与向量乘积。

牛顿法面临的问题是计算量大且海森矩阵不可逆的问题，拟牛顿法是对它的改进，拟牛顿法构造出一个矩阵作为海森矩阵或其逆矩阵的近似。

拟牛顿法

拟牛顿法(Quasi-Newton Methods)核心思路是不精确计算目标函数的海森矩阵然后求逆矩阵，而是通过其他手段得到海森矩阵的逆。

具体做法是构造一个近似海森矩阵或其逆矩阵的n阶正定对称矩阵 $G_k= G(x^{(k)})$ ，用该矩阵进行牛顿法迭代。

先看牛顿法中海森矩阵 $H_k$ 满足的条件。首先， $H_k$ 满足以下关系。在式 $(28)$ 中取 $x=x^{(k+1)}$ ，得
$g_{k+1} - g_k = H_k(x^{(k+1)} - x^{(k)}) \tag{34}$
记 $y_k=g_{k+1} - g_k, \delta_k = x^{(k+1)} - x^{(k)}$ ，则
$y_k = H_k\delta_k \tag{35}$
或
$H_k^{-1}y_k = \delta_k \tag{36}$
式 $(35)$ 或 $(36)$ 称为拟牛顿条件，用于近似代替海森矩阵和它的逆矩阵需要满足该条件。

如果 $H_k$ 是正定的( $H_k^{-1}$ 也是正定的)，那么可以保证牛顿法搜索方向 $p_k$ 是下降方向。因为搜索方向是 $p_k = -H_k^{-1} g_k$ ，由式 $(31)$ 有
$=x^{(k)} + \lambda p_k = x^{(k)} - \lambda H_k^{-1} g_k \tag{37}$
根据梯度下降法，所以在 $x^{(k)}$ 的一阶泰勒展开式 $(19)$ 为：
$f(x) = f(x^{(k)}) + g_k^T(x-x^{(k)})$
把 $(x-x^{(k)} ) = - \lambda H_k^{-1} g_k$ 代入上式，有：
$=f(x^{(k)}) -\lambda g_k^T H_k^{-1} g_k\tag{38}$
因为 $H_k^{-1}$ 正定，所以有 $g_k^T H_k^{-1} g_k > 0$ 。当 $\lambda$ 为一个充分小的正数时，总有 $，也就是说 p_{k} 是下降方向。$

根据二次型的定义， $g^T H g$ 可以表示为二次型的形式，即 $x^T A x$ 的形式，其中 $x$ 是向量， $A$ 是一个对称矩阵。对于一个对称矩阵 $A$ 而言，如果它是正定矩阵，则对于任何非零向量 $x$ ，都有 $x^T A x > 0$ 。

二次型是一个由平方项组成的多项式函数，其中每个变量的次数不超过2。在矩阵论中，一个关于向量 $x_1,x_2,\cdots,x_n$ 的二次型可以表示为：
$Q(x_1,x_2,\cdots,x_n)=\sum_{i=1}^{n}\sum_{j=1}^{n}{a_{ij}x_i x_j}$

拟牛顿法将 $G_k$ 作为 $H_k^{-1}$ 的近似(海森矩阵的逆矩阵的近似)，要求矩阵 $G_k$ 满足同样的条件。首先，每次迭代矩阵 $G_k$ 是正定的。同时， $G_k$ 满足下面的拟牛顿条件：
$G_{k+1}y_k =\delta_k \tag{39}$
按照拟牛顿条件选择 $G_k$ 作为 $H_k^{-1}$ 的近似或选择 $B_k$ 作为 $H_k$ 的近似的算法称为拟牛顿法。

按照拟牛顿条件，在每次迭代中可以选择更新矩阵 $G_{k+1}$ ：
$G_{k+1} = G_k +\Delta G_k \tag{40}$

DFP算法

DFP(Davidon-Fletcher-Powell)算法采用了这种思路，DFP算法以其3为发明人的名字命名。DFP算法构造海森矩阵逆矩阵的近似，DFP算法选择 $G_{k+1}$ 的方法是，假设每一步迭代中的矩阵 $G_{k+1}$ 是由 $G_k$ 加上两个附加项构成的，即
$G_{k+1} = G_k + \alpha_k \mu_k \mu_k^T + \beta_k v_k v_k^T \tag{41}$
其中 $\mu_k$ 和 $v_k$ 为待定的 $n$ 维向量， $\alpha_k$ 和 $\beta_k$ 为待定的系数。显然，按照上式构造的 $G_k$ 是一个对称矩阵。

这时，
$G_{k+1} y_k = G_ky_k +\alpha_k \mu_k \mu_k^Ty_k + \beta_k v_k v_k^Ty_k \tag{42}$
为了使 $G_{k+1}$ 满足拟牛顿条件，即 $G_{k+1}y_k= \delta_k$ ：
$G_{k+1} y_k= G_ky_k+\alpha_k \mu_k \mu_k^Ty_k + \beta_k v_k v_k^Ty_k = \delta_k$
上式的解不唯一，可以取某些特殊值从而简化问题的求解，可使 $\alpha_k \mu_k \mu_k^T$ 和 $\beta_k v_k v_k^T$ 满足：
$\alpha_k \mu_k \mu_k^Ty_k = \delta_k \tag{43}$

$\beta_k v_k v_k^Ty_k = -G_ky_k \tag{44}$

不难找出这样的解，比如可以令
$\mu_k = \delta_k \tag{45}$

$v_k = G_ky_k \tag{46}$

将 $(45)$ 代入到 $(43)$ 可得
$\alpha_k \mu_k \mu_k^Ty_k=\alpha_k \delta_k \delta_k^Ty_k = \alpha_k \delta_k ( \delta_k^Ty_k ) = \alpha_k ( \delta_k^Ty_k )\delta_k = \delta_k \tag{47}$
这里利用了 $\delta_k^T y_k$ 是标量。从而得到
$\alpha_k = \frac{1}{\delta_k^Ty_k } \tag{48}$
同理，将 $(46)$ 代入 $(44)$ 可得
$\begin{aligned} \beta_k v_k v_k^T y_k &= \beta_k G_ky_k (G_ky_k )^T y_k \\ &= \beta_k G_ky_ky_k^TG_k^Ty_k \\ &= \beta_k G_ky_k (y_k^TG_ky_k)\\ &= \beta_k(y_k^TG_ky_k) G_ky_k \\ &= -G_ky_k \end{aligned} \tag{49}$
这里利用了 $G_k$ 是对称矩阵，以及 $y_k^TG_ky_k$ 也是标量。从而得到
$\beta_k = -\frac{1}{y_k^TG_ky_k} \tag{50}$

把 $(48), (50)$ 这两个解以及 $(45), (46)$ 代入 $(41)$ ，得到矩阵 $G_{k+1}$ 的迭代公式：
$G_{k+1} = G_k + \frac{\delta_k\delta_k^T}{ \delta_k^Ty_k } -\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}\tag{51}$
称为DFP算法。如果初始矩阵 $G_0$ 是正定的，则迭代过程中每个矩阵 $G_k$ 都是正定的，通常初始矩阵可以选取单位阵。

DFP算法如下：

DFP算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 选定初始值 $x^{(0)}$ ，取 $G_0$ 为正定对称矩阵，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转(3)。

(3) 置 $p_k=-G_kg_k$ 。

(4) 一维搜索：即求得 $\lambda_k$ 使得
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k)$
(5) 置 $x^{(k+1)}=x^{(k)} + \lambda_kp_k$ 。

(6) 计算 $g_{k+1} = g(x^{(k+1)})$ ，若 $||g_{k+1} || < \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式 $(51)$ 算出 $G_{k+1}$ 。

(7) 置 $k = k + 1$ ，转(3)。

BFGS算法

BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法以其4位发明人的名字命名，是最流行的拟牛顿算法。

该算法用 $B_k$ 近似海森矩阵，此时对应的拟牛顿条件是：
$B_{k+1}\delta_k = y_k \tag{52}$
用同样的方法得到另一个迭代公式，首先令
$B_{k+1} = B_k + \alpha_k \mu_k \mu_k^T + \beta_k v_k v_k^T \tag{53}$

$B_{k+1}\delta_k = B_k\delta_k + \alpha_k \mu_k \mu_k^T\delta_k + \beta_k v_k v_k^T\delta_k \tag{54}$

可使 $\alpha_k \mu_k \mu_k^T$ 和 $\beta_k v_k v_k^T$ 满足：
$\alpha_k \mu_k \mu_k^T\delta_k = y_k\tag{55}$

$\beta_k v_k v_k^T\delta_k = -B_k\delta_k \tag{56}$

不难找出这样的解，比如可以令
$\mu_k = y_k \tag{57}$

$v_k = B_k\delta_k \tag{58}$

分别将 $(57), (58)$ 代入 $(55), (56)$ ，可得
$\alpha_k y_k y_k^T \delta_k = \alpha_k y_k (y_k^T \delta_k) = \alpha_k (y_k^T \delta_k)y_k = y_k \Rightarrow \alpha_k = \frac{1}{y_k^T \delta_k} \tag{59}$
和
$\begin{aligned} \beta_k v_k v_k^T\delta_k &= \beta_k B_k\delta_k (B_k\delta_k)^T\delta_k\\ &= \beta_k B_k\delta_k \delta_k^TB_k\delta_k \\ &= \beta_k B_k\delta_k (\delta_k^TB_k\delta_k ) \\ &= \beta_k (\delta_k^TB_k\delta_k ) B_k\delta_k = -B_k\delta_k \end{aligned} \Rightarrow \beta_k = -\frac{1}{\delta_k^TB_k\delta_k} \tag{60}$

同理，代入 $(53)$ 可得BFGS算法的迭代公式：
$B_{k+1} = B_k + \frac{y_ky_k^T}{y_k^T \delta_k} -\frac{B_k\delta_k \delta_k^TB_k}{\delta_k^TB_k\delta_k} \tag{61}$
可以证明，如果初始矩阵 $B_0$ 是正定的，则迭代过程中的每个矩阵 $B_k$ 都是正定的。

下面写成BFGS拟牛顿法。

BFGS算法

输入：目标函数 $f (x)$ ，梯度 $g(x)=\nabla f(x)$ ，精度要求 $\epsilon$ ；

输出： $f (x)$ 的极小点 $x^*$ 。

(1) 选定初始值 $x^{(0)}$ ，取 $B_0$ 为正定对称矩阵，置 $k = 0$ 。

(2) 计算 $g_k=g(x^{(k)})$ 。若 $||g_k||<\epsilon$ ，则停止计算，得近似解 $x^*=x^{(k)}$ ；否则转(3)。

(3) 由 $B_kp_k=-g_k$ 求出 $p_k$ 。

(4) 一维搜索：即求得 $\lambda_k$ 使得
$f(x^{(k)} + \lambda_k p_k) = \min_{\lambda \geq 0} f(x^{(k)} + \lambda p_k)$
(5) 置 $x^{(k+1)}=x^{(k)} + \lambda_kp_k$ 。

(6) 计算 $g_{k+1} = g(x^{(k+1)})$ ，若 $||g_{k+1} || < \epsilon$ ，则停止计算，得近似解 $x^*=x^{(k+1)}$ ；否则，按式 $(61)$ 算出 $B_{k+1}$ 。

(7) 置 $k = k + 1$ ，转(3)。

BFGS算法在每次迭代时需要计算 $\times n$ 的矩阵 $B_k$ ，当 $n$ 很大时，存在该矩阵将耗费大量内容。为此， L-BFGS算法(有限存储的BFGS)算法进行了改进，其思想是不存才完整的矩阵 $B_k$ ，只存储向量 $\delta_k$ 和 $y_k$ 。

改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法。

基于统计学习方法中最大熵模型内容。

假设已知最大熵模型为
$P_w(y|x) = \frac{1}{Z_w(x)} \exp\left( \sum_{i=1}^n w_if_i(x,y) \right)$
其中，
$Z_w(x) = \sum_y \exp \left( \sum_{i=1}^n w_if_i(x,y) \right)$
对数似然函数为
$\sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) - \sum_x \tilde P(x) \log Z_w(x)$
目标是通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\hat w$ 。

IIS的想法是：假设最大熵模型当前的参数向量是 $w=(w_1,w_2,\cdots,w_n)^T$ ，希望找到一个新的向量 $w+\delta=(w_1+\delta_1,w_2+\delta_2,\cdots,w_n+\delta_n)^T$ ，使得模型的对数似然函数值增大。

如果能有这样一种参数向量更新的方法 $\tau: w \rightarrow w + \delta$ ，那么久可以重复使用这一方法，直到找到对数似然函数的最大值。

对于给定的经验分布 $\tilde P(x,y)$ ，模型参数从 $w$ 到 $w+\delta$ ，对数似然函数的改变量是
$\begin{aligned} L(w+\delta) - L(w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n (w_i+\delta_i)f_i(x,y) - \sum_x \tilde P(x) \log Z_{w+\delta}(x) - \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n w_if_i(x,y) + \sum_x \tilde P(x) \log Z_w(x) \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) - \sum_x \tilde P(x) \log \frac{Z_{w+\delta}(x)}{Z_w(x)} \end{aligned}$
利用不等式
$-\log \alpha \geq 1 -\alpha, \quad \alpha > 0$
建立对数似然函数改变量的下界：
$\begin{aligned} L(w+\delta) - L(w) &\geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{Z_{w+\delta}(x)}{Z_w(x)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp\left(\sum_{i=1}^n (w_i+\delta_i)f_i(x,y) \right)}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \frac{\sum_y\exp \left(\sum_{i=1}^n w_if_i(x,y) \right) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y))}{\sum_y\exp\left(\sum_{i=1}^n w_if_i(x,y) \right)} \\ &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y)) \\ \end{aligned}$
记这个关于 $\delta$ 的函数为 $A(\delta|w)$ ：
$A(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_i f_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \cdot \exp(\sum_{i=1}^n\delta_if_i(x,y))$
代表了在已知参数 $w$ 的情况下所对应的 $\delta$ 的函数。

于是有
$L(w+\delta) -L(w) \geq A(\delta|w)$
即 $A(\delta|w)$ 是对数似然函数该变量的一个下界。

这个不等式为什么成立，这里来证明一下。

把这个不等式写成下面的形式：
$f(\alpha) = -\log \alpha - (1 -\alpha)$

它的函数图像是上面这样子的。

我们需要证明 $f(\alpha ) \geq 0$ ，其中 $\alpha > 0$ 。对上式求导数：
$f^\prime(\alpha) = -\frac{1}{\alpha} + 1 = \frac{\alpha-1}{\alpha}$
显然 $\alpha=1$ 时导数为零。

当 $\alpha > 1$ 时， $f^\prime (\alpha) > 0$ ，说明在 $\alpha > 1$ 是 $f(\alpha)$ 是单调递增的；
当 $\alpha > 0$ 时， $f^\prime(\alpha) < 0$ ，说明在 $\alpha > 0$ 时， $f(\alpha)$ 是单调递减的；

因此， $\alpha=1$ 是函数的极小值。把 $\alpha=1$ 代入得
$-\log 1 -(1-1) = 0$
说明 $f(\alpha ) \geq 0$ 。

如果能找到合适的 $\delta$ 式下界 $A(\delta|w)$ 提高，那么对数似然函数也会提高。但是，函数 $A(\delta|w)$ 中的 $\delta$ 是一个向量，含有多个变量，不利于同时优化。IIS试图一次只优化其中一个变量 $\delta_i$ ，而固定其他变量 $\delta_j ,\, i \neq j$ 。

为了达到这一目的，IIS进一步降低下界 $A(\delta|w)$ 。具体地，IIS引进一个量 $f^\#(x,y)$ ：
$f^\#(x,y) = \sum_i f_i(x,y)$
同时有：
$\frac{f_i(x,y)}{f^\#(x,y)} \geq 0$
且
$\sum_i \frac{f_i(x,y)}{f^\#(x,y)} =1$
显然这是成立的。

因为 $f_i$ 是二值函数，当特征函数满足时取1，否则取0。因此 $f^\#(x,y)$ 表示特征在 $(x, y)$ 出现的次数，对于固定的训练集来说是一个常量。这样 $A(\delta|w)$ 可以改写为：
$\begin{aligned} A(\delta|w) &= \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \exp \left( f^\#(x,y) \sum_{i=1}^n \frac{\delta_i f_i(x,y)}{f^\#(x,y)}\right) \end{aligned} \tag{62}$
如果尝试计算 $\frac{\partial A(\delta|w)}{\partial \delta_i}$ ，会发现第三项的 $\exp (\sum_i \delta_i f_i(x,y))$ 项不好消，还是会和所有的 $\delta_i$ 有关，因此我们尝试利用Jesen不等式，改写这个式子。

根据Jesen不等式，得到
$\exp \left( \sum_{i=1}^n \frac{ f_i(x,y)}{f^\#(x,y)} \delta_if^\#(x,y) \right) \leq \sum_{i=1}^n \frac{f_i(x,y)}{f^\#(x,y)} \exp(\delta_i f^\#(x,y))$

Jensen不等式的说明参见：EM算法

于是式 $(6.30)$ 可以改写为
$A(\delta|w) \geq \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y)) \tag{63}$
记不等式右端为
$B(\delta|w) = \sum_{x,y} \tilde P(x,y) \sum_{i=1}^n \delta_if_i(x,y) + 1 - \sum_x \tilde P(x) \sum_y P_w(y|x) \sum_{i=1}^n \left( \frac{f_i(x,y)}{f^\#(x,y)}\right) \exp(\delta_i f^\#(x,y))$
进而得到
$L(w+\delta) -L(w) \geq B(\delta|w)$
此时， $B(\delta|w)$ 是对数似然函数改变量的一个新的下界。

求 $B(\delta|w)$ 对 $\delta_i$ 的偏导数：
$\frac{\partial B(\delta|w)}{\partial \delta_i} = \sum_{x,y} \tilde P(x,y) f_i(x,y) - \sum_x \tilde P(x) \sum_y P_w(y|x) f_i(x,y) \exp(\delta_i f^\#(x,y)) \tag{64}$
在上式中，除 $\delta_i$ 外不含其他任何变量。令偏导数为0得到
$\sum_{x,y} \tilde P(x) P_w(y|x) f_i(x,y) \exp(\delta_if^\#(x,y)) = E_{\tilde P}(f_i) \tag{65}$
于是，依次对 $\delta_i$ 求解方程 $(65)$ 就可以求出 $\delta$ 。

这样就得到了一种求 $w$ 的最优解的迭代算法，即改进的迭代尺度算法IIS。

算法6.1 (改进的迭代尺度算法IIS)

输入：特征函数 $f_1,f_2,\cdots,f_n$ ；经验分布 $\tilde P(X,Y)$ ，模型 $P_w(y|x)$

排序算法--基数排序和风化雨代码库排序算法算法数据结构 c语言 c++
核心思想是按位排序（低位到高位）。适用于定长的整数或字符串，如例如：手机号、身份证号排序。按数据的每一位从低位到高位（或相反）依次排序，每次排序使用稳定的算法（如计数排序）。#include//获取数组中最大值（用于确定位数）intgetMax(intarr[],intn){intmax=arr[0];for(inti=1;imax){max=arr[i];}}returnmax;}//使用计数排
前端导出Excel实践：探索xlsl的实现方式 linwu-hi 前端 excel 状态模式 javascript ecmascript typescript
点击在线阅读，体验更好链接现代JavaScript高级小册链接深入浅出Dart链接现代TypeScript高级小册链接linwu的算法笔记链接前言最近写管理端的需求，发现有一个excel导出的需求，本来是后端同学负责，但是因为他们太忙了，把这块任务交给前端了，起初产品觉得前端实现不了，一听这话，这我哪里受得了，赶紧写了个demo给她看，前端是可以实现的。enen,产品看了直夸牛逼接下来，我来分享导
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
无线电罗盘改进自KerberosSDR 平替KrakenSDR 老邵的科创世界 KerberosSDR krakensdr kerberossdr 无线电测向
大约5年前，一款易上手的无线电测向机——KerberosSDR横空出世。它是一款多通道相参接收机，由4通道rtlsdr组成。相信大家都是知道，要实现无线电测向，除了硬件上需要特殊的电路设计外，还需要一些软件校准算法。而KerberosSDR相比之前其它同类SDR（如USRPQR210,X310或LimeSDRQPCIe），它的优势就在于事先做好了这个软件，用户只需要把树莓派烧录好配套镜像就能使用。
算法：蓝桥杯——四平方和（C语言） _DonQuijote C语言算法 c语言算法
目录问题说明设计思路程序代码运行结果反思什么是二分法？什么是打表法？数组排序函数qsort（）问题说明四平方和定理，又称为拉格朗日定理：每个正整数都可以表示为至多4个正整数的平方和，如果把0包括进去，就正好可以表示为4个数的平方和。比如：5=0^2+0^2+1^2+2^27=1^2+1^2+1^2+2^2（^符号表示乘方的意思）对于一个给定的正整数，可能存在多种平方和的表示法。要求你对4个数排序：
JS混合加密,JS混淆加密,js混合加密工具-站长工具网 zhaoxiaoming4444 javascript 网络开发语言 php html5 c语言
JS混合加密、JS混淆加密和JS混合加密工具随着互联网技术的发展，网页安全问题越来越受到关注。为了提高网页的安全性，一些加密技术被广泛应用。其中，JS混合加密、JS混淆加密和JS混合加密工具是三种常用的技术。本文将介绍这些技术的概念、应用和工具，帮助站长更好地保护网站的安全。一、JS混合加密JS混合加密是一种将加密算法与JavaScript代码相结合的技术。它通过将敏感信息加密后存储在JavaSc
Diffusion--人工智能领域的革命性技术油泼辣子多加专业名词解释人工智能
在人工智能领域，“diffusion”一词通常指的是“扩散模型”（DiffusionModels），其全称为“DenoisingDiffusionProbabilisticModels”（DDPMs）。扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机
探索2025年的编程新趋势：技术、工具与未来展望桂月二二 wasm 人工智能前端
随着2025年的到来，编程技术领域依旧在高速发展。一些新兴的技术方向、工具和方法正在悄然改变开发者的日常实践。如果您是一名开发者，无论是资深还是初入门道，跟上这些趋势将让您的技能保持前沿，并为职业发展打下坚实基础。本文将从多个维度深入探讨当前最值得关注的编程技术，希望为您的技术提升带来启发。一、AI驱动的编程辅助工具人工智能已成为程序开发的重要组成部分。以下是几款2025年值得关注的AI驱动编程工
基于Hexo的主题Fluid搭建Github博客 qq742234984 计算机 github git npm node.js hexo
公众号：数学建模与人工智能基于Hexo的主题Fluid搭建Github博客一、Github配置1.安装Git2.部署本地Git与Github连接（SSH）二、node.js安装和环境配置1.安装node.js2.查看安装是否成功（版本号）3.配置环境变量三、下载Hexo并配置fluid主题1.下载Hexo2.配置fluid主题1.安装fluid2.配置fluid3.更新部署博客页面4.部署到git
Android研发去美团面试，被面试官用各种原理蹂躏，所幸最终拿到Offer 2401_87029500 android 面试职场和发展
一个线程是否只有一个Looper？如何保证一个线程只有一个Looper？多线程的方式有哪些？生产者消费者模式wait和sleep的区别String、StringBuffer、StringBuilder的区别ANR异常发生条件如何分析ANR自定义View和ViewGroup事件处理分发，拦截，处理。GC算法四大引用强，软，弱，虚，并说明下合适GC动画View动画，属性动画，帧动画。再说下View和属
机器学习--学习计划 kyle~ 机器学习机器学习学习人工智能
3周机器学习速成计划基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为理论学习+项目实战，每周学习后通过5个递进项目巩固知识。第1周：数据与监督学习基础学习目标：掌握数据预处理、线性模型与分类任务的基础流程。核心概念（20%关键内容）：数据预处理缺失值处理（均值填充、删除）特征缩放（标准化、归一化）分类变量编码（独热编码、标签编码）监督学习基础线性回归（原理、损失函
机器学习--概览 kyle~ 机器学习机器学习人工智能
一、机器学习基础概念1.定义机器学习（MachineLearning,ML）：通过算法让计算机从数据中自动学习规律，并利用学习到的模型进行预测或决策，而无需显式编程。2.与编程的区别传统编程机器学习输入：规则+数据→输出：结果输入：数据+结果→输出：规则需要人工编写逻辑自动发现数据中的模式3.核心要素数据：模型学习的原材料（结构化/非结构化）特征（Feature）：数据的可量化属性（如房价预测中的
机器学习笔记20241017 tt555555555555 学习笔记深度学习机器学习笔记人工智能
文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing）梯度消失原因解决方法梯度爆炸（GradientExplosion）定义原因解决方法总结继续跟着小土堆学pytorchtorchvision#导入torchvision库，主要用于处理图像数据集
基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究（python进行数据处理并完成建模，对品种进行预测） Life is a joke PYTHON 人工智能机器学习机器学习集成学习人工智能
1.前言金线莲为兰科开唇兰属植物，别名金丝兰、金丝线、金耳环、乌人参、金钱草等，是一种名贵中药材，国内主要产地为较低纬度地区如：福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1]，被当地人民誉为“药中之王”，福建品种和台湾品种更是其中的上等品种，在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
C语言解决左移问题七七凉 c++c#
图2.1主方法首先用户先输入一串字符串，表现为：stringstr;cout>str;其次使用贪心算法来优化字符串，使得相邻字符的ASCII码之差的最小值最大因此调用到函数greedyOptimize(str);然后初始化maxMinDiff为INT_MIN（整型最小值），用于记录经过左移操作后能得到的相邻字符ASCII码之差的最大最小值，同时定义bestShiftedStr用于保存能达到这个最大
【自我修炼】大疆技术总监对于大学生学习机器人工程师路线建议 ( 大一篇) 2401_89323952 学习机器人
很多朋友私信问我对机器人和人工智能感兴趣，该怎么展开学习。最近稍微有点空，我写写我的看法。两年前，我在知乎回答如何定义「机器人」？YY硕的回答中试图给机器人做出一个比较仔细的定义，我觉得机器人和人工智能最大的区别在于是否要和物理世界进行交互。今年初在另一篇知乎回答里对机器人或人工智能的研究会帮助我们更好的了解人类自己吗？-YY硕的回答我说到传感器是和物理世界交互的基础。后来，我又在知乎回答有哪些与
【C++】C++回调函数基本用法（详细讲解）米码收割机 C/C++c++php 开发语言
博__主：米码收割机技__能：C++/Python语言公众号：测试开发自动化【获取源码+商业合作】荣__誉：阿里云博客专家博主、51CTO技术博主专__注：专注主流机器人、人工智能等相关领域的开发、测试技术。一文详解C++回调函数目录一文详解C++回调函数1.什么是回调函数？2.为什么需要回调函数3.回调函数的应用场合4.举例说明5.高级回调方式1.什么是回调函数？回调函数可以被简单地理解为：A函
自然语言生成（NLG）算法模型评估方案的硬件配置、系统架构设计、软件技术栈、实现流程和关键代码 weixin_30777913 人工智能算法系统架构自然语言处理
智能化对话中的自然语言生成（NLG）算法模型评估是一个复杂而多维的过程，它涉及多个评估指标和策略，以确保生成的文本质量、准确性和流畅性。智能化对话中的NLG算法模型评估是一个涉及多个评估指标和策略的过程。通过选择合适的评估指标和策略，可以全面、客观地评估模型的性能和表现，为模型的优化和改进提供有力支持。以下是对NLG算法模型评估的详细论述及举例说明：一、评估指标准确性：•关注模型生成的语言内容是否
机器学习中，准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1分数(F1Score) 分别是什么？有啥用？有啥意义？有啥缺陷？ shimly123456 NLP 相关杂谈机器学习人工智能算法
首先明白四个名词：真正例TruePositive假正例FalsePositive真负例TrueNegative假负例FalseNegativeTP:被预测为真，实际为真的样本FP:被预测为真，实际为假的样本TN:被预测为假，实际为假的样本FN:被预测为假，实际为真的样本准确率(Accuracy)计算公式：(TP+TN)/(TP+FP+TN+FN)意义：被正确预测的样本占总样本的比例缺陷：尽管准确率
使用 Conda 管理 Python 环境的详细指南小桥流水---人工智能人工智能 python安装库 anconda conda python 开发语言
使用Conda管理Python环境的详细指南在安装Python时，我们通常会选择Anaconda作为管理工具，因为它不仅提供了Python的安装包，还集成了许多常用的库和工具，非常适合数据科学和机器学习的工作。Conda是Anaconda中的一个包和环境管理工具，通过使用Conda命令，我们可以方便地创建、管理和切换不同的Python环境。下面是一些常用的Conda命令，详细介绍如何使用这些命令来
DeepSeek 详细使用教程神探阿航计算机产业科普与思考大模型人工智能
1.简介DeepSeek是一款基于人工智能技术的多功能工具，旨在帮助用户高效处理和分析数据、生成内容、解答问题、进行语言翻译等。无论是学术研究、商业分析还是日常使用，DeepSeek都能提供强大的支持。本教程将详细介绍DeepSeek的各项功能及使用方法。2.注册与登录注册：访问DeepSeek官网（https://www.deepseek.com）。点击“注册”按钮。填写邮箱地址、设置密码，并完
初步理解数据结构神探阿航计算机产业科普与思考数据结构算法 java 职场和发展
引言数据结构是计算机科学中的核心概念之一，它是存储、组织和管理数据的方式，直接影响算法的效率和程序的性能。无论是开发一个简单的应用程序，还是设计一个复杂的系统，选择合适的数据结构都是至关重要的。本文将深入探讨常见的数据结构及其应用场景，并通过具体的Java代码示例帮助读者更好地理解如何在实际问题中选择和使用数据结构。1.什么是数据结构？数据结构是指在计算机中存储和组织数据的方式，使得数据可以高效地
MIT6.S081学习总结-lab10:mmap NullObjectError Linux 操作系统 linux 6.S081
lab10实现mmap介绍mmap和munmap系统调用允许UNIX程序对它们的地址空间进行详细的控制。它们可以用于在进程之间共享内存，将文件映射到进程地址空间，以及作为用户级页面错误方案的一部分，比如在讲座中讨论的垃圾收集算法。在本实验中，您将向xv6添加mmap和munmap，重点关注内存映射文件。void*mmap(void*addr,size_tlength,intprot,intflag
AUTOSAR从入门到精通-【新能源汽车】高压配电管理（PDU/BDU）格图素书人工智能自动驾驶
目录前言几个高频面试题目【BDU/PDU】注释区别功能侧重方面结构组成方面工作原理方面在电动汽车中的角色方面知识储备主控电池管理系统BMS算法原理什么是高压配电管理（PDU/BDU）BDU定义：PDU定义pdu的作用是什么BDU各部件及成本构成BDU的组成CAE技术在研发中的作用汽车级PMIC在BDU和PDU中的应用分析KA84917UA的典型产品特性高压控制盒（PDU）生产厂家未来发展趋势前言P
人工智能第2章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
结合教材2.1节，阐述什么是知识、知识的特性,以及知识的表示。人工智能最早应用的两种逻辑是什么？阐述你对这两种逻辑表示的内涵理解。什么谓词，什么是谓词逻辑，什么是谓词公式。谈谈你对谓词逻辑中的量词的理解。阐述谓词公式的解释的含义。介绍谓词公式表示知识的一般步骤，阐述谓词逻辑表示知识的优点与局限性。什么是知识表示的产生式，请详细阐释产生式和谓词逻辑蕴涵式的差异。什么是产生式系统，请详细阐述产生式系统
微软推出GRIN-MoE：开创专家路由新范式 OpenCSG microsoft
前沿科技速递在人工智能领域，模型的性能和可扩展性一直是研究的热点。微软最近推出的GRIN-MoE（Gradient-InformedMixture-of-Experts）模型，以其独特的架构和显著的性能表现，正引领着AI技术的前沿，特别是在编码和数学任务上展现出强大的能力。GRIN-MoE的发布标志着企业级应用中AI技术的又一次飞跃，旨在提升处理复杂任务的效率和准确性。来源：传神社区01模型简介G
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
路径规划之启发式算法之二十九：鸽群算法（Pigeon-inspired Optimization, PIO）搏博算法大数据人工智能算法策略模式 python 机器学习启发式算法
鸽群算法（Pigeon-inspiredOptimization,PIO）是一种基于自然界中鸽子群体行为的智能优化算法，由Duan等人于2014年提出。该算法模拟了鸽子在飞行过程中利用地标、太阳和磁场等导航机制的行为，具有简单、高效和易于实现的特点，适用于解决连续优化问题。更多的仿生群体算法概括可以看我的文章：仿生的群体智能算法总结之一（十种）_最新群体算法-CSDN博客仿生的群体智能算法总结之二
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

最优化简明版(下)

最优化方法

牛顿法

拟牛顿法

DFP算法

BFGS算法

改进的迭代尺度法

你可能感兴趣的:(数学基础,算法,机器学习,人工智能)