机器学习入门理论与前置知识

目录

1、拉格朗日函数

1.等式约束最优化(eg. llp)

1.1 无求和

1.2 有求和

2.不等式约束最优化(eg. svm)

3.无约束(eg. ls)

2、范数

1.F范数

2.l2范数

3.l1范数

4.l2,1范数

3、偏导


梗概

本博客用于记录机器学习理论学习与优化问题推导所需的各种前置知识,持续更新,欢迎关注。


1、拉格朗日函数

在最优化问题中,求得方法的优化问题与约束条件后,时常要求出对应的拉格朗日函数并求解,以下给出常见的几种情况下的拉格朗日函数构造方法。

1.等式约束最优化(eg. llp)

1.1 无求和

\large \min _{\mathbf{a}} \mathbf{a}^{T} \mathbf{S a}, \quad \text { s.t. } \mathbf{a}^{T} \mathbf{a}=1

定义其拉格朗日函数为:

\large L(\mathbf{a}, \lambda)=\mathbf{a}^{T} \mathbf{S a}+\lambda\left(1-\mathbf{a}^{T} \mathbf{a}\right)

对对应要求解未知数求偏导(此处为α)

\large \mathbf{S a}=\lambda \mathbf{a}

再对上式使用特征分解即可求解原最优化问题。

1.2 有求和

机器学习入门理论与前置知识_第1张图片

2.不等式约束最优化(eg. svm)

\large \begin{array}{l} \min _{\mathbf{u}} f_{0}(\mathbf{u}) \\ \text { s.t. } f_{i}(\mathbf{u}) \leq 0, i=1,2, \cdots, n \end{array}

定义其拉格朗日函数为:

\large L(\mathbf{u}, \boldsymbol{\alpha})=f_{0}(\mathbf{u})+\sum_{i=1}^{n} \alpha_{i} f_{i}(\mathbf{u})

对对应要求解未知数求偏导,令其为0即可。

3.无约束(eg. ls)

直接对应要求解未知数求偏导,令其为0即可。

2、范数

1.F范数

F范数是一种矩阵范数,假设A为mxn矩阵,对应F范数定义如下:

\large \|A\|_{F}=\sqrt{\operatorname{tr}\left(A^{T} A\right)}=\sqrt{\sum_{i, j} a_{i j}^{2}}

2.l2范数

l2范数即为欧氏距离,常用于度量“误差”,定义如下:

\large \|x\|_{2}=\left(\left|\boldsymbol{x}_{1}\right|^{2}+\left|\boldsymbol{x}_{2}\right|^{2}+\cdots+\left|\boldsymbol{x}_{\boldsymbol{n}}\right|^{2}\right)^{1 / 2}

对矩阵而言,l2范数定义如下:

\large \|A\|_{2}=\sqrt{\lambda_{\max }\left(A^{T} A\right)}

Tips:参数为对应的最大特征值绝对值。

3.l1范数

l1范数即为绝对值之和,定义如下:

\large \|X\|_{1}=\left(\left|x_{1}\right|+\left|x_{2}\right|+\ldots+\left|x_{n}\right|\right)

4.l2,1范数

l2,1范数即为先按列求l2范数再按行求l1范数,定义如下:

\large \|W\|_{2,1}=\|w\|_{1}=\sum_{i=1}^{d} \sqrt{\sum_{j=1}^{n}\left|W_{i, j}\right|^{2}}

定义对应D矩阵,l2,1范数可改写为:

\large \|W\|_{2,1}=tr\left ( P^TDP \right )

其中D为对角矩阵,对角线为1/行的二范数的平方。

3、偏导

常用对矩阵的迹求偏导如下:

\large \frac{\partial \operatorname{tr}\left(A^{T} X\right)}{\partial x_{i j}}=\frac{\partial \operatorname{tr}\left(X^{T} A\right)}{\partial x_{i j}}=a_{i j}=[A]_{i j}

\large \frac{\partial \operatorname{tr}\left(X^{T} A X\right)}{\partial x_{i j}}=\sum_{q=1}^{m} a_{i q} x_{q j}+\sum_{p=1}^{m} a_{p i} x_{p j}=\left[A X+A^{T} X\right]_{i j}

详情参考:矩阵的 Frobenius 范数与 trace (迹)的关系及其求偏导法则_热爱生活的菇凉的博客

汇总详解:矩阵的迹以及迹对矩阵求导_CV_ML_DP的博客-CSDN博客_矩阵的迹求导

你可能感兴趣的:(机器学习理论,机器学习,人工智能)