机器学习数学基础学习笔记

机器学习数学基础学习笔记

1、 微积分

1.1 导数

一阶导数,是函数 的切线斜率

二阶导数,是切线斜率的变化速度,即曲线的弯曲程度,也称为“曲率”(curvature)

1.2 偏导数

  1. 偏导数,是多元函数 关于某个自变量 的导数,定义为:
  1. 梯度向量,gradient vector 将多元函数 的所有偏导数写成一个列向量,即是梯度向量。
  1. 二阶偏导数
  1. 混合偏导数

混合偏导数和求导顺序无关,二阶偏导数连续的时候,则有

  1. 海塞矩阵 多元函数的所有二阶偏导数就是海塞矩阵(Hessian Matrix):
  1. 雅各比矩阵 假定有值函数:

雅各比矩阵就是值函数的梯度向量,其重要意义在于它表现了一个多变数向量函数的最佳线性逼近。

1.3 方向导数 directional derivative

梯度和方向向量的点乘,就是方向导数 方向导数需要除以方向向量的模

  • 命题1:梯度向量 是函数增长最快的方向,而负梯度向量 该函数下降最快的地方。
  • 命题2:梯度向量和contour set 正交

1.4 向量微分

  1. 线性函数的微分
  2. 二次型的微分
为 对 称 阵
  1. 复合函数的向量微分
对 于 复 合 函 数 : 对 偏 导 数 为 : 对 求 偏 导 :

2、最优化

2.1 一元最优化

  • 无条件 一阶条件(first order condition): 二阶条件(second order condition):
  • 最小化:
  • 最大化:

2.2 多元最优化

问题: 一阶条件:梯度向量为零

二阶条件:海塞矩阵半正定,表明在局部最小值处,函数是凸函数(convex function)。

2.2 约束极值问题

  1. 单个约束条件 问题:

解决办法:构造拉格朗日函数Lagrangian function 几何解释;

在最优解 处,约束条件和目标函数的梯度向量平行,两者仅相差一个倍数 。 约束条件和目标函数都经过最优点,所以目标函数的等值线(contour set)和约束条件的等值线要么相交,要么相切。且由于两者的梯度向量平行,所以两个等值线的切线也必然平行。 综上,两个曲线同时经过一点,且在这一点处的切线平行,可知等值线是相切,而不是相交。

的经济含义:条件b变动时,对目标函数的边际影响。如果b为资源总量,则 是影子价格。(物物交换的价格)

  1. 多个约束条件 与单个类似 问题:

构造拉格朗日函数:

一阶条件:

其中 ,为g(x)雅各比矩阵 的转置。 结论:

  • 的经济含义仍旧是影子价格,例如 可解释为放松资源条件 对目标函数最优值的边际作用。
  • 目标函数的梯度向量是各约束条件梯度向量的线性组合, 为权重。
  • 约束极值问题的最优解 是朗格朗日函数 的鞍点,沿着x的方向,朗格朗日函数达到最大值,沿着 的方向,拉格朗日函数达到最小值。
  1. 非负约束 问题:
机器学习数学基础学习笔记_第1张图片

最优解有两种情况,要么是内点解(interior solution),要么是角点解(corner solution)。 在内点解时, ;在角点解时, ,所以两者的乘积必然为0。

此为互补松弛条件(complementary slachness conditions): 最优化的一阶条件:

  1. 不等式约束 问题:

库恩塔克条件:

2.3 最优化算法

是学习率, 是随t变化的矩阵,用于改变梯度下降的步长, 是梯度。

  1. 梯度下降法:
  2. 最速下降法: 每次迭代都求最优的步长
  3. 牛顿-拉夫森法 令 ,有

牛顿法是二阶收敛,效率更高,但是如果初始值选择不恰当,有可能会不收敛。

3、线性代数

3.1 范数

1-范数是曼哈顿距离; 2-范数是欧几里得距离; 2-范数的平方就是内积。 向量内积是一个数字 向量外积是一个矩阵,由于矩阵的秩为1,也叫秩一矩阵。

3.2 向量空间

  1. 列空间由列向量张成(sppanned),其维度等于列秩
  2. 行空间由行向量张成,其维度等于行秩

3.3 谱分解

将矩阵A分解为n个外积 的加权之和,权重为相应的特征值 ,这就是谱分解。

参考文献

  1. 陈强. 机器学习及python应用[M]北京:高等教育出版社, 2021

本文由 mdnice 多平台发布

你可能感兴趣的:(后端)