导数:一个函数在某一点的导数描述了这个函数在这一点附近的变化率。
一阶导数和梯度(gradient)
f′(x) ;
f′′(x) ;
输入为标量的泰勒级数:
∇2f(xk)>0 ,即 为正定矩阵,则 xk 为一严格局部极小值点(反之,严格局部极大值点)
如果 ∇2f(xk)=0 ,即为不定矩阵,则是一个鞍点(如 f(x)=x3,x=0 时),此时需要考虑三阶导数。
问题:为什么优化时选择梯度方向,梯度方向为什么是变化最快的方向?
答:由泰勒级数展开式的前两项 f(xk+δ)≈f(xk)+∇Tf(xk)δ 可知,当 δ 是一个模不变但方向不确定的矢量时,此时 f(xk+δ)−f(xk)≈∇Tf(xk)δ , 可知,当 δ=∇f(xk) 时, ∇Tf(xk)δ=||∇2(xk)|| ,此时取得最大的差值,也就是说 δ 取梯度方向是变化最大。 梯度下降法中的迭代方法就是负梯度方向,因为该方向下降最快!
随机变量
累积分布函数
概率密度函数
高斯分布
独立同分布定理
方阵的特征值(Eigenvalues)与特征向量(Eigenvectors)
特征值和特征向量的几何意义与物理意义**:
矩阵是数学中非常抽象的一个概念,广义上我们可以将矩阵看作一个运动。即矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换过程中,原向量主要发生旋转、伸缩的变化。 如果矩阵对某个或某些向量只发生伸缩变换,而不对这些向量产生旋转的效果,那么这些向量就称作这个矩阵的特征向量,伸缩的比例就是特征值。其物理意义就是运动的图景:特征向量在一个矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定。
特征分解的性质:
对于 Axi=λxi ,如果所有的特征值都不相同,则对应的所有特征向量都线性无关。此时 A 可以被对角化为:
并不是所有的方阵都可以被对角化,这里主要考虑对称矩阵( A=AT )的特征分解。
如果一个对称矩阵的特征值都不相同,则其相应的所有特征向量正交。( UUT=UTU=I )
二次型**(Quadratic Form):
给定矩阵 A∈Rm×n ,函数
如果对于所有 x∈Rn ,有 xTAx≥0 ,则为半正定矩阵,此时 λ(A)≥0 .
特征分解的应用——PCA的本质
PCA的本质就是协方差矩阵的对角化。
凸集:一个集合中任意两点的连线都在该集合中,则这个集合是一个凸集。
一个函数 f 是凸函数,满足:
它的定义域是凸集;
对于定义域中的任意两点 x1 、 x2 , 对任意 0≤α≤1 , 有
机器学习中的凸优化问题是一类特殊的优化问题。凸优化问题的形式是
凸优化问题的性质:它的局部最优解一定是全局最优解。
无约束条件的凸优化问题,用梯度下降法或牛顿法进行求解;有约束条件的优化问题转化为广义Lagerange 乘子形式,再根据KKT 条件进行优化求解。