机器学习里面有着众多的数学理论,虽说笔者是数学系出生。但是对于机器学习中的一些基本的数学理论有所遗忘,在这里总结回顾在机器学习过程中用到的数学知识。本文会随着学习过程,不断更新。欢迎留言评论,共同进步。
如果XY=I,(I是单位矩阵),则称X是Y的逆矩阵。矩阵要可逆必须是方阵(即行数等于列数),即使矩阵是方阵,它也可能不可逆。如果某个矩阵不可逆,则称它为奇异或退化矩阵。
如果某个矩阵的一列可以表示为其他列的线性组合,则该矩阵是奇异矩阵。如果能这样表示,则可以把矩阵的一列全部规约为其他列的线性组合,则该矩阵是奇异矩阵。如果能够这样表示,则可以把一列全部规约为0。
矩阵求逆的步骤的办法很多,常用的可以补单位矩阵,通过行变化求得。
Gram中文名称为格拉姆矩阵,它是个有广泛应用的矩阵,其定义如下。
定义: n 维欧式空间中任意 k(k≤n) 个向量 α1,α2,...,αk 的内积所组成的矩阵
Δ(α1,α2,...,αk)=⎛⎝⎜⎜⎜⎜(α1,α1)(α2,α1)...(αk,α1)(α1,α2)(α2,α2)...(αk,α2)............(α1,αk)(α2,αk)...(αk,αk)⎞⎠⎟⎟⎟⎟
称为 k 个向量 α1,α2,...,αk 的格拉姆矩阵(Gram矩阵),它的行列式称为Gram行列式。
欧式空间中向量 α1,α2,...,αk 的Gram矩阵一定是半正定矩阵,是正定矩阵的充要条件是 α1,α2,...,αk 线性无关。
范数是机器学习领域常用的概念。矩阵的范数通常写成在||A||的形式。其实范数就是一个从 Rm 到R的映射,称为 Rm 上的向量范数。且范数需要满足:
(1)
正定性
:对所有的 x 属于正定性:对所有的 x 属于 Rm ,有 ||x||≥0 ,等号当且仅当x=0时成立。(2)
齐次性
:对所有的 x∈Rm 和 α∈R ,有 ||αx||=α||x||(3)
三角不等式
:对于所有的 x,y∈Rm ,有 ||x+y||≤||x||+||y||
(1)
1-范数
||x||1=∑ni=1|xi|(2)
2-范数
||x||2=(∑ni=1x2i)12(3)
无穷范数
||x||∞=max1≤i≤n|xi|
设函数 f:Rn×n→R ,若 f 满足
(1)
正定性
f(A)≥0 ,且 f(A)=0⇔A=0(2)
齐次性
f(αA)=|α|⋅f(A) , ∀A∈Rm,∀α∈R(3)
三角不等式
f(AB)≤f(A)f(B)
则称 f 为 Rn×n 上的(矩阵)范数,通常记为 ||⋅||
(1)F-范数(Frobenious范数)
||A||=(∑ni=1∑nija2ij)12(2)算子范数
||A||=max||x||=1||Ax|| ,其中 ||⋅|| 是 Rn 上的任意一个范数。
(1)
1-范数(列范数)
||A||=max1≤j≤n∑ni=1|aij|(2)
2-范数(谱范数)
||A||2=ρ(ATA)‾‾‾‾‾‾‾√(3)
无穷范数(行范数)
||A||∞=max1≤i≤n∑nj=1|aij|
凸集的概念在运筹学(清华大学出版社)中有所提及,那本书中讨论的问题是线性规划问题。那么什么是凸集呢?
凸集的定义:当集合C满足下面条件时,称集合C是凸集。
∀x,y∈C ,且 θ∈ℝ ,当 0≤θ≤1 时, θx+(1−θ)y∈C
其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示。
左边的图为凸集,右边的图为凹集。
这个概念在微积分中是学习过的,在优化问题,为什么要用到凸函数呢?原因是:对于凸优化问题来说,局部最优解就是全局最优解。凸函数的定义如下。
f 是 ℝn→ℝ 的映射。我们称 f 是凸函数当 ∀x,y∈D(f) 且 θ∈R,0≤θ≤1
例: x2,lnx 都是凸函数。
凸优化问题,在支持向量机的学习过程中有用到。总结如下。
下面是百度百科对于凸优化
的定义。
”凸优化“ 是指一种比较特殊的优化,是指目标函数为凸函数且由约束条件得到的定义域为凸集的优化问题。—-《百度百科》
用数学语言来描述,即如下。
凸优化问题是指约束最优化问题
minwf(w)
s.t g(w)≤0,i=1,2,3,...,k
hi(w)=0,i=1,2,...,l
其中,目标函数 f(w) 和约束函数 gi(w) 都是 Rn 上的连续可微的凸函数,约束函数 hi(w) 是 Rn 的仿射函数。当目标函数 f(w) 是二次函数且约束函数 gi(w) 是仿射函数时,上述凸最优化问题成为凸二次规划问题。
刚刚叙述到了仿射函数。其实仿射函数就是一个从 k 维到 m 维的一个映射。
仿射函数是由1阶多项式构成的函数,一般形式为 f(x)=Ax+b ,这里,A 是一个 m×k 矩阵, x 是一个 k 向量, b 是一个 m 向量,实际上反映了一种从 k 维到 m 维的空间映射关系。
在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,解对偶问题从而得到原始问题的解。单纯形算法中也有应用到对偶理论,在感知机和支持向量机的学习中都有涉及。
那么什么是拉格朗日对偶性呢?(下面的叙述来自李航《统计学习方法》,加上些本人自己的看法)
假设 f(x),ci(x),hj(x) 是定义在 Rn 上的连续可微函数。考虑约束最优化问题
minx∈Rnf(x)
s.t ci(x)≤0,i=1,2,...,k
hj(x)=0,j=1,2,...,l
称此约束最优化问题为原始问题。
下面引入拉格朗日函 L(x,α,β)=f(x)+∑ki=1αici(x)+∑lj=1βjhj(x) 。这里, x=(x(1),x(2),...,x(n))T∈Rn , αi,βj 是拉格朗日乘子, αi≥0 。考虑 x 的函数: θp(x)=maxα,β,αi≥0L(x,α,β) ,这里下标P表示原始问题。
再做出假设,当 x 不满足约束条件时,认为
θp(x)=+∞ 。
且当 x 满足约束条件的时, θp(x)=f(x) 。因此
θp(x)={f(x)+∞x满足原始问题约束其他
所以考虑极小化问题: minxθp(x)=minxmaxα,β,αi≥0L(x,α,β) 。这样就将原始问题转换成广义拉格朗日函数极小极大问题。
和上面同理,我们可以得到广义拉格朗日函数的极大极小问题。形式如下。
maxxθD(α,β)=maxα,β;αi≥0minα,β,αi≥0L(x,α,β)
可以证明原始问题最优解求解出后,可以求出对偶最优解。
关于对偶问题的讲述,可以参见一些优化问题的书籍。