【the EM algorithm】Jensen不等式

1. 凸函数

设f 是定义于为实数的函数,如果对于所有实数x,,那么f 是凸函数。

当x是向量时,如果Hessian Matrix(海森矩阵)H是半正定的() ,那么f是凸函数。

如果或者,那么称f 是严格凸函数。

1.1 半正定矩阵

正定矩阵
正定矩阵的判定:
判定定理1:对称阵A为正定的充分必要条件是:A的特征值全为正。
判定定理2:对称阵A为正定的充分必要条件是:A的各阶顺序主子式都为正。
判定定理3:任意阵A为正定的充分必要条件是:A合同于单位阵。
正定矩阵的性质:
1.正定矩阵一定是非奇异的。非奇异矩阵的定义:若n阶矩阵A的行列式不为零,即 |A|≠0。
2.正定矩阵的任一主子矩阵也是正定矩阵。
3.若A为n阶对称正定矩阵,则存在唯一的主对角线元素都是正数的下三角阵L,使得A=L*L′,此分解式称为 正定矩阵的乔列斯基(Cholesky)分解。
4.若A为n阶正定矩阵,则A为n阶可逆矩阵。

半正定矩阵:
对于半正定矩阵来说,相应的条件应改为所有的主子式非负。顺序主子式非负并不能推出矩阵是半正定的。
定义:设A是实对称矩阵。如果对任意的实非零列矩阵有,就称A为半正定矩阵。

1.2 Hessian矩阵

是一个多元函数的二阶偏导数构成的方正,描述了函数的局部曲率。常用于牛顿法解决优化问题。

定义

对于一个实值多元函数
,如果函数
的二阶 偏导数 都存在,则定义
的海森矩阵为

其中
表示对第
个变量的微分算子,
。那么,
的海森矩阵即
【the EM algorithm】Jensen不等式_第1张图片

多元函数极值的判定

如果实值多元函数
二阶连续可导,并且在临界点
(其中
,并且
已知)处梯度(一阶导数)等于0,即
为驻点。仅通过一阶导数无法判断在临界点
处是极大值还是极小值。
点处的海森矩阵为
。由于
点处连续,所以
是一个
的对称矩阵。对于
,有如下结论:
  • 如果H(M)是正定矩阵,则临界点M处是一个局部的极小值。
  • 如果H(M)是负定矩阵,则临界点M处是一个局部的极大值。
  • 如果H(M)是不定矩阵,则临界点M处不是极值。

2. Jensen不等式

 Jensen不等式表述如下:

     如果f是凸函数,X是随机变量,那么

      

      特别地,如果f是严格凸函数,那么clip_image012当且仅当clip_image014,也就是说X是常量。这里我们将clip_image016简写为clip_image018

      如果用图表示会很清晰:

      clip_image019

      图中,实线f是凸函数,X是随机变量,有0.5的概率是a,有0.5的概率是b。(就像掷硬币一样)。X的期望值就是a和b的中值了,图中可以看到clip_image010[1]成立。

      当f是(严格)凹函数当且仅当-f是(严格)凸函数。

      Jensen不等式应用于凹函数时,不等号方向反向,也就是clip_image021


参考资料

正定矩阵

半正定矩阵

海森矩阵

(EM算法)The EM Algorithm

大数据经典算法EM算法 讲解


你可能感兴趣的:(Machine,Learning)