Jensen不等式初步理解及证明

Jensen不等式(Jensen’s inequality)是以丹麦数学家Johan Jensen命名的,它在概率论、机器学习、测度论、统计物理等领域都有相关应用。

在机器学习领域,我目前接触到的是用Jensen不等式用来证明KL散度大于等于0(以后写一篇文章总结一下)。

Jensen不等式是和凸函数的定义是息息相关的。

首先介绍什么是凸函数(convec function)。

Jensen不等式初步理解及证明_第1张图片
凸函数

凸函数是一个定义在某个向量空间的凸子集 C(区间)上的实值函数 f,如果在其定义域 C 上的任意两点 x 1 , x 2 x_1,x_2 x1,x2 0 ≤ t ≤ 1 0 \le t \le 1 0t1 ,有

(1) t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ≥ f ( t x 1 + ( 1 − t ) x 2 ) tf(x_1)+(1-t)f(x_2) \geq f(tx_1+(1-t)x_2) \tag{1} tf(x1)+(1t)f(x2)f(tx1+(1t)x2)(1)

也就是说凸函数任意两点的割线位于函数图形上方, 这也是Jensen不等式的两点形式

Jensen不等式

若对于任意点集 { x i } \{x_i\} {xi},若 λ i ≥ 0 \lambda_i \geq 0 λi0 ∑ i λ i = 1 \sum_i \lambda_i = 1 iλi=1 ,使用数学归纳法,可以证明凸函数 f (x) 满足:

(2) f ( ∑ i = 1 M λ i x i ) ≤ ∑ i = 1 M λ i f ( x i ) f(\sum_{i=1}^{M}\lambda_{i}x_{i})\leq\sum_{i=1}^{M}\lambda_{i}f(x_{i}) \tag{2} f(i=1Mλixi)i=1Mλif(xi)(2)

公式(2)被称为 Jensen 不等式,它是式(1)的泛化形式

证明如下:

当i=1或2时,由凸函数的定义成立

假设当i=M时,公式(2)成立

现在证明则i=M+1时,Jensen不等式也成立:

(3) f ( ∑ i = 1 M + 1 λ i x i ) = f ( λ M + 1 x M + 1 + ∑ i = 1 M λ i x i ) = f ( λ M + 1 x M + 1 + ( 1 − λ M + 1 ) ∑ i = 1 M η i x i ) \begin{aligned} f(\sum_{i=1}^{M+1} \lambda_{i}x_{i})&=f(\lambda_{M+1}x_{M+1}+\sum_{i=1}^{M}\lambda_{i}x_{i})\\ &=f(\lambda_{M+1}x_{M+1}+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}x_{i}) \tag{3} \end{aligned} f(i=1M+1λixi)=f(λM+1xM+1+i=1Mλixi)=f(λM+1xM+1+1λM+1)i=1Mηixi)(3)

其中

η i = λ i 1 − λ M + 1 \eta_{i}=\frac {\lambda_{i}}{1-\lambda_{M+1}} ηi=1λM+1λi

由公式(1)的结论,公式(3)满足:

f ( ∑ i = 1 M + 1 λ i x i ) ≤ λ M + 1 f ( x M + 1 ) + ( 1 − λ M + 1 ) f ( ∑ i = 1 M + 1 η i x i ) ) f(\sum_{i=1}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})f(\sum_{i=1}^{M+1}\eta_{i}x_{i})) f(i=1M+1λixi)λM+1f(xM+1)+(1λM+1)f(i=1M+1ηixi))

注意到 λ i \lambda_i λi满足:

∑ i = 1 M + 1 λ i = 1 \sum_{i=1}^{M+1}\lambda_{i}=1 i=1M+1λi=1

因此:

∑ i = 1 M = 1 − λ M + 1 \sum_{i=1}^{M}=1-\lambda_{M+1} i=1M=1λM+1

因此 η i \eta_i ηi 也满足:

(5) ∑ i M η i = ∑ 1 M λ i 1 − λ M + 1 \sum_i^M\eta_{i}=\frac{\sum_1^M\lambda_{i}}{1-\lambda_{M+1}} \tag{5} iMηi=1λM+11Mλi(5)

由公式(2)和(5)得到:

(6) ∑ i M f ( η i x i ) ≤ ∑ i = 1 M η i f ( x i ) \sum_{i}^{M}f(\eta_{i}x_{i})\leq\sum_{i=1}^M\eta_{i}f(x_i) \tag{6} iMf(ηixi)i=1Mηif(xi)(6)

由(4)和(6):

f ( ∑ i M + 1 λ i x i ) ≤ λ M + 1 f ( x M + 1 ) + ( 1 − λ M + 1 ) ∑ i = 1 M η i f ( x i ) = ∑ i = 1 M + 1 λ i f ( x i ) f(\sum_{i}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}f(x_{i})=\sum_{i=1}^{M+1}\lambda_{i}f(x_{i}) f(iM+1λixi)λM+1f(xM+1)+(1λM+1)i=1Mηif(xi)=i=1M+1λif(xi)

因此i=M+1时,Jensen不等式也成立

综上,Jensen不等式成立

在概率论中,如果把 λ i \lambda_i λi看成取值为 x i {x_i} xi 的离散变量 x 的概率分布,那么公式(2)就可以写成

f ( E [ x ] ) ≤ E [ f ( x ) ] f(E[x])\leq E[f(x)] f(E[x])E[f(x)]

其中, E [ ⋅ ] E[·] E[]表示期望

对于连续变量,Jensen不等式给出了积分的凸函数值和凸函数的积分值间的关系:

f ( ∫ x p ( x ) d x ) ≤ ∫ f ( x ) p ( x ) d x f(\int xp(x)dx)\leq \int f(x)p(x)dx f(xp(x)dx)f(x)p(x)dx

参考文献:

[1] PRML

[2] wikipedia Jensen’s inequality

转载自:
博主:清雅的数学笔记
博文地址:https://zhuanlan.zhihu.com/p/39315786
来源:知乎

你可能感兴趣的:(数学理论)