Jensen不等式

引言

概率不等式是概率论和数理统计的理论研究中的重要工具,对于概率极限理论和统计大样本理论,几乎所有重要结果的论证是借助于概率不等式的巧妙应用, J e n s e n \mathrm{Jensen} Jensen不等式和证明,并应用其带来解决一些相关问题。

J e n s e n \mathrm{Jensen} Jensen不等式不同形式

J e n s e n \mathrm{Jensen} Jensen不等式的形式有很多种,标准形式的如下:

J e n s e n \mathrm{Jensen} Jensen不等式: 如果 f ( x ) f(x) f(x)为连续实值凸函数,且 x 1 ≤ x 2 ≤ ⋯ ≤ x n x_1\le x_2\le \cdots \le x_n x1x2xn ∑ i = 1 n λ i = 1 \sum\limits_{i=1}^n\lambda_i=1 i=1nλi=1 λ i ≥ 0 \lambda_i \ge0 λi0 i = 1 , 2 ⋯   , n i=1,2\cdots,n i=1,2,n,则有 ∑ i = 1 n λ i f ( x i ) ≥ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\ge f(\sum\limits_{i=1}^n\lambda_i x_i) i=1nλif(xi)f(i=1nλixi)如果 f ( x ) f(x) f(x)为连续实值凹函数,则有 ∑ i = 1 n λ i f ( x i ) ≤ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\le f(\sum\limits_{i=1}^n\lambda_i x_i) i=1nλif(xi)f(i=1nλixi)

在概率论中 J e n s e n \mathrm{Jensen} Jensen不等式有:离散型,连续型,条件期望型和中位数型等形式

J e n s e n \mathrm{Jensen} Jensen不等式1: f ( x ) f(x) f(x)是区间 [ a , b ] [a,b] [a,b]上的凸函数, X X X是取值于 [ a , b ] [a,b] [a,b]上子集 A A A的离散型随机变量,则有如下两个结论成立
(1) E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))f(E(X));
(2)如果 f ( X ) f(X) f(X)是严格凸的,则不等式中等号当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时成立。

证明:
(1)对 X X X取值的个数进行数学归纳法证明,首先对于两点分布: X ∼ { p ( x 1 ) , p ( x 2 ) } X \sim \{p(x_1),p(x_2)\} X{p(x1),p(x2)}简记 p 1 = p ( x 1 ) p_1=p(x_1) p1=p(x1) p 2 = p ( x 2 ) p_2=p(x_2) p2=p(x2)。注意到 p 1 = 1 − p 2 p_1=1-p_2 p1=1p2,则有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) ≥ f ( p 1 x 1 + p 2 x 2 ) = f ( E ( X ) ) \mathbb{E}(f(X))=p_1f(x_1)+p_2f(x_2)\ge f(p_1x_1+p_2x_2)=f(\mathbb{E}(X)) E(f(X))=p1f(x1)+p2f(x2)f(p1x1+p2x2)=f(E(X))假设 X X X的值域 A A A中元素个数为 n − 1 ( n ≥ 2 ) n-1(n \ge 2) n1(n2) A = { x 1 , x 2 , ⋯   , x n − 1 } A=\{x_1,x_2,\cdots,x_{n-1}\} A={x1,x2,,xn1}时,结论(1)式成立,则对 A A A中元素个数为 n ( n ≥ 2 ) n(n\ge 2) n(n2) A = ( x 1 , x 2 , ⋯   , x n ) A=(x_1,x_2,\cdots,x_n) A=(x1,x2,,xn)时,简记 p i = p ( x i ) p_i=p(x_i) pi=p(xi) p i ′ = p i 1 − p n , i = 1 , 2 , ⋯   , n p_i^{\prime}=\frac{p_i}{1-p_n},i=1,2,\cdots,n pi=1pnpi,i=1,2,,n,则有 { p 1 ′ , p 2 ′ , ⋯   , p n − 1 ′ } \{p_1^{\prime},p_2^{\prime},\cdots,p^{\prime}_{n-1}\} {p1,p2,,pn1}是一个概率分布,从而有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) + ⋯ + p n f ( x n ) = ( 1 − p n ) ∑ i = 1 n − 1 p i ′ f ( x i ) + p n f ( x n ) ≥ ( 1 − p n ) f ( ∑ i = 1 n − 1 p i ′ x i ) + p n f ( x n ) ≥ f ( ∑ i = 1 n p i x i ) = f ( E ( X ) ) \begin{aligned}\mathbb{E}(f(X))&=p_1f(x_1)+p_2f(x_2)+\cdots+p_nf(x_n)\\&=(1-p_n)\sum\limits_{i=1}^{n-1}p^{\prime}_i f(x_i)+p_n f(x_n)\\&\ge(1-p_n)f(\sum\limits_{i=1}^{n-1}p_i^{\prime}x_i)+p_nf(x_n)\\&\ge f(\sum\limits_{i=1}^np_ix_i)=f(\mathbb{E}(X))\end{aligned} E(f(X))=p1f(x1)+p2f(x2)++pnf(xn)=(1pn)i=1n1pif(xi)+pnf(xn)(1pn)f(i=1n1pixi)+pnf(xn)f(i=1npixi)=f(E(X))
(2)若 f ( x ) f(x) f(x)是严格凸的,则总有 E ( f ( x ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(x))\ge f(\mathbb{E}(X)) E(f(x))f(E(X))成立,除非当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时, E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立。

J e n s e n \mathrm{Jensen} Jensen不等式2: X X X m m m维随机向量, f ( x ) f(x) f(x)为定义在 R m \mathbb{R}^{m} Rm上的凸函数 ( m = 1 , 2 , ⋯   ) (m=1,2,\cdots) (m=1,2,),其中 E ( X ) < ∞ \mathbb{E}(X)<\infty E(X)<,则有
(1) E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))f(E(X));
(2)如果 f ( X ) f(X) f(X)是严格凸的,则不等式中等号当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时成立。

证明:
(1)由于 y = f ( x ) y=f(x) y=f(x) R m + 1 \mathbb{R}^{m+1} Rm+1中的一个凸曲面,而点 ( E ( X ) , f ( E ( X ) ) ) (\mathbb{E}(X),f(\mathbb{E}(X))) (E(X),f(E(X)))在次曲面上。存在一个过此点的平面,使得上述曲面全在此平面上的上方。若以 y = f ( E ( X ) ) + c ′ ( x − E ( X ) ) y=f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) y=f(E(X))+c(xE(X))记此平面的方程,则有 f ( x ) ≥ f ( E ( X ) ) + c ′ ( x − E ( X ) ) f(x)\ge f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)f(E(X))+c(xE(X))因而则有 E ( f ( X ) ) ≥ f ( E ( X ) ) + c ′ E ( X − E ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X))+c^{\prime}\mathbb{E}(X-\mathbb{E}(X))=f(\mathbb{E}(X )) E(f(X))f(E(X))+cE(XE(X))=f(E(X))
(2)若 f ( x ) f(x) f(x)是严格凸的,则除非 x = E ( X ) x=\mathbb{E}(X) x=E(X),总有 f ( x ) > f ( E ( X ) ) f(x)>f(\mathbb{E}(X)) f(x)>f(E(X)),总有 f ( x ) > f ( E ( X ) ) + c ′ ( x − E ( X ) ) f(x)>f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)>f(E(X))+c(xE(X))成立,因而当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1 E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立。

J e n s e n \mathrm{Jensen} Jensen不等式3: f ( x ) f(x) f(x)是连续凸函数, X X X为关于 g g g σ \sigma σ可积的随机变量,则 f ( X ) f(X) f(X)关于 g g g的条件期望存在,且有 f ( E [ X ∣ g ] ) ≥ E ( f ( X ) ∣ g ) f(\mathbb{E}[X|g])\ge \mathbb{E}(f(X)|g) f(E[Xg])E(f(X)g)几乎必然成立。

证明: f ′ ( x ) f^{\prime}(x) f(x) f ( x ) f(x) f(x)的右导数,则对任意实数 x x x y y y f ′ ( x ) ( y − x ) ≥ f ( y ) − f ( x ) f^{\prime}(x)(y-x)\ge f(y)-f(x) f(x)(yx)f(y)f(x) E [ X ∣ g ] \mathbb{E}[X|g] E[Xg] X X X代替上式中的 x x x y y y得到 f ′ ( E [ X ∣ g ] ) ( X − E [ X ∣ g ] ) + f ( E [ X ∣ g ] ) ≤ f ( X ) f^{\prime}(\mathbb{E}[X|g])(X-\mathbb{E}[X|g])+f(\mathbb{E}[X|g])\le f(X) f(E[Xg])(XE[Xg])+f(E[Xg])f(X)记上式左边的随机变量为 Y Y Y,则 Y Y Y关于 g g g的条件期望存在,且 E [ Y ∣ g ] = f ( E [ X ∣ g ] ) \mathbb{E}[Y|g]=f(\mathbb{E}[X|g]) E[Yg]=f(E[Xg])将不等式两边同时取条件期望则有 f ( E [ X ∣ g ] ) ≤ E [ f ( X ) ∣ g ] f(\mathbb{E}[X|g])\le \mathbb{E}[f(X)|g] f(E[Xg])E[f(X)g]几乎必然成立。

你可能感兴趣的:(Math,概率论,机器学习,人工智能)