概率不等式是概率论和数理统计的理论研究中的重要工具,对于概率极限理论和统计大样本理论,几乎所有重要结果的论证是借助于概率不等式的巧妙应用, J e n s e n \mathrm{Jensen} Jensen不等式和证明,并应用其带来解决一些相关问题。
J e n s e n \mathrm{Jensen} Jensen不等式的形式有很多种,标准形式的如下:
J e n s e n \mathrm{Jensen} Jensen不等式: 如果 f ( x ) f(x) f(x)为连续实值凸函数,且 x 1 ≤ x 2 ≤ ⋯ ≤ x n x_1\le x_2\le \cdots \le x_n x1≤x2≤⋯≤xn, ∑ i = 1 n λ i = 1 \sum\limits_{i=1}^n\lambda_i=1 i=1∑nλi=1, λ i ≥ 0 \lambda_i \ge0 λi≥0, i = 1 , 2 ⋯ , n i=1,2\cdots,n i=1,2⋯,n,则有 ∑ i = 1 n λ i f ( x i ) ≥ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\ge f(\sum\limits_{i=1}^n\lambda_i x_i) i=1∑nλif(xi)≥f(i=1∑nλixi)如果 f ( x ) f(x) f(x)为连续实值凹函数,则有 ∑ i = 1 n λ i f ( x i ) ≤ f ( ∑ i = 1 n λ i x i ) \sum\limits_{i=1}^n\lambda_i f(x_i)\le f(\sum\limits_{i=1}^n\lambda_i x_i) i=1∑nλif(xi)≤f(i=1∑nλixi)
在概率论中 J e n s e n \mathrm{Jensen} Jensen不等式有:离散型,连续型,条件期望型和中位数型等形式
J e n s e n \mathrm{Jensen} Jensen不等式1: 设 f ( x ) f(x) f(x)是区间 [ a , b ] [a,b] [a,b]上的凸函数, X X X是取值于 [ a , b ] [a,b] [a,b]上子集 A A A的离散型随机变量,则有如下两个结论成立
(1) E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))≥f(E(X));
(2)如果 f ( X ) f(X) f(X)是严格凸的,则不等式中等号当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时成立。
证明:
(1)对 X X X取值的个数进行数学归纳法证明,首先对于两点分布: X ∼ { p ( x 1 ) , p ( x 2 ) } X \sim \{p(x_1),p(x_2)\} X∼{p(x1),p(x2)}简记 p 1 = p ( x 1 ) p_1=p(x_1) p1=p(x1), p 2 = p ( x 2 ) p_2=p(x_2) p2=p(x2)。注意到 p 1 = 1 − p 2 p_1=1-p_2 p1=1−p2,则有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) ≥ f ( p 1 x 1 + p 2 x 2 ) = f ( E ( X ) ) \mathbb{E}(f(X))=p_1f(x_1)+p_2f(x_2)\ge f(p_1x_1+p_2x_2)=f(\mathbb{E}(X)) E(f(X))=p1f(x1)+p2f(x2)≥f(p1x1+p2x2)=f(E(X))假设 X X X的值域 A A A中元素个数为 n − 1 ( n ≥ 2 ) n-1(n \ge 2) n−1(n≥2), A = { x 1 , x 2 , ⋯ , x n − 1 } A=\{x_1,x_2,\cdots,x_{n-1}\} A={x1,x2,⋯,xn−1}时,结论(1)式成立,则对 A A A中元素个数为 n ( n ≥ 2 ) n(n\ge 2) n(n≥2), A = ( x 1 , x 2 , ⋯ , x n ) A=(x_1,x_2,\cdots,x_n) A=(x1,x2,⋯,xn)时,简记 p i = p ( x i ) p_i=p(x_i) pi=p(xi), p i ′ = p i 1 − p n , i = 1 , 2 , ⋯ , n p_i^{\prime}=\frac{p_i}{1-p_n},i=1,2,\cdots,n pi′=1−pnpi,i=1,2,⋯,n,则有 { p 1 ′ , p 2 ′ , ⋯ , p n − 1 ′ } \{p_1^{\prime},p_2^{\prime},\cdots,p^{\prime}_{n-1}\} {p1′,p2′,⋯,pn−1′}是一个概率分布,从而有 E ( f ( X ) ) = p 1 f ( x 1 ) + p 2 f ( x 2 ) + ⋯ + p n f ( x n ) = ( 1 − p n ) ∑ i = 1 n − 1 p i ′ f ( x i ) + p n f ( x n ) ≥ ( 1 − p n ) f ( ∑ i = 1 n − 1 p i ′ x i ) + p n f ( x n ) ≥ f ( ∑ i = 1 n p i x i ) = f ( E ( X ) ) \begin{aligned}\mathbb{E}(f(X))&=p_1f(x_1)+p_2f(x_2)+\cdots+p_nf(x_n)\\&=(1-p_n)\sum\limits_{i=1}^{n-1}p^{\prime}_i f(x_i)+p_n f(x_n)\\&\ge(1-p_n)f(\sum\limits_{i=1}^{n-1}p_i^{\prime}x_i)+p_nf(x_n)\\&\ge f(\sum\limits_{i=1}^np_ix_i)=f(\mathbb{E}(X))\end{aligned} E(f(X))=p1f(x1)+p2f(x2)+⋯+pnf(xn)=(1−pn)i=1∑n−1pi′f(xi)+pnf(xn)≥(1−pn)f(i=1∑n−1pi′xi)+pnf(xn)≥f(i=1∑npixi)=f(E(X))
(2)若 f ( x ) f(x) f(x)是严格凸的,则总有 E ( f ( x ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(x))\ge f(\mathbb{E}(X)) E(f(x))≥f(E(X))成立,除非当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时, E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立。
J e n s e n \mathrm{Jensen} Jensen不等式2: 设 X X X是 m m m维随机向量, f ( x ) f(x) f(x)为定义在 R m \mathbb{R}^{m} Rm上的凸函数 ( m = 1 , 2 , ⋯ ) (m=1,2,\cdots) (m=1,2,⋯),其中 E ( X ) < ∞ \mathbb{E}(X)<\infty E(X)<∞,则有
(1) E ( f ( X ) ) ≥ f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X)) E(f(X))≥f(E(X));
(2)如果 f ( X ) f(X) f(X)是严格凸的,则不等式中等号当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时成立。
证明:
(1)由于 y = f ( x ) y=f(x) y=f(x)是 R m + 1 \mathbb{R}^{m+1} Rm+1中的一个凸曲面,而点 ( E ( X ) , f ( E ( X ) ) ) (\mathbb{E}(X),f(\mathbb{E}(X))) (E(X),f(E(X)))在次曲面上。存在一个过此点的平面,使得上述曲面全在此平面上的上方。若以 y = f ( E ( X ) ) + c ′ ( x − E ( X ) ) y=f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) y=f(E(X))+c′(x−E(X))记此平面的方程,则有 f ( x ) ≥ f ( E ( X ) ) + c ′ ( x − E ( X ) ) f(x)\ge f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)≥f(E(X))+c′(x−E(X))因而则有 E ( f ( X ) ) ≥ f ( E ( X ) ) + c ′ E ( X − E ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))\ge f(\mathbb{E}(X))+c^{\prime}\mathbb{E}(X-\mathbb{E}(X))=f(\mathbb{E}(X )) E(f(X))≥f(E(X))+c′E(X−E(X))=f(E(X))
(2)若 f ( x ) f(x) f(x)是严格凸的,则除非 x = E ( X ) x=\mathbb{E}(X) x=E(X),总有 f ( x ) > f ( E ( X ) ) f(x)>f(\mathbb{E}(X)) f(x)>f(E(X)),总有 f ( x ) > f ( E ( X ) ) + c ′ ( x − E ( X ) ) f(x)>f(\mathbb{E}(X))+c^{\prime}(x-\mathbb{E}(X)) f(x)>f(E(X))+c′(x−E(X))成立,因而当且仅当 P ( X = E ( X ) ) = 1 P(X=\mathbb{E}(X))=1 P(X=E(X))=1时 E ( f ( X ) ) = f ( E ( X ) ) \mathbb{E}(f(X))=f(\mathbb{E}(X)) E(f(X))=f(E(X))成立。
J e n s e n \mathrm{Jensen} Jensen不等式3: 设 f ( x ) f(x) f(x)是连续凸函数, X X X为关于 g g g为 σ \sigma σ可积的随机变量,则 f ( X ) f(X) f(X)关于 g g g的条件期望存在,且有 f ( E [ X ∣ g ] ) ≥ E ( f ( X ) ∣ g ) f(\mathbb{E}[X|g])\ge \mathbb{E}(f(X)|g) f(E[X∣g])≥E(f(X)∣g)几乎必然成立。
证明: 令 f ′ ( x ) f^{\prime}(x) f′(x)为 f ( x ) f(x) f(x)的右导数,则对任意实数 x x x与 y y y有 f ′ ( x ) ( y − x ) ≥ f ( y ) − f ( x ) f^{\prime}(x)(y-x)\ge f(y)-f(x) f′(x)(y−x)≥f(y)−f(x)以 E [ X ∣ g ] \mathbb{E}[X|g] E[X∣g]及 X X X代替上式中的 x x x与 y y y得到 f ′ ( E [ X ∣ g ] ) ( X − E [ X ∣ g ] ) + f ( E [ X ∣ g ] ) ≤ f ( X ) f^{\prime}(\mathbb{E}[X|g])(X-\mathbb{E}[X|g])+f(\mathbb{E}[X|g])\le f(X) f′(E[X∣g])(X−E[X∣g])+f(E[X∣g])≤f(X)记上式左边的随机变量为 Y Y Y,则 Y Y Y关于 g g g的条件期望存在,且 E [ Y ∣ g ] = f ( E [ X ∣ g ] ) \mathbb{E}[Y|g]=f(\mathbb{E}[X|g]) E[Y∣g]=f(E[X∣g])将不等式两边同时取条件期望则有 f ( E [ X ∣ g ] ) ≤ E [ f ( X ) ∣ g ] f(\mathbb{E}[X|g])\le \mathbb{E}[f(X)|g] f(E[X∣g])≤E[f(X)∣g]几乎必然成立。