Jensen 不等式

  • 参考:
    1. 《数值最优化方法》—— 高立
    2. Jensen不等式初步理解及证明
    3. Jensen不等式讲解与证明

文章目录

  • 1. 凸集与凸函数
    • 1.1 凸集
    • 1.2 凸函数
  • 2. Jensen不等式
    • 2.1 Jensen不等式
    • 2.2 证明
    • 2.3 扩展

1. 凸集与凸函数

1.1 凸集

  1. 定义:设集合 C ⊂ R n C \subset \mathbb{R}^n CRn,若对 ∀ x , y ∈ C \forall x,y \in C x,yC,有
    θ x + ( 1 − θ ) y ∈ C , θ ∈ [ 0 , 1 ] \theta x + (1-\theta)y \in C, \theta \in [0,1] θx+(1θ)yC,θ[0,1]
    则称 C C C凸集

  2. 几何意义:若 x , y x,y x,y 属于凸集 C C C x x x y y y 连线上的所有点都属于凸集 C C C
    Jensen 不等式_第1张图片

  3. 性质:凸集关于加法、数乘和交运算都是封闭的。对于凸集 C 1 , C 2 ∈ R n C_1,C_2 \in \mathbb{R}^n C1,C2Rn β ∈ R \beta \in \mathbb{R} βR,则

    1. C 1 + C 2 = { x 1 + x 2 ∣ x 1 ∈ C 1 , x 2 ∈ C 2 } C_1+C_2 = \{x_1+x_2|x_1 \in C_1,x_2 \in C_2\} C1+C2={x1+x2x1C1,x2C2} 是凸集
    2. β C 1 = { β x ∣ x ∈ C 1 } \beta C_1 = \{\beta x|x\in C_1\} βC1={βxxC1} 是凸集
    3. C 1 ∩ C 2 C_1 \cap C_2 C1C2 是凸集

1.2 凸函数

  1. 定义:设集合 C ⊂ R n C \subset \mathbb{R}^n CRn 为非空凸集,函数 f : C → R f: C \to \mathbb{R} f:CR。若对 ∀ x , y ∈ C \forall x,y \in C x,yC,有
    f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) , θ ∈ [ 0 , 1 ] f(\theta x + (1-\theta)y) \leq \theta f(x)+(1-\theta)f(y), \theta \in [0,1] f(θx+(1θ)y)θf(x)+(1θ)f(y),θ[0,1]
    则称 f f f C C C凸函数。若不等式对 x ≠ y x\neq y x=y 严格成立,则称 f f f C C C 上的 严格凸函数

  2. 几何意义:凸函数曲线上任意两点连线都在函数曲线之上
    Jensen 不等式_第2张图片

  3. 判定方法

    1. 一阶判定条件
      Jensen 不等式_第3张图片
    2. 二阶判定条件
      Jensen 不等式_第4张图片

2. Jensen不等式

2.1 Jensen不等式

  • 根据凸函数性质,凸集 C C C 上的凸函数 f f f 上的两点 x 1 , x 2 x_1,x_2 x1,x2 满足
    θ f ( x 1 ) + ( 1 − θ ) f ( x 2 ) ≥ f ( θ x 1 + ( 1 − θ ) x 2 ) , θ ∈ [ 0 , 1 ] \theta f(x_1)+(1-\theta)f(x_2) \geq f(\theta x_1 + (1-\theta)x_2) , \theta \in [0,1] θf(x1)+(1θ)f(x2)f(θx1+(1θ)x2),θ[0,1]
  • 把上式推广到 n n n 个点的情况,即得 Jensen 不等式:对于凸函数 f f f,其所在凸集 C C C 中的任意点集 { x i } ⊂ C \{x_i\} \subset C {xi}C,若 θ i ≥ 0 \theta_i \geq 0 θi0 ∑ i θ i = 1 \sum_i\theta_i = 1 iθi=1,则有
    ∑ i = 1 M θ i f ( x i ) ≥ f ( ∑ i = 1 M θ i x i ) \sum_{i=1}^M\theta_i f(x_i) \geq f(\sum_{i=1}^M\theta_i x_i) i=1Mθif(xi)f(i=1Mθixi)

2.2 证明

  • 可以使用数学归纳法证明,参见:Jensen不等式讲解与证明

2.3 扩展

  1. 在概率论中,如果把 θ i \theta_i θi 看作离散型随机变量 X X X 取值 x i x_i xi 的概率,则根据Jensen不等式
    E [ f ( X ) ] ≥ f ( E [ X ] ) E[f(X)] \geq f(E[X]) E[f(X)]f(E[X])

  2. 把Jensen不等式拓展到连续情况,有
    ∫ f ( x ) p ( x ) d x ≥ f ( ∫ x p ( x ) d x ) \int f(x)p(x)dx \geq f(\int xp(x)dx) f(x)p(x)dxf(xp(x)dx)
    这里 f f f 是凸函数, p p p 是随机变量的概率密度函数

  3. 当随机变量X是常数时,Jensen不等式中等号成立。从几何角度容易理解(此时凸函数 f ( x ) = c f(x) = c f(x)=c是一条直线)

你可能感兴趣的:(数学,Jensen不等式,凸函数,凸集)