若 f ( x ) f(x) f(x)是区间 [ a , b ] [a,b] [a,b]内的凸函数,则对 ∀ x 1 , x 2 , … , x n ∈ [ a , b ] \forall x_1, x_2, \dots, x_n \in [a,b] ∀x1,x2,…,xn∈[a,b],有下述不等式成立:
t f ( x 1 ) + ( 1 − t ) f ( x 2 ) ≥ f ( t x 1 + ( 1 − t ) x 2 ) , 0 ≤ t ≤ 1 \begin{align*} tf(x_1)+(1-t)f(x_2)\geq f(tx_1+(1-t)x_2), \quad 0\leq t \leq 1 \end{align*} tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2),0≤t≤1
当且仅当 x 1 = x 2 x_1=x_2 x1=x2时等号成立。
∑ i = 1 n f ( x i ) n ≥ f ( ∑ i = 1 n x i n ) \begin{align*} \frac{\sum_{i=1}^n f(x_i)}{n} \geq f(\frac{\sum_{i=1}^nx_i}{n}) \end{align*} n∑i=1nf(xi)≥f(n∑i=1nxi)
当且仅当 x 1 = x 2 = ⋯ = x n x_1=x_2=\dots=x_n x1=x2=⋯=xn时等号成立。
若 λ i ≥ 0 \lambda_i\geq0 λi≥0且 ∑ i λ i = 1 \sum_{i}\lambda_i=1 ∑iλi=1成立,则有:
∑ i = 1 n λ i f ( x i ) ≥ f ( ∑ i = 1 n λ i x i ) \begin{align*} \sum_{i=1}^n \lambda_i f(x_i) \geq f(\sum_{i=1}^n \lambda_i x_i) \end{align*} i=1∑nλif(xi)≥f(i=1∑nλixi)
当且仅当 x 1 = x 2 = ⋯ = x n x_1=x_2=\dots=x_n x1=x2=⋯=xn时等号成立。
说明1: 形式3可针对形式1使用数学归纳法证得
说明2: 在概率论中,如果把 λ i \lambda_i λi看成取值为 x i x_i xi的离散变量 x 的概率分布,那么形式3就可以写成:
f ( E [ X ] ) ≤ E [ f ( X ) ] \begin{align*} f(E[X])\leq E[f(X)] \end{align*} f(E[X])≤E[f(X)]
说明3: 在概率论中,对于连续变量,Jensen不等式也给出了积分的凸函数值和凸函数的积分值间的关系:
f ( ∫ x p ( x ) d x ) ≤ ∫ f ( X ) p ( x ) d x \begin{align*} f( \int xp(x)dx )\leq \int f(X) p(x)dx \end{align*} f(∫xp(x)dx)≤∫f(X)p(x)dx
对任意的非负实数 λ i ≥ 0 \lambda_i\geq0 λi≥0,都有:
∑ i = 1 n λ i f ( x i ) ∑ i = 1 n λ i ≥ f ( ∑ i = 1 n λ i x i ∑ i = 1 n λ i ) \begin{align*} \frac{\sum_{i=1}^n \lambda_i f(x_i)}{\sum_{i=1}^n \lambda_i} \geq f(\frac{\sum_{i=1}^n \lambda_i x_i}{\sum_{i=1}^n \lambda_i}) \end{align*} ∑i=1nλi∑i=1nλif(xi)≥f(∑i=1nλi∑i=1nλixi)
当且仅当 x 1 = x 2 = ⋯ = x n x_1=x_2=\dots=x_n x1=x2=⋯=xn时等号成立。
说明1: 其实,形式4可由形式3推得,具体证明方法也比较简单,详见如下:
∑ i = 1 n λ i f ( x i ) ∑ i = 1 n λ i = ∑ i = 1 n ( λ i ∑ i = 1 n λ i ) f ( x i ) ( 显然 ∑ i = 1 n λ i 为纯量 ) = ∑ i = 1 n λ i ′ f ( x i ) ( 赋值满足形式3的新变量 λ i ′ ) = f ( ∑ i = 1 n λ i ′ x i ) ( 由形式3得 ) = f ( ∑ i = 1 n λ i ∑ i = 1 n λ i x i ) = f ( ∑ i = 1 n λ i x i ∑ i = 1 n λ i ) \begin{align*} \frac{\sum_{i=1}^n \lambda_i f(x_i)}{\sum_{i=1}^n \lambda_i} &= \sum_{i=1}^n ( \frac{\lambda_i}{\sum_{i=1}^n \lambda_i}) f(x_i) \quad(\text{显然}\sum_{i=1}^n \lambda_i \text{为纯量}) \\ &= \sum_{i=1}^n \lambda_i' f(x_i) \quad(\text{赋值满足形式3的新变量}\lambda_i') \\ &= f(\sum_{i=1}^n \lambda_i' x_i) \quad(\text{由形式3得})\\ &=f(\sum_{i=1}^n \frac{\lambda_i}{\sum_{i=1}^n \lambda_i} x_i) \\ &=f(\frac{\sum_{i=1}^n \lambda_i x_i}{\sum_{i=1}^n \lambda_i}) \end{align*} ∑i=1nλi∑i=1nλif(xi)=i=1∑n(∑i=1nλiλi)f(xi)(显然i=1∑nλi为纯量)=i=1∑nλi′f(xi)(赋值满足形式3的新变量λi′)=f(i=1∑nλi′xi)(由形式3得)=f(i=1∑n∑i=1nλiλixi)=f(∑i=1nλi∑i=1nλixi)
说明2: 当然,形式4也可用1-范数的形式简写:
∑ i = 1 n λ i f ( x i ) ∥ λ ∥ 1 ≥ f ( ∑ i = 1 n λ i x i ∥ λ ∥ 1 ) \begin{align*} \frac{\sum_{i=1}^n \lambda_i f(x_i)}{\lVert \lambda \rVert_1} \geq f(\frac{\sum_{i=1}^n \lambda_i x_i}{\lVert \lambda \rVert_1}) \end{align*} ∥λ∥1∑i=1nλif(xi)≥f(∥λ∥1∑i=1nλixi)
或写为下式。总之,见到不要眼生:
∑ i = 1 n λ i f ( x i ) ≥ f ( ∑ i = 1 n λ i x i ∥ λ ∥ 1 ) ∥ λ ∥ 1 \begin{align*} \sum_{i=1}^n \lambda_i f(x_i)\geq f(\frac{\sum_{i=1}^n \lambda_i x_i}{\lVert \lambda \rVert_1})\lVert \lambda \rVert_1 \end{align*} i=1∑nλif(xi)≥f(∥λ∥1∑i=1nλixi)∥λ∥1
[1] 维基百科:Jensen’s inequality
[2] 知乎:Jensen不等式初步理解及证明