函数凸性与Jensen不等式

函数凸性与Jensen不等式

1.函数凸性的定义

根据函数的形态,将函数分为上凸函数与下凸函数,定义如下。

f ( x ) f(x) f(x)在区间 I I I上定义,如果对 I I I中的任意两点 x 1 x_1 x1 x 2 x_2 x2和任意 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1),都有
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\le \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2),
则称 f ( x ) f(x) f(x) I I I上的下凸函数。

如果
f ( λ x 1 + ( 1 − λ ) x 2 ) ≥ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\ge \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2),
则称 f ( x ) f(x) f(x) I I I上的上凸函数。

如果将不等式中的不等号改为严格不等号,则将 f ( x ) f(x) f(x)称为严格下凸函数、严格上凸函数。

从定义上看, λ a + ( 1 − λ ) b \lambda a+(1-\lambda )b λa+(1λ)b指的是 a , b a,b a,b的加权和,在图像上 λ x 1 + ( 1 − λ ) x 2 \lambda x_1+(1-\lambda )x_2 λx1+(1λ)x2就是 x 1 , x 2 x_1,x_2 x1,x2中的任意一点,而 λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) \lambda f(x_1)+(1-\lambda )f(x_2) λf(x1)+(1λ)f(x2) f ( x 1 ) , f ( x 2 ) f(x_1),f(x_2) f(x1),f(x2)中的对应点。注意到,定义上凸、下凸函数只从曲线和直线上点的大小关系,与导数不存在任何联系。

但是当函数存在二阶导时,二阶导与函数凸性存在联系。

f ( x ) f(x) f(x)在区间 I I I上二阶可导,则 f ( x ) f(x) f(x)在区间 I I I上是下凸函数的充分必要条件是,对于任何 x ∈ I x\in I xI,有 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0;类似地是上凸函数的充分必要条件是对于任何 x ∈ I x\in I xI,有 f ′ ′ ( x ) ≤ 0 f''(x)\le 0 f(x)0

证明:先证必要性,再证充分性。

必要性即由下凸推出 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0。因为下凸,所以对于任何 Δ x ≥ 0 \Delta x\ge0 Δx0,取 λ = 1 / 2 \lambda =1/2 λ=1/2,有
f ( x − Δ x ) + f ( x + Δ x ) 2 ≥ f ( x ) , \frac{f(x-\Delta x)+f(x+\Delta x)}{2}\ge f(x), 2f(xΔx)+f(x+Δx)f(x),
也就是
f ( x + Δ x ) − f ( x ) ≥ f ( x ) − f ( x − Δ x ) . {f(x+\Delta x)-f(x)}\ge {f(x)-f(x-\Delta x)}. f(x+Δx)f(x)f(x)f(xΔx).
对于 ∀ x 1 < x 2 ∈ I \forall x_1x1<x2I,令 Δ x n = x 2 − x 1 n \Delta x_n=\frac{x_2-x_1}{n} Δxn=nx2x1,有
f ( x 2 ) − f ( x 2 − Δ x n ) ≥ f ( x 2 − Δ x n ) − f ( x 2 − 2 Δ x n ) ≥ ⋯ ≥ f ( x 1 + Δ x n ) − f ( x 1 ) . f(x_2)-f(x_2-\Delta x_n)\ge f(x_2-\Delta x_n)-f(x_2-2\Delta x_n)\ge \cdots \ge f(x_1+\Delta x_n)-f(x_1). f(x2)f(x2Δxn)f(x2Δxn)f(x22Δxn)f(x1+Δxn)f(x1).
n → ∞ n\to \infty n,则有 Δ x n → 0 \Delta x_n\to 0 Δxn0,在上式首尾两端同时除去 Δ x n \Delta x_n Δxn并取极限,就得到
f ′ ( x 2 ) ≥ f ′ ( x 1 ) . f'(x_2)\ge f'(x_1). f(x2)f(x1).
这就得到 f ′ ( x ) f'(x) f(x) I I I上单调递增, f ′ ′ ( x ) ≥ 0 , x ∈ I f''(x)\ge 0,x\in I f(x)0,xI

这里常见的误区是,直接应用两次拉格朗日中值定理,再由 Δ x → 0 \Delta x\to0 Δx0推出 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0,因为不能保证二阶导的连续性,自然不能用极限。

再证充分性,即通过 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0推出下凸。因为 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0 f ′ ( x ) f'(x) f(x) I I I上单调增加。 ∀ x 1 < x 2 ∈ I \forall x_1x1<x2I以及 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ(0,1),取 x 0 = λ x 1 + ( 1 − λ ) x 2 x_0=\lambda x_1+(1-\lambda )x_2 x0=λx1+(1λ)x2,那么 x 1 < x 0 < x 2 x_1x1<x0<x2,且
x 1 − x 0 = ( 1 − λ ) ( x 1 − x 2 ) , x 2 − x 0 = λ ( x 2 − x 1 ) . x_1-x_0=(1-\lambda)(x_1-x_2),x_2-x_0=\lambda(x_2-x_1). x1x0=(1λ)(x1x2),x2x0=λ(x2x1).
分别运用Lagrange中值定理,结合 f ′ ( x ) f'(x) f(x)的单调性有
f ( x 1 ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x 1 − x 0 ) = f ( x 0 ) + ( 1 − λ ) f ′ ( x 0 ) ( x 1 − x 2 ) , f ( x 2 ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x 2 − x 0 ) = f ( x 0 ) + λ f ′ ( x 0 ) ( x 2 − x 1 ) . f(x_1)\ge f(x_0)+f'(x_0)(x_1-x_0)=f(x_0)+(1-\lambda)f'(x_0)(x_1-x_2),\\ f(x_2)\ge f(x_0)+f'(x_0)(x_2-x_0)=f(x_0)+\lambda f'(x_0)(x_2-x_1). f(x1)f(x0)+f(x0)(x1x0)=f(x0)+(1λ)f(x0)(x1x2),f(x2)f(x0)+f(x0)(x2x0)=f(x0)+λf(x0)(x2x1).
将上式乘以 λ \lambda λ,下式乘以 ( 1 − λ ) (1-\lambda) (1λ)再相加,就有
λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ≥ f ( x 0 ) = f ( λ x 1 + ( 1 − λ ) x 2 ) . \lambda f(x_1)+(1-\lambda)f(x_2)\ge f(x_0)=f(\lambda x_1+(1-\lambda )x_2). λf(x1)+(1λ)f(x2)f(x0)=f(λx1+(1λ)x2).
这就证明了 f ( x ) f(x) f(x)的下凸性。整个证明,最重要的是利用 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f(x)0 f ′ ( x ) f'(x) f(x)单调递增的等价性完成替换。

2.拐点

曲线的拐点是上凸和下凸的分界点,有如下定理叙述拐点的位置

f ( x ) f(x) f(x)在区间 I I I上连续, ( x 0 − δ , x 0 + δ ) ⊂ I (x_0-\delta,x_0+\delta)\sub I (x0δ,x0+δ)I,则

  1. f ( x ) f(x) f(x) ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0δ,x0) ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上二阶可导。若 f ′ ′ ( x ) f''(x) f(x) ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0δ,x0) ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相反,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点;若 f ′ ′ ( x ) f''(x) f(x) ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0δ,x0) ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相同,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))不是曲线 y = f ( x ) y=f(x) y=f(x)的拐点。
  2. f ( x ) f(x) f(x) ( x 0 − δ , x 0 + δ ) (x_0-\delta,x_0+\delta) (x0δ,x0+δ)上二阶可导,若点 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点,则 f ′ ′ ( x ) = 0 f''(x)=0 f(x)=0

结论1中,如果在双侧邻域上符号相反,则在一侧上凸一侧下凸,显然 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线的拐点。

结论2中,如果 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是拐点,则在一侧上凸、一侧下凸,在上凸侧 f ′ ( x ) f'(x) f(x)单调递减,在下凸侧 f ′ ( x ) f'(x) f(x)单调递增,所以 f ′ ( x 0 ) f'(x_0) f(x0)是极值点,由 f ′ ′ ( x 0 ) f''(x_0) f(x0)的存在性与Fermat引理, f ′ ′ ( x ) = 0 f''(x)=0 f(x)=0

3.Jensen不等式

Jensen不等式:若 f ( x ) f(x) f(x)为区间 I I I上的下凸函数,则对任意 x i ∈ I x_i\in I xiI和满足 ∑ i λ i = 1 \sum_i\lambda_i=1 iλi=1 λ i > 0 ( i = 1 , 2 , ⋯   , n ) \lambda_i>0(i=1,2,\cdots,n) λi>0(i=1,2,,n),成立
f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) . f\left(\sum_{i=1}^n \lambda_ix_i \right)\le \sum_{i=1}^n\lambda_if(x_i). f(i=1nλixi)i=1nλif(xi).
如果是上凸函数,则不等号方向改变。

证明:当 n = 1 n=1 n=1时结论显然成立为 f ( x 1 ) = f ( x 1 ) f(x_1)=f(x_1) f(x1)=f(x1)。现假设当 n = k n=k n=k时结论成立,即 ∑ i = 1 k λ i = 1 \sum\limits_{i=1}^k\lambda_i=1 i=1kλi=1,有
f ( ∑ i = 1 k λ i x i ) ≤ ∑ i = 1 k λ i f ( x i ) , f\left(\sum_{i=1}^k \lambda_ix_i \right)\le \sum_{i=1}^k \lambda_if(x_i), f(i=1kλixi)i=1kλif(xi),
∀ λ k + 1 ′ ∈ ( 0 , 1 ) \forall \lambda_{k+1}'\in (0,1) λk+1(0,1),令 λ i ′ = λ i ( 1 − λ k + 1 ′ ) \lambda_i'=\lambda_i(1-\lambda_{k+1}') λi=λi(1λk+1),这样 ∑ i = 1 k + 1 λ i ′ = 1 \sum\limits_{i=1}^{k+1}\lambda_i'=1 i=1k+1λi=1,且
f ( ∑ i = 1 k + 1 λ i ′ x i ) = f ( ( 1 − λ k + 1 ′ ) ∑ i = 1 k λ i ′ 1 − λ k + 1 ′ x i + λ k + 1 ′ x k + 1 ) ≤ ( 1 − λ k + 1 ′ ) f ( ∑ i = 1 k λ i x i ) + λ k + 1 ′ x k + 1 ≤ ∑ i = 1 k λ i ( 1 − λ k + 1 ′ ) x i + λ k + 1 ′ x k + 1 = ∑ i = 1 k + 1 λ i ′ x i . \begin{aligned} &f\left(\sum_{i=1}^{k+1}\lambda_i'x_i \right)\\ =&f\left((1-\lambda_{k+1}')\sum_{i=1}^k\frac{\lambda_i'}{1-\lambda_{k+1}'}x_i+\lambda_{k+1}'x_{k+1} \right)\\ \le& (1-\lambda_{k+1}')f\left(\sum_{i=1}^k\lambda_ix_i \right)+\lambda'_{k+1}x_{k+1}\\ \le& \sum_{i=1}^k\lambda_i(1-\lambda'_{k+1})x_i+\lambda'_{k+1}x_{k+1}\\ =&\sum_{i=1}^{k+1}\lambda_{i}'x_i. \end{aligned} ==f(i=1k+1λixi)f((1λk+1)i=1k1λk+1λixi+λk+1xk+1)(1λk+1)f(i=1kλixi)+λk+1xk+1i=1kλi(1λk+1)xi+λk+1xk+1i=1k+1λixi.

这就证明了结论。

4.Jensen不等式的应用

1.证明: ∀ a , b > 0 \forall a,b>0 a,b>0
a ln ⁡ a + b ln ⁡ b ≥ ( a + b ) [ ln ⁡ ( a + b ) − ln ⁡ 2 ] . a\ln a+b\ln b\ge (a+b)[\ln (a+b)-\ln 2]. alna+blnb(a+b)[ln(a+b)ln2].

f ( x ) = x ln ⁡ x f(x)=x\ln x f(x)=xlnx,则
f ′ ( x ) = ln ⁡ x + 1 , f ′ ′ ( x ) = 1 x > 0 , f'(x)=\ln x+1,\quad f''(x)=\frac 1x>0, f(x)=lnx+1,f(x)=x1>0,
所以 f ( x ) f(x) f(x)是下凸函数,由Jensen不等式有
f ( a + b 2 ) ≤ 1 2 [ f ( a ) + f ( b ) ] , f(\frac{a+b}2)\le \frac 12[f(a)+f(b)], f(2a+b)21[f(a)+f(b)],
整理得
a + b 2 [ ln ⁡ ( a + b ) − ln ⁡ 2 ] ≤ 1 2 [ a ln ⁡ a + b ln ⁡ b ] , \frac{a+b}{2}[\ln (a+b)-\ln 2]\le \frac 12[a\ln a+b\ln b], 2a+b[ln(a+b)ln2]21[alna+blnb],
这就证得了原结论。并且原结论可以拓展为,对于 x 1 , ⋯   , x n > 0 x_1,\cdots,x_n>0 x1,,xn>0,成立
∑ i = 1 n x i ln ⁡ x i ≥ ∑ i = 1 n x i [ ln ⁡ ∑ i = 1 n x i − ln ⁡ n ] . \sum_{i=1}^n x_i\ln x_i\ge \sum_{i=1}^n x_i\left[\ln\sum_{i=1 }^n x_i-\ln n \right]. i=1nxilnxii=1nxi[lni=1nxilnn].

2.证明: ∀ a , b ≥ 0 \forall a,b\ge 0 a,b0 p , q p,q p,q满足 1 p + 1 q = 1 \frac 1p+\frac 1q=1 p1+q1=1,证明
a b ≤ 1 p a p + 1 q b q . ab\le \frac 1pa^p+\frac 1qb^q. abp1ap+q1bq.

给定 1 p + 1 q = 1 \frac 1p+\frac 1q=1 p1+q1=1的条件,显然是想作为权重,因此要找到合适的上凸或下凸函数联系左右两端。注意到具有指数,所以想应用 f ( x ) = ln ⁡ x f(x)=\ln x f(x)=lnx。这显然是一个上凸函数,所以有
f ( 1 p a p + 1 q b q ) ≥ 1 p f ( a p ) + 1 q f ( b q ) , a , b ≠ 0. f\left(\frac 1pa^p+\frac 1qb^q \right)\ge \frac 1p f(a^p)+\frac 1qf(b^q),\quad a,b\ne0. f(p1ap+q1bq)p1f(ap)+q1f(bq),a,b=0.
整理得到
1 p a p + 1 q b q ≥ e ln ⁡ a + ln ⁡ b = a b , a , b ≠ 0. \frac 1pa^p+\frac 1qb^q\ge e^{\ln a+\ln b}=ab,\quad a,b\ne0. p1ap+q1bqelna+lnb=ab,a,b=0.
而对于 a , b a,b a,b中存在等于0的情况,这个不等式是显然成立的。

3.证明:如果 a 1 , ⋯   , a n a_1,\cdots,a_n a1,,an是不小于1的实数,证明:
1 a 1 + 1 + ⋯ + 1 a n + 1 ≥ n a 1 ⋯ a n n + 1 \frac 1{a_1+1}+\cdots+\frac {1}{a_n+1}\ge \frac {n}{\sqrt[n]{a_1\cdots a_n}+1} a1+11++an+11na1an +1n

a i = e x i , x i ≥ 0 a_i=e^{x_i},x_i\ge 0 ai=exi,xi0,再令
f ( x ) = 1 e x + 1 , f ′ ( x ) = − e x ( e x + 1 ) 2 , f ′ ′ ( x ) = − e x ( e x − 1 ) ( e x + 1 ) 3 ≥ 0 , f(x)=\frac 1{e^x+1},f'(x)=\frac{-e^x}{(e^x+1)^2},f''(x)=-\frac{e^x(e^x-1)}{(e^x+1)^3}\ge0, f(x)=ex+11,f(x)=(ex+1)2ex,f(x)=(ex+1)3ex(ex1)0,
所以 f ( x ) f(x) f(x)是下凸函数,有
f ( x 1 + ⋯ + x n n ) ≤ 1 n [ f ( x 1 ) + ⋯ + f ( x n ) ] f\left(\frac{x_1+\cdots+x_n}n \right)\le \frac 1n\left[f(x_1)+\cdots+f(x_n) \right] f(nx1++xn)n1[f(x1)++f(xn)]

1 e x 1 ⋯ e x n n + 1 ≤ 1 n ( 1 e x 1 + 1 + ⋯ + 1 e x n + 1 ) , \frac {1}{\sqrt[n]{e^{x_1}\cdots e^{x_n}}+1}\le \frac 1n\left(\frac{1}{e^{x_1}+1}+\cdots+\frac 1{e^{x_n}+1} \right), nex1exn +11n1(ex1+11++exn+11),
也就是
n a 1 ⋯ a n n + 1 ≤ 1 a 1 + 1 + ⋯ + 1 a n + 1 . \frac n{\sqrt[n]{a_1\cdots a_n}+1}\le \frac{1}{a_1+1}+\cdots+\frac 1{a_n+1}. na1an +1na1+11++an+11.

4.设正实数 a 1 , ⋯   , a n a_1,\cdots,a_n a1,,an满足 ∑ a i = 1 \sum a_i=1 ai=1,求证:
∏ i = 1 n 1 + a i a i ≥ ∏ i = 1 n n − a i 1 − a i . \prod_{i=1}^n \frac{1+a_i}{a_i}\ge \prod_{i=1}^n\frac{n-a_i}{1-a_i}. i=1nai1+aii=1n1ainai.


f ( x ) = ln ⁡ ( x + 1 x ) , f ′ ( x ) = 1 1 + x − 1 x , f ′ ′ ( x ) = − 1 ( 1 + x ) 2 + 1 x 2 > 0 , f(x)=\ln (\frac {x+1}x),f'(x)=\frac 1{1+x}-\frac 1x,f''(x)=-\frac{1}{(1+x)^2}+\frac 1{x^2}>0, f(x)=ln(xx+1),f(x)=1+x1x1,f(x)=(1+x)21+x21>0,
所以 f ( x ) f(x) f(x)是下凸函数。为了构造出 n − a i n-a_i nai项,我们对每一个不含 i i i的项,有
1 n − 1 ∑ j ≠ i f ( a j ) ≥ f ( ∑ j ≠ i a j n − 1 ) , \frac1{n-1}\sum_{j\ne i} f(a_j)\ge f\left(\frac{\sum_{j\ne i}a_j}{n-1} \right), n11j=if(aj)f(n1j=iaj),

∏ j ≠ i a j + 1 a j ≥ ( 1 + n − 1 ∑ j ≠ i a j ) n − 1 = ( n − a i 1 − a i ) n − 1 . \prod_{j\ne i}\frac{a_j+1}{a_j}\ge \left(1+\frac{n-1}{\sum_{j\ne i}a_j} \right)^{n-1}=\left(\frac{n-a_i}{1-a_i} \right)^{n-1}. j=iajaj+1(1+j=iajn1)n1=(1ainai)n1.
对每个 i i i的这个式子相乘并开 n − 1 n-1 n1次方,就得到
∏ i = 1 n a i + 1 a i ≥ ∏ i = 1 n ( n − a i 1 − a i ) . \prod_{i=1}^n \frac{a_i+1}{a_i}\ge \prod_{i=1}^n\left(\frac{n-a_i}{1-a_i} \right). i=1naiai+1i=1n(1ainai).

你可能感兴趣的:(数学分析)