根据函数的形态,将函数分为上凸函数与下凸函数,定义如下。
设 f ( x ) f(x) f(x)在区间 I I I上定义,如果对 I I I中的任意两点 x 1 x_1 x1和 x 2 x_2 x2和任意 λ ∈ ( 0 , 1 ) \lambda \in (0,1) λ∈(0,1),都有
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\le \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2),
则称 f ( x ) f(x) f(x)是 I I I上的下凸函数。如果
f ( λ x 1 + ( 1 − λ ) x 2 ) ≥ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) , f(\lambda x_1+(1-\lambda )x_2)\ge \lambda f(x_1)+(1-\lambda)f(x_2), f(λx1+(1−λ)x2)≥λf(x1)+(1−λ)f(x2),
则称 f ( x ) f(x) f(x)是 I I I上的上凸函数。如果将不等式中的不等号改为严格不等号,则将 f ( x ) f(x) f(x)称为严格下凸函数、严格上凸函数。
从定义上看, λ a + ( 1 − λ ) b \lambda a+(1-\lambda )b λa+(1−λ)b指的是 a , b a,b a,b的加权和,在图像上 λ x 1 + ( 1 − λ ) x 2 \lambda x_1+(1-\lambda )x_2 λx1+(1−λ)x2就是 x 1 , x 2 x_1,x_2 x1,x2中的任意一点,而 λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) \lambda f(x_1)+(1-\lambda )f(x_2) λf(x1)+(1−λ)f(x2)是 f ( x 1 ) , f ( x 2 ) f(x_1),f(x_2) f(x1),f(x2)中的对应点。注意到,定义上凸、下凸函数只从曲线和直线上点的大小关系,与导数不存在任何联系。
但是当函数存在二阶导时,二阶导与函数凸性存在联系。
设 f ( x ) f(x) f(x)在区间 I I I上二阶可导,则 f ( x ) f(x) f(x)在区间 I I I上是下凸函数的充分必要条件是,对于任何 x ∈ I x\in I x∈I,有 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0;类似地是上凸函数的充分必要条件是对于任何 x ∈ I x\in I x∈I,有 f ′ ′ ( x ) ≤ 0 f''(x)\le 0 f′′(x)≤0。
证明:先证必要性,再证充分性。
必要性即由下凸推出 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0。因为下凸,所以对于任何 Δ x ≥ 0 \Delta x\ge0 Δx≥0,取 λ = 1 / 2 \lambda =1/2 λ=1/2,有
f ( x − Δ x ) + f ( x + Δ x ) 2 ≥ f ( x ) , \frac{f(x-\Delta x)+f(x+\Delta x)}{2}\ge f(x), 2f(x−Δx)+f(x+Δx)≥f(x),
也就是
f ( x + Δ x ) − f ( x ) ≥ f ( x ) − f ( x − Δ x ) . {f(x+\Delta x)-f(x)}\ge {f(x)-f(x-\Delta x)}. f(x+Δx)−f(x)≥f(x)−f(x−Δx).
对于 ∀ x 1 < x 2 ∈ I \forall x_1
f ( x 2 ) − f ( x 2 − Δ x n ) ≥ f ( x 2 − Δ x n ) − f ( x 2 − 2 Δ x n ) ≥ ⋯ ≥ f ( x 1 + Δ x n ) − f ( x 1 ) . f(x_2)-f(x_2-\Delta x_n)\ge f(x_2-\Delta x_n)-f(x_2-2\Delta x_n)\ge \cdots \ge f(x_1+\Delta x_n)-f(x_1). f(x2)−f(x2−Δxn)≥f(x2−Δxn)−f(x2−2Δxn)≥⋯≥f(x1+Δxn)−f(x1).
令 n → ∞ n\to \infty n→∞,则有 Δ x n → 0 \Delta x_n\to 0 Δxn→0,在上式首尾两端同时除去 Δ x n \Delta x_n Δxn并取极限,就得到
f ′ ( x 2 ) ≥ f ′ ( x 1 ) . f'(x_2)\ge f'(x_1). f′(x2)≥f′(x1).
这就得到 f ′ ( x ) f'(x) f′(x)在 I I I上单调递增, f ′ ′ ( x ) ≥ 0 , x ∈ I f''(x)\ge 0,x\in I f′′(x)≥0,x∈I。
这里常见的误区是,直接应用两次拉格朗日中值定理,再由 Δ x → 0 \Delta x\to0 Δx→0推出 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0,因为不能保证二阶导的连续性,自然不能用极限。
再证充分性,即通过 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0推出下凸。因为 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0, f ′ ( x ) f'(x) f′(x)在 I I I上单调增加。 ∀ x 1 < x 2 ∈ I \forall x_1
x 1 − x 0 = ( 1 − λ ) ( x 1 − x 2 ) , x 2 − x 0 = λ ( x 2 − x 1 ) . x_1-x_0=(1-\lambda)(x_1-x_2),x_2-x_0=\lambda(x_2-x_1). x1−x0=(1−λ)(x1−x2),x2−x0=λ(x2−x1).
分别运用Lagrange中值定理,结合 f ′ ( x ) f'(x) f′(x)的单调性有
f ( x 1 ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x 1 − x 0 ) = f ( x 0 ) + ( 1 − λ ) f ′ ( x 0 ) ( x 1 − x 2 ) , f ( x 2 ) ≥ f ( x 0 ) + f ′ ( x 0 ) ( x 2 − x 0 ) = f ( x 0 ) + λ f ′ ( x 0 ) ( x 2 − x 1 ) . f(x_1)\ge f(x_0)+f'(x_0)(x_1-x_0)=f(x_0)+(1-\lambda)f'(x_0)(x_1-x_2),\\ f(x_2)\ge f(x_0)+f'(x_0)(x_2-x_0)=f(x_0)+\lambda f'(x_0)(x_2-x_1). f(x1)≥f(x0)+f′(x0)(x1−x0)=f(x0)+(1−λ)f′(x0)(x1−x2),f(x2)≥f(x0)+f′(x0)(x2−x0)=f(x0)+λf′(x0)(x2−x1).
将上式乘以 λ \lambda λ,下式乘以 ( 1 − λ ) (1-\lambda) (1−λ)再相加,就有
λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) ≥ f ( x 0 ) = f ( λ x 1 + ( 1 − λ ) x 2 ) . \lambda f(x_1)+(1-\lambda)f(x_2)\ge f(x_0)=f(\lambda x_1+(1-\lambda )x_2). λf(x1)+(1−λ)f(x2)≥f(x0)=f(λx1+(1−λ)x2).
这就证明了 f ( x ) f(x) f(x)的下凸性。整个证明,最重要的是利用 f ′ ′ ( x ) ≥ 0 f''(x)\ge 0 f′′(x)≥0与 f ′ ( x ) f'(x) f′(x)单调递增的等价性完成替换。
曲线的拐点是上凸和下凸的分界点,有如下定理叙述拐点的位置
设 f ( x ) f(x) f(x)在区间 I I I上连续, ( x 0 − δ , x 0 + δ ) ⊂ I (x_0-\delta,x_0+\delta)\sub I (x0−δ,x0+δ)⊂I,则
- 设 f ( x ) f(x) f(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上二阶可导。若 f ′ ′ ( x ) f''(x) f′′(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相反,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点;若 f ′ ′ ( x ) f''(x) f′′(x)在 ( x 0 − δ , x 0 ) (x_0-\delta,x_0) (x0−δ,x0)与 ( x 0 , x 0 + δ ) (x_0,x_0+\delta) (x0,x0+δ)上的符号相同,则 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))不是曲线 y = f ( x ) y=f(x) y=f(x)的拐点。
- 设 f ( x ) f(x) f(x)在 ( x 0 − δ , x 0 + δ ) (x_0-\delta,x_0+\delta) (x0−δ,x0+δ)上二阶可导,若点 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线 y = f ( x ) y=f(x) y=f(x)的拐点,则 f ′ ′ ( x ) = 0 f''(x)=0 f′′(x)=0。
结论1中,如果在双侧邻域上符号相反,则在一侧上凸一侧下凸,显然 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是曲线的拐点。
结论2中,如果 ( x 0 , f ( x 0 ) ) (x_0,f(x_0)) (x0,f(x0))是拐点,则在一侧上凸、一侧下凸,在上凸侧 f ′ ( x ) f'(x) f′(x)单调递减,在下凸侧 f ′ ( x ) f'(x) f′(x)单调递增,所以 f ′ ( x 0 ) f'(x_0) f′(x0)是极值点,由 f ′ ′ ( x 0 ) f''(x_0) f′′(x0)的存在性与Fermat引理, f ′ ′ ( x ) = 0 f''(x)=0 f′′(x)=0。
Jensen不等式:若 f ( x ) f(x) f(x)为区间 I I I上的下凸函数,则对任意 x i ∈ I x_i\in I xi∈I和满足 ∑ i λ i = 1 \sum_i\lambda_i=1 ∑iλi=1的 λ i > 0 ( i = 1 , 2 , ⋯ , n ) \lambda_i>0(i=1,2,\cdots,n) λi>0(i=1,2,⋯,n),成立
f ( ∑ i = 1 n λ i x i ) ≤ ∑ i = 1 n λ i f ( x i ) . f\left(\sum_{i=1}^n \lambda_ix_i \right)\le \sum_{i=1}^n\lambda_if(x_i). f(i=1∑nλixi)≤i=1∑nλif(xi).
如果是上凸函数,则不等号方向改变。
证明:当 n = 1 n=1 n=1时结论显然成立为 f ( x 1 ) = f ( x 1 ) f(x_1)=f(x_1) f(x1)=f(x1)。现假设当 n = k n=k n=k时结论成立,即 ∑ i = 1 k λ i = 1 \sum\limits_{i=1}^k\lambda_i=1 i=1∑kλi=1,有
f ( ∑ i = 1 k λ i x i ) ≤ ∑ i = 1 k λ i f ( x i ) , f\left(\sum_{i=1}^k \lambda_ix_i \right)\le \sum_{i=1}^k \lambda_if(x_i), f(i=1∑kλixi)≤i=1∑kλif(xi),
则 ∀ λ k + 1 ′ ∈ ( 0 , 1 ) \forall \lambda_{k+1}'\in (0,1) ∀λk+1′∈(0,1),令 λ i ′ = λ i ( 1 − λ k + 1 ′ ) \lambda_i'=\lambda_i(1-\lambda_{k+1}') λi′=λi(1−λk+1′),这样 ∑ i = 1 k + 1 λ i ′ = 1 \sum\limits_{i=1}^{k+1}\lambda_i'=1 i=1∑k+1λi′=1,且
f ( ∑ i = 1 k + 1 λ i ′ x i ) = f ( ( 1 − λ k + 1 ′ ) ∑ i = 1 k λ i ′ 1 − λ k + 1 ′ x i + λ k + 1 ′ x k + 1 ) ≤ ( 1 − λ k + 1 ′ ) f ( ∑ i = 1 k λ i x i ) + λ k + 1 ′ x k + 1 ≤ ∑ i = 1 k λ i ( 1 − λ k + 1 ′ ) x i + λ k + 1 ′ x k + 1 = ∑ i = 1 k + 1 λ i ′ x i . \begin{aligned} &f\left(\sum_{i=1}^{k+1}\lambda_i'x_i \right)\\ =&f\left((1-\lambda_{k+1}')\sum_{i=1}^k\frac{\lambda_i'}{1-\lambda_{k+1}'}x_i+\lambda_{k+1}'x_{k+1} \right)\\ \le& (1-\lambda_{k+1}')f\left(\sum_{i=1}^k\lambda_ix_i \right)+\lambda'_{k+1}x_{k+1}\\ \le& \sum_{i=1}^k\lambda_i(1-\lambda'_{k+1})x_i+\lambda'_{k+1}x_{k+1}\\ =&\sum_{i=1}^{k+1}\lambda_{i}'x_i. \end{aligned} =≤≤=f(i=1∑k+1λi′xi)f((1−λk+1′)i=1∑k1−λk+1′λi′xi+λk+1′xk+1)(1−λk+1′)f(i=1∑kλixi)+λk+1′xk+1i=1∑kλi(1−λk+1′)xi+λk+1′xk+1i=1∑k+1λi′xi.
这就证明了结论。
1.证明: ∀ a , b > 0 \forall a,b>0 ∀a,b>0,
a ln a + b ln b ≥ ( a + b ) [ ln ( a + b ) − ln 2 ] . a\ln a+b\ln b\ge (a+b)[\ln (a+b)-\ln 2]. alna+blnb≥(a+b)[ln(a+b)−ln2].
设 f ( x ) = x ln x f(x)=x\ln x f(x)=xlnx,则
f ′ ( x ) = ln x + 1 , f ′ ′ ( x ) = 1 x > 0 , f'(x)=\ln x+1,\quad f''(x)=\frac 1x>0, f′(x)=lnx+1,f′′(x)=x1>0,
所以 f ( x ) f(x) f(x)是下凸函数,由Jensen不等式有
f ( a + b 2 ) ≤ 1 2 [ f ( a ) + f ( b ) ] , f(\frac{a+b}2)\le \frac 12[f(a)+f(b)], f(2a+b)≤21[f(a)+f(b)],
整理得
a + b 2 [ ln ( a + b ) − ln 2 ] ≤ 1 2 [ a ln a + b ln b ] , \frac{a+b}{2}[\ln (a+b)-\ln 2]\le \frac 12[a\ln a+b\ln b], 2a+b[ln(a+b)−ln2]≤21[alna+blnb],
这就证得了原结论。并且原结论可以拓展为,对于 x 1 , ⋯ , x n > 0 x_1,\cdots,x_n>0 x1,⋯,xn>0,成立
∑ i = 1 n x i ln x i ≥ ∑ i = 1 n x i [ ln ∑ i = 1 n x i − ln n ] . \sum_{i=1}^n x_i\ln x_i\ge \sum_{i=1}^n x_i\left[\ln\sum_{i=1 }^n x_i-\ln n \right]. i=1∑nxilnxi≥i=1∑nxi[lni=1∑nxi−lnn].
2.证明: ∀ a , b ≥ 0 \forall a,b\ge 0 ∀a,b≥0, p , q p,q p,q满足 1 p + 1 q = 1 \frac 1p+\frac 1q=1 p1+q1=1,证明
a b ≤ 1 p a p + 1 q b q . ab\le \frac 1pa^p+\frac 1qb^q. ab≤p1ap+q1bq.
给定 1 p + 1 q = 1 \frac 1p+\frac 1q=1 p1+q1=1的条件,显然是想作为权重,因此要找到合适的上凸或下凸函数联系左右两端。注意到具有指数,所以想应用 f ( x ) = ln x f(x)=\ln x f(x)=lnx。这显然是一个上凸函数,所以有
f ( 1 p a p + 1 q b q ) ≥ 1 p f ( a p ) + 1 q f ( b q ) , a , b ≠ 0. f\left(\frac 1pa^p+\frac 1qb^q \right)\ge \frac 1p f(a^p)+\frac 1qf(b^q),\quad a,b\ne0. f(p1ap+q1bq)≥p1f(ap)+q1f(bq),a,b=0.
整理得到
1 p a p + 1 q b q ≥ e ln a + ln b = a b , a , b ≠ 0. \frac 1pa^p+\frac 1qb^q\ge e^{\ln a+\ln b}=ab,\quad a,b\ne0. p1ap+q1bq≥elna+lnb=ab,a,b=0.
而对于 a , b a,b a,b中存在等于0的情况,这个不等式是显然成立的。
3.证明:如果 a 1 , ⋯ , a n a_1,\cdots,a_n a1,⋯,an是不小于1的实数,证明:
1 a 1 + 1 + ⋯ + 1 a n + 1 ≥ n a 1 ⋯ a n n + 1 \frac 1{a_1+1}+\cdots+\frac {1}{a_n+1}\ge \frac {n}{\sqrt[n]{a_1\cdots a_n}+1} a1+11+⋯+an+11≥na1⋯an+1n
设 a i = e x i , x i ≥ 0 a_i=e^{x_i},x_i\ge 0 ai=exi,xi≥0,再令
f ( x ) = 1 e x + 1 , f ′ ( x ) = − e x ( e x + 1 ) 2 , f ′ ′ ( x ) = − e x ( e x − 1 ) ( e x + 1 ) 3 ≥ 0 , f(x)=\frac 1{e^x+1},f'(x)=\frac{-e^x}{(e^x+1)^2},f''(x)=-\frac{e^x(e^x-1)}{(e^x+1)^3}\ge0, f(x)=ex+11,f′(x)=(ex+1)2−ex,f′′(x)=−(ex+1)3ex(ex−1)≥0,
所以 f ( x ) f(x) f(x)是下凸函数,有
f ( x 1 + ⋯ + x n n ) ≤ 1 n [ f ( x 1 ) + ⋯ + f ( x n ) ] f\left(\frac{x_1+\cdots+x_n}n \right)\le \frac 1n\left[f(x_1)+\cdots+f(x_n) \right] f(nx1+⋯+xn)≤n1[f(x1)+⋯+f(xn)]
即
1 e x 1 ⋯ e x n n + 1 ≤ 1 n ( 1 e x 1 + 1 + ⋯ + 1 e x n + 1 ) , \frac {1}{\sqrt[n]{e^{x_1}\cdots e^{x_n}}+1}\le \frac 1n\left(\frac{1}{e^{x_1}+1}+\cdots+\frac 1{e^{x_n}+1} \right), nex1⋯exn+11≤n1(ex1+11+⋯+exn+11),
也就是
n a 1 ⋯ a n n + 1 ≤ 1 a 1 + 1 + ⋯ + 1 a n + 1 . \frac n{\sqrt[n]{a_1\cdots a_n}+1}\le \frac{1}{a_1+1}+\cdots+\frac 1{a_n+1}. na1⋯an+1n≤a1+11+⋯+an+11.
4.设正实数 a 1 , ⋯ , a n a_1,\cdots,a_n a1,⋯,an满足 ∑ a i = 1 \sum a_i=1 ∑ai=1,求证:
∏ i = 1 n 1 + a i a i ≥ ∏ i = 1 n n − a i 1 − a i . \prod_{i=1}^n \frac{1+a_i}{a_i}\ge \prod_{i=1}^n\frac{n-a_i}{1-a_i}. i=1∏nai1+ai≥i=1∏n1−ain−ai.
设
f ( x ) = ln ( x + 1 x ) , f ′ ( x ) = 1 1 + x − 1 x , f ′ ′ ( x ) = − 1 ( 1 + x ) 2 + 1 x 2 > 0 , f(x)=\ln (\frac {x+1}x),f'(x)=\frac 1{1+x}-\frac 1x,f''(x)=-\frac{1}{(1+x)^2}+\frac 1{x^2}>0, f(x)=ln(xx+1),f′(x)=1+x1−x1,f′′(x)=−(1+x)21+x21>0,
所以 f ( x ) f(x) f(x)是下凸函数。为了构造出 n − a i n-a_i n−ai项,我们对每一个不含 i i i的项,有
1 n − 1 ∑ j ≠ i f ( a j ) ≥ f ( ∑ j ≠ i a j n − 1 ) , \frac1{n-1}\sum_{j\ne i} f(a_j)\ge f\left(\frac{\sum_{j\ne i}a_j}{n-1} \right), n−11j=i∑f(aj)≥f(n−1∑j=iaj),
即
∏ j ≠ i a j + 1 a j ≥ ( 1 + n − 1 ∑ j ≠ i a j ) n − 1 = ( n − a i 1 − a i ) n − 1 . \prod_{j\ne i}\frac{a_j+1}{a_j}\ge \left(1+\frac{n-1}{\sum_{j\ne i}a_j} \right)^{n-1}=\left(\frac{n-a_i}{1-a_i} \right)^{n-1}. j=i∏ajaj+1≥(1+∑j=iajn−1)n−1=(1−ain−ai)n−1.
对每个 i i i的这个式子相乘并开 n − 1 n-1 n−1次方,就得到
∏ i = 1 n a i + 1 a i ≥ ∏ i = 1 n ( n − a i 1 − a i ) . \prod_{i=1}^n \frac{a_i+1}{a_i}\ge \prod_{i=1}^n\left(\frac{n-a_i}{1-a_i} \right). i=1∏naiai+1≥i=1∏n(1−ain−ai).