凸优化学习(一)凸集与凸函数、凸优化问题

4.1 凸集 convex sets

仿射集(Affine Sets):如果一个集合 C ∈ R n C\in\mathbb{R}^n CRn 是仿射的,则在C中两点的直线也在C中,若 x 1 ∈ C , x 2 ∈ C , 则 x = θ x 1 + ( 1 − θ ) x 2   ∈ C , θ ∈ R x_1\in C,x_2\in C,则x=\theta x_1+(1-\theta)x_2\ \in C,\theta \in R x1C,x2C,x=θx1+(1θ)x2 C,θR ,例如Ax=b的解集就是一个仿射集。

凸集:如果集合 C ∈ R n C\in\mathbb{R}^n CRn 是凸集,如果C中两点间的线段也在C中,即 x = θ x 1 + ( 1 − θ ) x 2   ∈ C , θ ∈ [ 0 , 1 ] x=\theta x_1+(1-\theta)x_2\ \in C,\theta \in [0,1] x=θx1+(1θ)x2 C,θ[0,1] 。注意 θ \theta θ 取值范围的不同。

常见的凸集:

  • 所有 R n \mathbb{R}^n Rn

  • 所有 R + n \mathbb{R}_+^n R+n

  • 超平面(Hyperplane): C = { x ∣ a T x = b } C=\{x|a^Tx=b\} C={xaTx=b} 既是仿射集又是凸集

  • 半空间(Halfspace) C = { x ∣ a T x ≥ b } 或 C = { x ∣ a T x ≤ b } C=\{x|a^Tx\ge b\}或C=\{x|a^Tx\le b\} C={xaTxb}C={xaTxb} 只是凸集

  • 范数球:满足 ∥ x ∥ p ≤ 1 , p ≥ 1 \|x\|_p \le 1,\quad p\ge1 xp1,p1的集合称为范数球。(依据范数的三角不等式可证)

    但是 ∥ x ∥ p = 1 , p ≥ 1 \|x\|_p = 1,\quad p\ge1 xp=1,p1 不是凸集。当 0 < p < 1 00<p<1 时, ∥ x ∥ p ≤ 1 \|x\|_p \le 1 xp1 也不是凸集。

  • 多面体(polyhedron):有限个半空间和超平面的交集。(凸集的交集是凸集)

    P = { x ∣ A x ≤ b , C x = d } , A ∈ R m × n , b ∈ R m , C ∈ R p ∗ n , d ∈ R p P=\{x|Ax\le b, Cx=d\},A\in R^{m\times n},b\in R^m, C \in R^{p*n}, d \in R^p P={xAxb,Cx=d},ARm×n,bRm,CRpn,dRp , 由于A,C都是矩阵,因此对应了有限个半空间和超平面。

凸集的性质:

凸集的交集是凸集。

凸集的并集不一定是凸集。

4.2 凸函数

一个函数 f : R n → R f:R^n \to R f:RnR 被称为凸函数,如果:

  1. f的定义域 d o m ( f ) dom(f) dom(f) 是凸集
  2. 对于任何 x , y ∈ d o m ( f ) , 0 ≤ θ ≤ 1 , 有 f ( θ x + ( 1 − θ ) y ) ≤ θ f ( x ) + ( 1 − θ ) f ( y ) x,y \in dom(f), 0\le \theta \le 1, 有f(\theta x+(1-\theta)y)\le \theta f(x)+(1-\theta)f(y) x,ydom(f),0θ1,f(θx+(1θ)y)θf(x)+(1θ)f(y)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9jtMZpXJ-1588902997776)(http://ovra6ykmb.bkt.clouddn.com/2018-06-27-17-11-42.png)]

几何解释:函数值小于连接函数值的线段的值。

凸函数的充要条件

一阶充要条件:$f(x_1)\ge f(x)+\nabla^Tf(x)(x_1-x) $ 对于所有 x 1 , x x_1,x x1,x 均成立。

二阶充要条件:如果函数f二阶可导,则凸函数的充要条件为: H ( x ) ⪰ 0 H(x) \succeq 0 H(x)0 即Hessian矩阵半正定。(如果是正定的,则是严格凸函数。半负定,则是凹函数)

在实际使用中,使用二阶充要条件比较好用。

证明:凸函数的局部最优解就是全局最优解

假定 x ∗ x^* x 是局部最优解,则在 x ∗ x^* x 的邻域内的点z有 f ( x ∗ ) ≤ f ( z ) f(x^*) \le f(z) f(x)f(z) 。假设y点为可行域内的任意一点,则 z = ( 1 − t ) x ∗ + t ) y , t ∈ [ 0 , 1 ] z=(1-t)x^*+t)y,\quad t\in [0,1] z=(1t)x+t)y,t[0,1] ,通过调整t的值,可以使得z保持在 x ∗ x^* x 的邻域内。根据凸函数定义:

f ( x ∗ ) ≤ f ( z ) = f ( t x ∗ + ( 1 − t ) y ) ≤ t f ( x ∗ ) + ( 1 − t ) f ( y ) f(x^*)\le f(z)=f(tx^*+(1-t)y)\le tf(x^*)+(1-t)f(y) f(x)f(z)=f(tx+(1t)y)tf(x)+(1t)f(y)

化简上面的不等式有: f ( x ∗ ) ≤ f ( y ) f(x^*) \le f(y) f(x)f(y)

由于y为任意一点,因此 x ∗ x^* x 也是全局最优解。

常见凸函数

  • ax+b: 既是凸函数,也是凹函数
  • x 2 x^2 x2 凸函数
  • e α x e^{\alpha x} eαx 凸函数
  • -log(x) 凸函数,x>0
  • − x l o g x , x ≥ 0 -xlogx,x\ge 0 xlogxx0 凸函数
  • f ( x ) = a T x + b f(x)=a^Tx+b f(x)=aTx+b 凸函数、凹函数
  • f ( x ) = x T P x + 2 q T x = r , 当 且 仅 当 P ⪰ 0 时 是 凸 函 数 f(x)=x^TPx+2q^Tx=r, 当且仅当P \succeq 0时是凸函数 f(x)=xTPx+2qTx=r,P0, 特别地 f ( x ) = x T x f(x)=x^Tx f(x)=xTx 是凸函数(2范数是凸函数)

凸函数的性质

  • f(x)是凸函数,则f(Ax+b)也是凸函数。例如 ∥ y − A x ∥ 2 \|y-Ax\|_2 yAx2

  • 如果g(x),h(x)是凸函数,h函数是非递减函数,则 f ( x ) = h ( g ( x ) ) f(x)=h(g(x)) f(x)=h(g(x)) 是凸函数。例如: g ( x ) = ∥ y − A x ∥ 2 , h ( x ) = x 2 在 x ≥ 0 上 非 递 减 g(x)=\|y-Ax\|_2,h(x)=x^2\quad在x\ge 0上非递减 g(x)=yAx2,h(x)=x2x0, 则 f ( x ) = ∥ y − A x ∥ 2 2 f(x)=\|y-Ax\|^2_2 f(x)=yAx22 是凸函数。

  • f 1 , . . . , f m f_1,...,f_m f1,...,fm 是凸函数, w 1 , . . . , w m ≥ 0 w_1,...,w_m\ge 0 w1,...,wm0 ,则$\sum_{i=1}^{m}w_if_i $ 是凸函数,例如:

    f ( x ) = ∥ y − A x ∥ 2 2 + λ ∥ x ∥ 2 2 f(x)=\|y-Ax\|^2_2+\lambda \|x\|^2_2 f(x)=yAx22+λx22 是凸函数。(L2正则化项)

  • 逐点最大: f 1 , . . . , f m f_1,...,f_m f1,...,fm 是凸函数,则 f ( x ) = m a x { f 1 ( x ) , . . . , f m ( x ) } f(x)=max\{f_1(x),...,f_m(x)\} f(x)=max{f1(x),...,fm(x)} 是凸函数。例如, f ( x , y ) f(x,y) f(x,y) 对于每个 y ∈ A y \in A yA 都是凸函数,则 s u p y ∈ A f ( x , y ) sup_{y\in A}f(x,y) supyAf(x,y) 是凸函数(f(x,y)的上确界,可以类比最大值)。

凸函数和凸集的关系

α \alpha α 水平集或下水平集

一元函数f的 α \alpha α 水平集为: S α = { x ∣ f ( x ) ≤ α } S_{\alpha}=\{x|f(x)\le \alpha\} Sα={xf(x)α}

如果f为凸函数,则 对每个 α {\alpha} α S α S_{\alpha} Sα都是凸集。反之则不成立。

4.3 凸优化问题

对于一般优化问题:
m i n i m i z e f 0 ( x ) s u b j e c t t o f i ( x ) ≤ 0 f o r i = 1 , 2 , . . . , m h i ( x ) = 0 f o r i = 1 , 2 , . . . , p \begin{array}{l}minimize & f_0(x)\\subject to & f_i(x)\le 0 \quad for i=1,2,...,m\\&h_i(x)=0 \quad for i=1,2,...,p\end{array} minimizesubjecttof0(x)fi(x)0fori=1,2,...,mhi(x)=0fori=1,2,...,p
如果 f 0 ( x ) f_0(x) f0(x) 是凸函数,且可行域是凸集,则上述优化问题是凸优化问题。因此,凸优化问题是在凸集上极小化一个凸的目标函数

凸优化问题要求(可行域是凸集):

  • 不等式约束函数必须是凸的。(若 f i ( x ) f_i(x) fi(x) 是凸函数,则不等式约束为下水平集,是凸集。)
  • 等式约束函数必须是仿射的。

凸优化问题的最优值写为: p ∗ = m i n { f 0 ( x ) : f i ( x ) ≤ 0 , h i ( x ) = 0 } p^*=min\{f_0(x):f_i(x) \le 0,h_i(x)=0\} p=min{f0(x):fi(x)0,hi(x)=0} ,可能的取值为:

  • p ∗ = + ∞ p^*=+\infty p=+ 不可行(可行域为空集)
  • p ∗ = − ∞ p^*=-\infty p= 称为unbounded below (存在可行点使得 f 0 ( x ) → ∞ f_0(x) \to \infty f0(x) )
  • f 0 ( x ∗ ) = p ∗ f_0(x^*)=p^* f0(x)=p

凸优化问题的重要结论

凸优化问题局部最优就是全局最优

局部最优点x指:存在 R > 0 R>0 R>0 ,对于所有可行点z,且有 ∥ x − z ∥ 2 ≤ R \|x-z\|_2 \le R xz2R ,满足 f 0 ( x ) ≤ f 0 ( z ) f_0(x) \le f_0(z) f0(x)f0(z)

全局最优点x指,对于所有可行点,满足 f 0 ( x ) ≤ f 0 ( z ) f_0(x) \le f_0(z) f0(x)f0(z)

反证法证明

x ∗ x^* x 是凸优化问题的局部最优点,假设存在一点 x ′ x' x 使得 f 0 ( x ∗ ) > f 0 ( x ′ ) f_0(x^*) \gt f_0(x') f0(x)>f0(x) ,则由于 f 0 f_0 f0 是凸函数:

f 0 ( t x ∗ + ( 1 − t ) x ′ ) ≤ t f ( x ∗ ) + ( 1 − t ) f ( x ′ ) f_0(tx^*+(1-t)x')\le tf(x^*)+(1-t)f(x') f0(tx+(1t)x)tf(x)+(1t)f(x)

当(1-t)很小时, ∥ x − ( t x ∗ + ( 1 − t ) x ′ ) ∥ 2 ≤ R \|x-(tx^*+(1-t)x')\|_2\le R x(tx+(1t)x)2R ,则$f_0(x^)\le f_0(tx^+(1-t)x’) $

可以得到 f 0 ( x ∗ ) ≤ f 0 ( x ′ ) f_0(x^*)\le f_0(x') f0(x)f0(x) ,这与假设条件相违背,因此,不存在一点 x ′ x' x 使得 f 0 ( x ∗ ) > f 0 ( x ′ ) f_0(x^*) \gt f_0(x') f0(x)>f0(x),即 x ∗ x^* x 是全局最优点。

典型凸优化问题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W4vgZlac-1588902997779)(http://ovra6ykmb.bkt.clouddn.com/2018-06-27-18-23-58.png)]

实例

形式转换成凸优化问题

将本质是凸优化问题的问题,从形式上转换为凸优化问题。

对于以下问题,通过定义矩阵和向量的方式,转换为标准的凸优化问题,便于利用软件包进行求解。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fhQjfYdO-1588902997781)(http://ovra6ykmb.bkt.clouddn.com/2018-06-27-18-54-10.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gLLklZ5P-1588902997783)(http://ovra6ykmb.bkt.clouddn.com/2018-06-27-18-54-27.png)]

CVX软件包


欢迎关注
凸优化学习(一)凸集与凸函数、凸优化问题_第1张图片

你可能感兴趣的:(机器学习,数学知识)