最优化方法(学习笔记)-第二章凸集

凸集

  • 基本概念
    • 仿射集Affine Set
    • 凸集Convex Set
    • 凸组合Convex Combination
    • 凸包Convex Pull
    • 凸锥Convex cone
    • (超)平面Hyperplanes|球体balls|椭球Ellipsoids
    • 半空间Halfspaces|
    • 欧式球体Euclidean balls
    • 椭球Ellipsoids
    • 范数norm|带范数的锥norm cone
    • 多面体Polyhedra
    • 半正定矩阵的锥Positive semidefinite cone
  • 保凸运算Operations that preserve convexity
    • 求交集Intersection
    • 仿射变换Affine function
    • 感知函数Perspective function
    • 线性分式函数Linear-fractional function
  • 广义不等关系
    • 好锥proper cone
    • 偏序Generalized Inequality
    • 最小化Minimum
    • (线性)可分超平面定理Separating hyperplane theorem
    • 支撑面Supporting hyperplane theorem
  • 对偶Dual cone
    • 对偶定义
    • 对偶举例
    • 对偶性质
    • 对偶的偏序关系
    • 对偶的最小化
  • 总结

基本概念

仿射集Affine Set

定义:集合内任意两个不同的点,都可以形成一条直线,且直线上所有点都在该集合内,形如 x = θ x 1 + ( 1 − θ ) x 2 , θ ∈ R x=\theta x_1+(1-\theta)x_2,\theta \isin R x=θx1+(1θ)x2θR
最优化方法(学习笔记)-第二章凸集_第1张图片
S = { x ∣ A x = b } S=\{x|Ax=b\} S={xAx=b}这种线性函数方程解类型就可以符合条件 x = θ x 1 + ( 1 − θ ) x 2 , A x 1 = b , A x 2 = b x=\theta x_1+(1-\theta)x_2,Ax_1=b,Ax_2=b x=θx1+(1θ)x2,Ax1=b,Ax2=b
A x = A ( θ x 1 + ( 1 − θ ) x 2 ) = θ b + ( 1 − θ ) b = b Ax=A(\theta x_1+(1-\theta)x_2)=\theta b+(1-\theta)b=b Ax=A(θx1+(1θ)x2)=θb+(1θ)b=b

凸集Convex Set

定义:集合内任意两个不同的点,都可以形成一条线段,且线段上所有点都在该集合内,形如 x = θ x 1 + ( 1 − θ ) x 2 , θ ∈ [ 0 , 1 ] x=\theta x_1+(1-\theta)x_2,\theta \isin [0,1] x=θx1+(1θ)x2θ[0,1]
最优化方法(学习笔记)-第二章凸集_第2张图片

凸组合Convex Combination

定义:假设有k个不同的点可组合成新点: x = ∑ i = 1 k θ i x i , ∑ i = 1 k θ i = 1 , θ i ≥ 0 x=\sum\limits_{i=1}^{k}\theta_i x_i,\sum\limits_{i=1}^{k}\theta_i=1,\theta_i \geq 0 x=i=1kθixii=1kθi=1θi0
最优化方法(学习笔记)-第二章凸集_第3张图片
假如要应用在凸集S里,采用数学归纳法:
k=2已经证明成立
k=n假设成立(作为新的点) y = ∑ i = 1 n η i y i ∈ S y=\sum\limits_{i=1}^{n}\eta_i y_i \isin S y=i=1nηiyiS
接下来证明k=n+1:注意 ∑ i = 1 n + 1 θ i = 1 = > ( 1 − θ n + 1 ) = ∑ i = 1 n θ i \sum\limits_{i=1}^{n+1}\theta_i=1=>(1-\theta_{n+1})=\sum\limits_{i=1}^{n}\theta_i i=1n+1θi=1=>(1θn+1)=i=1nθi
x = ∑ i = 1 n + 1 θ i x i = ∑ i = 1 n θ i x i + θ n + 1 x n + 1 = ( 1 − θ n + 1 ) ( ∑ i = 1 n θ i x i 1 − θ n + 1 ) + θ n + 1 x n + 1 x=\sum\limits_{i=1}^{n+1}\theta_i x_i=\sum\limits_{i=1}^{n}\theta_i x_i+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{1-\theta_{n+1}})+\theta_{n+1}x_{n+1} x=i=1n+1θixi=i=1nθixi+θn+1xn+1=(1θn+1)(i=1n1θn+1θixi)+θn+1xn+1
= ( 1 − θ n + 1 ) ( ∑ i = 1 n θ i x i ∑ i = 1 n θ i ) + θ n + 1 x n + 1 = ( 1 − θ n + 1 ) ∑ i = 1 n η i y i + θ n + 1 x n + 1 =(1-\theta_{n+1})(\sum\limits_{i=1}^{n}\frac{\theta_i x_i}{\sum\limits_{i=1}^{n}\theta_i})+\theta_{n+1}x_{n+1}=(1-\theta_{n+1})\sum\limits_{i=1}^{n}\eta_i y_i+\theta_{n+1}x_{n+1} =(1θn+1)(i=1ni=1nθiθixi)+θn+1xn+1=(1θn+1)i=1nηiyi+θn+1xn+1
= ( 1 − θ n + 1 ) y + θ n + 1 x n + 1 【 两 个 任 意 的 点 y , x n + 1 】 =(1-\theta_{n+1})y+\theta_{n+1}x_{n+1}【两个任意的点y,x_{n+1}】 =(1θn+1)y+θn+1xn+1yxn+1
得证,所以凸组合 x ∈ S x\isin S xS

凸包Convex Pull

定义:用一个最小集合涵盖(凸集S生成的)凸组合的所有点,这最小点集就是凸包。
存在 凸 集 V 凸集V V,若 凸 集 S ⊂ V 凸集S\subset V SV,则 S 的 凸 包 ⊆ V S的凸包\subseteq V SV
最优化方法(学习笔记)-第二章凸集_第4张图片

凸锥Convex cone

cone锥的定义: ∀ x ∈ C , 有 θ x ∈ C , 且 θ ≥ 0 \forall x\isin C,有\theta x\isin C,且\theta\geq0 xCθxC,θ0
conic combination锥组合的定义: x = θ 1 x 1 + θ 2 x 2 , 且 θ 1 , θ 2 ≥ 0 x=\theta_1 x_1+\theta_2 x_2,且\theta_1,\theta_2\geq0 x=θ1x1+θ2x2θ1,θ20
convex cone凸锥:包含锥组合所有点的最小点集(两个边界的夹角小于180°)
最优化方法(学习笔记)-第二章凸集_第5张图片

(超)平面Hyperplanes|球体balls|椭球Ellipsoids

定义:法向量决定一个平面,所以 a T ( x − x 0 ) = 0 a^T(x-x_0)=0 aT(xx0)=0,于是有公式 { x ∣ a T x = b } , a ≠ 0 \{x|a^Tx=b\},a\neq 0 {xaTx=b}a=0,a是一个向量,属于凸集+仿射集
最优化方法(学习笔记)-第二章凸集_第6张图片

半空间Halfspaces|

定义:公式 { x ∣ a T x − b ≤ 0 } \{x|a^Tx-b\leq0\} {xaTxb0},a是一个向量,属于凸集+非仿射集
最优化方法(学习笔记)-第二章凸集_第7张图片
证明: S = { x ∣ a T x − b > 0 } , x 1 , x 2 ∈ S S=\{x|a^Tx-b>0\},x_1,x_2\isin S S={xaTxb>0},x1,x2S,凸集+非仿射集
a T x 1 − b > 0 , a T x 2 − b > 0 a^Tx_1-b>0,a^Tx_2-b>0 aTx1b>0,aTx2b>0
原 式 = a T [ θ x 1 + ( 1 − θ ) x 2 ] − b = θ ( a T x 1 − b ) + ( 1 − θ ) ( a T x 2 − b ) 原式=a^T[\theta x_1+(1-\theta)x_2]-b=\theta(a^Tx_1-b)+(1-\theta)(a^Tx_2-b) =aT[θx1+(1θ)x2]b=θ(aTx1b)+(1θ)(aTx2b)

  • θ ∈ [ 0 , 1 ] , 原 式 > 0    ⟹    c o n v e x \theta\isin[0,1],原式>0\implies convex θ[0,1]>0convex
  • θ ∈ R , 原 式 不 确 定 符 号    ⟹    n o t − a f f i n e \theta\isin R,原式不确定符号\implies not-affine θRnotaffine

欧式球体Euclidean balls

定义: 中 心 x c , 半 径 r , B ( x c , r ) = { x ∣   ∣ ∣ x − x c ∣ ∣ 2 ≤ r } = { x c + r u ∣   ∣ ∣ u ∣ ∣ 2 ≤ 1 } 中心x_c,半径r,B(x_c,r)=\{x|\space ||x-x_c||_2\leq r\}=\{x_c+ru|\space ||u||_2\leq 1\} xc,rB(xc,r)={x xxc2r}={xc+ru u21}

椭球Ellipsoids

定义: ∑ i = 1 n x i 2 r i 2 ≤ 1 \sum\limits_{i=1}^n \frac{x_i^2}{r_i^2}\leq1 i=1nri2xi21,也可以写成 { x ∣ ( x − x c ) T P − 1 ( x − x c ) ≤ 1 } 且 P ∈ S + + n ( 对 称 正 定 矩 阵 ) , { x c + A u ∣   ∣ ∣ u ∣ ∣ 2 ≤ 1 } \{x|(x-x_c)^TP^{-1}(x-x_c)\leq1\}且P\isin S_{++}^n(对称正定矩阵),\{x_c+Au|\space||u||_2\leq 1\} {x(xxc)TP1(xxc)1}PS++n(){xc+Au u21}

类似马氏距离,马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据	之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。

马氏距离详细链接

可以允许P的特征值分解 P = u T ∑ u 且 u T = u − 1 , P 是 半 径 方 向 P=u^T\sum u且u^T=u^{-1},P是半径方向 P=uTuuT=u1P
( x − x c ) T P − 1 ( x − x c ) = ( x − x c ) T ( u T ∑ u ) − 1 ( x − x c ) (x-x_c)^TP^{-1}(x-x_c)=(x-x_c)^T(u^T\sum u)^{-1}(x-x_c) (xxc)TP1(xxc)=(xxc)T(uTu)1(xxc)
= ( u ( x − x c ) ) T ∑ − 1 u ( x − x c ) = y T ∑ − 1 y = ∑ i = 1 n y i 2 r i 2 ≤ 1 =(u(x-x_c))^T\sum^{-1} u(x-x_c)=y^T\sum^{-1} y=\sum\limits_{i=1}^n \frac{y_i^2}{r_i^2}\leq1 =(u(xxc))T1u(xxc)=yT1y=i=1nri2yi21

注意: 1 r i 2 = 1 λ i , λ i 是 P 的 特 征 值    ⟹    r i = λ i \frac{1}{r_i^2}=\frac{1}{\lambda_i},\lambda_i是P的特征值\implies r_i=\sqrt{\lambda_i} ri21=λi1,λiPri=λi

范数norm|带范数的锥norm cone

范数( ∣ ∣ . ∣ ∣ 2 , ∣ ∣ . ∣ ∣ 1 , ∣ ∣ . ∣ ∣ ∞ , ∣ ∣ . ∣ ∣ p ||.||_2,||.||_1,||.||_{\infty},||.||_p .2.1..p)条件:

  • ∣ ∣ x ∣ ∣ ≥ 0 , 仅 当 x = 0 时 等 号 成 立 ||x||\geq 0,仅当x=0时等号成立 x0,x=0
  • ∣ ∣ t x ∣ ∣ = ∣ t ∣   ∣ ∣ x ∣ ∣ , ∀ t ∈ R ||tx||=|t|\space||x||,\forall t\isin R tx=t x,tR
  • ∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y||\leq||x||+||y|| x+yx+y

例如:
带范数的球norm ball: { x ∣   ∣ ∣ x − x c ∣ ∣ ≤ r } \{x|\space||x-x_c||\leq r\} {x xxcr},属于凸集。
带范数的锥norm cone: { ( x , t ) ∣   ∣ ∣ x ∣ ∣ ≤ t } \{(x,t)|\space||x||\leq t\} {(x,t) xt},属于凸集。
最优化方法(学习笔记)-第二章凸集_第8张图片
证明:通过条件2&3& ∣ ∣ x 1 − x c ∣ ∣ ≤ r , ∣ ∣ x 2 − x c ∣ ∣ ≤ r ||x_1-x_c||\leq r,||x_2-x_c||\leq r x1xcr,x2xcr
∣ ∣ θ x 1 + ( 1 − θ ) x 2 − x c ∣ ∣ = ∣ ∣ θ ( x 1 − x c ) + ( 1 − θ ) ( x 2 − x c ) ∣ ∣ ||\theta x_1+(1-\theta)x_2-x_c||=||\theta(x_1-x_c)+(1-\theta)(x_2-x_c)|| θx1+(1θ)x2xc=θ(x1xc)+(1θ)(x2xc)
≤ ∣ ∣ θ ( x 1 − x c ) ∣ ∣ + ∣ ∣ ( 1 − θ ) ( x 2 − x c ) ∣ ∣ = θ ∣ ∣ x 1 − x c ∣ ∣ + ( 1 − θ ) ∣ ∣ x 2 − x c ∣ ∣ \leq||\theta(x_1-x_c)||+||(1-\theta)(x_2-x_c)||=\theta||x_1-x_c||+(1-\theta)||x_2-x_c|| θ(x1xc)+(1θ)(x2xc)=θx1xc+(1θ)x2xc
≤ θ r + ( 1 − θ ) r = r \leq\theta r+(1-\theta)r=r θr+(1θ)r=r

多面体Polyhedra

定义:包含等式和不等式,逐点有 A x < b , C x = d , A ∈ R m × n , C ∈ R p × n AxAx<bCx=dARm×nCRp×n,属于凸集,是半空间和超平面的有限点的交集。
最优化方法(学习笔记)-第二章凸集_第9张图片

半正定矩阵的锥Positive semidefinite cone

定义:

  • n × n n\times n n×n的对称矩阵(n阶方阵): S n S^n Sn,维度是 n ( n + 1 ) 2 \frac{n(n+1)}{2} 2n(n+1)
    ∣ [ x y y z ] − λ I ∣ = 0 \begin{vmatrix} \begin{bmatrix} x & y \\ y & z \end{bmatrix}-\lambda I \end{vmatrix}=0 [xyyz]λI=0
    ( x − λ ) ( z − λ ) − y 2 = 0 (x-\lambda)(z-\lambda)-y^2=0 (xλ)(zλ)y2=0
    λ 2 − ( x + z ) λ + x z − y 2 = 0 \lambda^2-(x+z)\lambda+xz-y^2=0 λ2(x+z)λ+xzy2=0所以有: x z − y 2 ≥ 0 , x + z 2 > 0 xz-y^2\geq0,\frac{x+z}{2}>0 xzy202x+z>0
  • 半正定的对称矩阵 S + n = X = { s ∈ S n ∣ x ≥ 0 } , 就 是 任 意 非 零 向 量 z ∈ R n , 都 有 ( 二 次 型 ) z T X z ≥ 0 S_{+}^n=X=\{s\isin S^n|x\geq 0\},就是任意非零向量z\isin R^n,都有(二次型)z^TXz\geq 0 S+n=X={sSnx0},zRnzTXz0,属于凸集。
    • 最优化方法(学习笔记)-第二章凸集_第10张图片
    • 半正定矩阵的行列式是非负的;所有主子式均为非负的;所有特征值均为非负的;
      比如: z T X z = ( z 1 + z 2 ) 2 ≥ 0 z^TXz=(z_1+z_2)^2\geq0 zTXz=(z1+z2)20
    • (顺序主子式非负并不能推出矩阵是半正定的);
    • 存在实矩阵 C , 使 得 X = C T C C,使得X=C^TC C使X=CTC
    • 存在秩为r的 r × n r\times n r×n实矩阵 B , 使 得 X = B T B B,使得X=B^TB B使X=BTB
    • 两个半正定矩阵的和是半正定的;非负实数与半正定矩阵的数乘矩阵是半正定的
  • 正定的对称矩阵 S + + n = X = { s ∈ S n ∣ x > 0 } S_{++}^n=X=\{s\isin S^n|x>0\} S++n=X={sSnx>0}
    • 正定矩阵的行列式恒为正;一切顺序主子式均为正;所有特征值均为正;
      比如: z T X z = z 1 2 + z 2 2 > 0 z^TXz=z_1^2+z_2^2>0 zTXz=z12+z22>0
    • 正定实对称矩阵,与单位矩阵合同;
      实对称矩阵,矩阵转置等于本身
    • 存在实可逆矩阵 C , 使 得 X = C T C C,使得X=C^TC C使X=CTC
    • 存在秩为n的 m × n m\times n m×n实矩阵 B , 使 得 X = B T B B,使得X=B^TB B使X=BTB
    • 存在主对角线元素全为正的实三角矩阵 R , 使 得 X = R T R R,使得X=R^TR R使X=RTR
    • 两个正定矩阵的和是正定矩阵;实数与正定矩阵的乘积是正定矩阵。
  • 正定、半正定矩阵:直觉,代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。
    c o s ( θ ) = z T ( X z ) ∣ ∣ z ∣ ∣ ∗ ∣ ∣ ( X z ) ∣ ∣ ≥ 0 cos(\theta)=\frac{z^T(Xz)}{||z||*||(Xz)||}\geq0 cos(θ)=z(Xz)zT(Xz)0

保凸运算Operations that preserve convexity

证明是凸集C的方法:

  • 定义法
    x 1 , x 2 ∈ C , θ ∈ [ 0 , 1 ] = > x = θ x 1 + ( 1 − θ ) x 2 ∈ C x_1,x_2\isin C,\theta \isin [0,1]=>x=\theta x_1+(1-\theta)x_2\isin C x1,x2C,θ[0,1]=>x=θx1+(1θ)x2C
  • 通过简单集合(超平面,多面体,球体)变化求证(主要是以下二级标题的四种)

求交集Intersection

定义:

  • 假设: x 1 , x 2 ∈ C 1 ∩ C 2 x_1,x_2\isin C_1\cap C_2 x1,x2C1C2
  • 结论: θ x 1 + ( 1 − θ ) x 2 ∈ C 1 ∩ C 2 \theta x_1+(1-\theta)x_2\isin C_1\cap C_2 θx1+(1θ)x2C1C2

例子:
S = { x ∈ R m ∣   ∣ p ( t ) ∣ ≤ 1   f o r   ∣ t ∣ ≤ π 3 } S=\{x\isin R^m |\space |p(t)|\leq1 \space for\space |t|\leq\frac{\pi}{3}\} S={xRm p(t)1 for t3π}
p ( t ) = x 1 c o s t + x 2 c o s 2 t + . . . + x m c o s m t = ( c o s t , c o s 2 t , . . . , c o s m t ) ( x 1 x 2 . . . x m ) = C ( t ) T x p(t)=x_1cost+x_2cos2t+...+x_mcosmt=(cost,cos2t,...,cosmt)\begin{pmatrix} x_1 \\ x_2 \\. \\. \\. \\x_m \end{pmatrix}=C(t)^Tx p(t)=x1cost+x2cos2t+...+xmcosmt=(cost,cos2t,...,cosmt)x1x2...xm=C(t)Tx
S t = { x ∈ R m ∣   ∣ P ( t ) ∣ ≤ 1 } = { x ∈ R m ∣   P ( t ) ≤ 1 } ∩ { x ∈ R m ∣   P ( t ) ≥ − 1 } ( 2 个 半 空 间 的 交 集 ) S_t=\{x\isin R^m|\space |P(t)|\leq1\}=\{x\isin R^m|\space P(t)\leq1\}\cap\{x\isin R^m|\space P(t)\geq-1\}(2个半空间的交集) St={xRm P(t)1}={xRm P(t)1}{xRm P(t)1}2
所以 S = ∩ ∣ t ∣ ≤ π 3 S t S=\cap_{|t|\leq\frac{\pi}{3}}S_t S=t3πSt
若m=2,有下图
最优化方法(学习笔记)-第二章凸集_第11张图片

仿射变换Affine function

定义:

  • 假设:若 f ( x ) = A x + b , A ∈ R m × n , b ∈ R m f(x)=Ax+b,A\isin R^{m\times n},b\isin R^m f(x)=Ax+b,ARm×n,bRm
  • 结论:那么有仿射集 f : R n − > R m f:R^n->R^m f:Rn>Rm

线性变换只能保证从(线性-1)到(线性-2),(曲线)可变(直线/曲线)
所以凸集线性变换后仍是凸集,但是凹集B(非满秩)可变为凸集A,B在线性变换下的原像是一个包含A的凸集
S ⊆ R n 是 凸 集 S\subseteq R^n是凸集 SRn

  • = > f ( S ) = { f ( x ) ∣ x ∈ S } 是 凸 集 =>f(S)=\{f(x)|x\isin S\}是凸集 =>f(S)={f(x)xS}
  • = > f − 1 ( C ) = { x ∣ f ( x ) = C } 是 凸 集 =>f^{-1}(C)=\{x|f(x)=C\}是凸集 =>f1(C)={xf(x)=C}

例子:
scaling(尺度变换),translation(平移),projection(投影),hyperbolic cone(双曲锥)
比如:(推导-仿射变换)双曲锥: { x ∣   x T P x ≤ ( C T x ) 2 , C T x ≥ 0 } , P ∈ S + n ( 半 正 定 矩 阵 , 对 角 化 P 1 2 不 一 定 可 逆 ) \{x|\space x^TPx\leq(C^Tx)^2,C^Tx\geq0\},P\isin S_+^n(半正定矩阵,对角化P^{\frac{1}{2}}不一定可逆) {x xTPx(CTx)2CTx0}PS+n(P21)

  • 将P转换: P = A T A , A P=A^TA,A P=ATAA是实矩阵
  • C T x = t C^Tx=t CTx=t
  • 于是仿射变换 x T P x = z T z x^TPx=z^Tz xTPx=zTz
  • 得到 S ′ = { z ∣ z T z ≤ t 2 , t ≥ 0 } S'=\{z|z^Tz\leq t^2,t\geq 0\} S={zzTzt2,t0}(二阶锥second-order cone属于凸集)
  • 所以S也是凸集(convex)

感知函数Perspective function

定义:

  • P : R n + 1 → R n P:R^{n+1}\rightarrow R^n PRn+1Rn
  • f ( x , t ) = x t , d o m P = { ( x , t ) ∣ t > 0 } f(x,t)=\frac{x}{t},domP=\{(x,t)|t>0\} f(x,t)=txdomP={(x,t)t>0}(小孔成像类似投影)

证明:凸集经过感知函数P仍然是凸集
假设: x , y ∈ C , θ x + ( 1 − θ ) y ∈ C , θ ∈ [ 0 , 1 ] , P ( x ) = x ~ x n + 1 x,y\isin C,\theta x+(1-\theta)y\isin C,\theta\isin[0,1],P(x)=\frac{\widetilde{x}}{x_{n+1}} x,yC,θx+(1θ)yC,θ[0,1],P(x)=xn+1x
结论: θ P ( x ) + ( 1 − θ ) P ( y ) ∈ P ( C ) \theta P(x)+(1-\theta)P(y)\isin P(C) θP(x)+(1θ)P(y)P(C)
推导: P ( θ x + ( 1 − θ ) y ) = θ x + ( 1 − θ ) y ~ ( θ x + ( 1 − θ ) y ) n + 1 P(\theta x+(1-\theta)y)=\frac{\widetilde{\theta x+(1-\theta)y}}{(\theta x+(1-\theta)y)_{n+1}} P(θx+(1θ)y)=(θx+(1θ)y)n+1θx+(1θ)y

= θ x ~ + ( 1 − θ ) y ~ θ x n + 1 + ( 1 − θ ) y n + 1 = θ x ~ x n + 1 x n + 1 + ( 1 − θ ) y ~ y n + 1 y n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 =\frac{\theta\widetilde{x}+(1-\theta)\widetilde{y}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\frac{\theta\frac{\widetilde{x}}{x_{n+1}}x_{n+1}+(1-\theta)\frac{\widetilde{y}}{y_{n+1}}y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}} =θxn+1+(1θ)yn+1θx +(1θ)y =θxn+1+(1θ)yn+1θxn+1x xn+1+(1θ)yn+1y yn+1

= θ P ( x ) x n + 1 + ( 1 − θ ) P ( y ) y n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 = α P ( x ) + ( 1 − α ) P ( y ) =\frac{\theta P(x)x_{n+1}+(1-\theta)P(y)y_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}}=\alpha P(x)+(1-\alpha)P(y) =θxn+1+(1θ)yn+1θP(x)xn+1+(1θ)P(y)yn+1=αP(x)+(1α)P(y)

其中 α = θ x n + 1 θ x n + 1 + ( 1 − θ ) y n + 1 \alpha=\frac{\theta x_{n+1}}{\theta x_{n+1}+(1-\theta)y_{n+1}} α=θxn+1+(1θ)yn+1θxn+1

线性分式函数Linear-fractional function

定义:

  • f : R n → R m f:R^{n}\rightarrow R^m fRnRm
  • f ( x ) = A x + b C T x + d , d o m f = { x ∣ C T x + d > 0 } f(x)=\frac{Ax+b}{C^Tx+d},domf=\{x|C^Tx+d>0\} f(x)=CTx+dAx+bdomf={xCTx+d>0}(仿射变换( A x + b Ax+b Ax+b)+感知函数( C T x + d > 0 C^Tx+d>0 CTx+d>0)的组合)
    结论:其原象(image)和反象(逆inverse)都是保持凸性的,线性分式函数是能保持凸性的运算
    例子:性状(凹凸/角)基本不变,就是部分拉伸
    最优化方法(学习笔记)-第二章凸集_第12张图片

广义不等关系

好锥proper cone

定义:凸集 K ⊆ R n K\subseteq R^n KRn满足以下条件就是一个好的锥(proper cone)

  • K要包含边界(closed-闭/边界线)
  • K不是一条射线(solid-有内点/实心)
  • K是有方向的,不包含其反方向(pointed-尖)
    pointed cone尖锥

举例:

  • 非负实数集: K = R + n = { x ∈ R n ∣ x i ≥ 0 , i = 1 , . . . , n } K=R_+^n=\{x\isin R^n|x_i\geq 0,i=1,...,n\} K=R+n={xRnxi0,i=1,...,n}
  • 对称半正定矩阵的锥positive semidefinite cone: K = S + n K=S_+^n K=S+n,内部是一个对称正定矩阵
  • 非负多项式nonnegative polynominal: K = { x ∈ R n ∣ x + x 2 t + x 3 t 2 + . . . + x n t n − 1 ≥ 0 , f o r   t ∈ [ 0 , 1 ] } K=\{x\isin R^n|x+x_2t+x_3t^2+...+x_nt^{n-1}\geq0,for\space t\isin[0,1]\} K={xRnx+x2t+x3t2+...+xntn10for t[0,1]}

偏序Generalized Inequality

偏序:部分元素的二元关系成立;全序:任何一对元素的二元关系都成立
全序关系必定是偏序关系
定义:通过proper cone定义,是关于某种集合K

  • x ⪯ K y    ⟺    y − x ∈ K x\preceq_Ky\iff y-x\isin K xKyyxK
  • x ≺ K y    ⟺    y − x ∈ I n t K ( 指 K 的 内 点 ) x\prec_Ky\iff y-x\isin Int K(指K的内点) xKyyxIntK(K)

例子ex:

  • 分量偏序-componentwise inequality( K = R + n K=R_+^n K=R+n)每一个相减以后符号都一样
    x ⪯ R + n y x\preceq_{R_+^n}y xR+ny    ⟺    x i ≤ y i , i = 1 , . . . , n \iff x_i\leq y_i,i=1,...,n xiyi,i=1,...,n
  • 矩阵偏序-matrix inequality( K = S + n K=S_+^n K=S+n)每一个相减以后都是半正定矩阵
    X ⪯ R + n Y X\preceq_{R_+^n}Y XR+nY    ⟺    Y − X ∈ S + n \iff Y-X\isin S_+^n YXS+n

性质:支持加法运算
x ⪯ K y , u ⪯ K v    ⟹    ( x + u ) ⪯ K ( y + v ) x\preceq_Ky,u\preceq_Kv \implies (x+u)\preceq_K(y+v) xKyuKv(x+u)K(y+v)

由此可以比较找出最大/最小值

最小化Minimum

最小元Minimum elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件: ∀ y ∈ S    ⟹    x ⪯ K y \forall y\isin S\implies x\preceq_Ky ySxKy,那么x是集合S中的最小元【别的都比他大】。
任意的y都可以和x比较,举例 K = R + 2 K=R_+^2 K=R+2,下图中,单点 x 1 x_1 x1 S 1 S_1 S1的最小元。
最优化方法(学习笔记)-第二章凸集_第13张图片
极小元Minimal elements定义:(w.r.t=with respect to)关于某种顺序K下,如果符合条件: ∀ y ∈ S , y ⪯ K x    ⟹    y = x \forall y\isin S,y\preceq_Kx\implies y=x ySyKxy=x,那么x是集合S中的极小元【没有比他小的】。
举例 K = R + 2 K=R_+^2 K=R+2,下图中,点 x 2 x_2 x2所在的边界线 S 2 S_2 S2的极小元。
最优化方法(学习笔记)-第二章凸集_第14张图片

(线性)可分超平面定理Separating hyperplane theorem

定义:
对于不相交(disjoint)的非空凸集C和D,存在一个向量 a ≠ ( 0 或 b ) a\neq (0或b) a=(0b),都有 a T x ≤ b   f o r   x ∈ C , a T x ≥ b   f o r   x ∈ D a^Tx\leq b\space for\space x\isin C,a^Tx\geq b\space for\space x\isin D aTxb for xCaTxb for xD,分割出C和D的超平面就是 { x ∣ a T x = b } \{x|a^Tx=b\} {xaTx=b}
最优化方法(学习笔记)-第二章凸集_第15张图片
最优化建模:
假设 坐 标 d ∈ D , 坐 标 c ∈ C , ∣ ∣ d − c ∣ ∣ = i n f ( 下 确 界 ) { ∣ ∣ u − v ∣ ∣   ∣ u ∈ D , v ∈ C } 坐标d\isin D,坐标c\isin C,||d-c||=inf(下确界)\{||u-v||\space|u\isin D,v\isin C\} dD,cC,dc=inf(){uv uD,vC},
那么超平面符合 f ( x ) = ( d − c ) T ( x − d + c 2 ) = 0 f(x)=(d-c)^T(x-\frac{d+c}{2})=0 f(x)=(dc)T(x2d+c)=0
( d − c 是 向 量 , 和 中 点 方 向 d + c 2 垂 直 , 所 以 用 转 置 ) (d-c是向量,和中点方向\frac{d+c}{2}垂直,所以用转置) dc,2d+c,
证明:
f ( x ) = { ≥ 0 , x ∈ D ≤ 0 , x ∈ C f(x)=\begin{cases}\geq 0,x\isin D \\ \leq 0,x\isin C \end{cases} f(x)={0xD0xC
u ∈ D , f ( u ) ≥ 0 u\isin D,f(u)\geq 0 uDf(u)0
( d − c ) T ( u − d + c 2 ) = ( d − c ) T ( u − d + d − c 2 ) = ( d − c ) T ( u − d ) + ∣ ∣ d − c ∣ ∣ 2 2 2 (d-c)^T(u-\frac{d+c}{2})=(d-c)^T(u-d+\frac{d-c}{2})=(d-c)^T(u-d)+\frac{||d-c||_2^2}{2} (dc)T(u2d+c)=(dc)T(ud+2dc)=(dc)T(ud)+2dc22

反证法:设 f ( u ) ≤ 0 f(u)\leq 0 f(u)0,因为 ∣ ∣ d − c ∣ ∣ 2 2 2 \frac{||d-c||_2^2}{2} 2dc22肯定大于0,所以 ( d − c ) T ( u − d ) ≤ 0 (d-c)^T(u-d)\leq 0 (dc)T(ud)0

设置函数: g ( t ) = ∣ ∣ d − c + t ( u − d ) ∣ ∣ 2 2 , g ’ ( t ) = 2 ( d − c + t ( u − d ) ) g(t)=||d-c+t(u-d)||_2^2,g’(t)=2(d-c+t(u-d)) g(t)=dc+t(ud)22g(t)=2(dc+t(ud))
有导数 g ′ ( 0 ) = 2 ( d − c ) T ( u − d ) ≤ 0 g'(0)=2(d-c)^T(u-d)\leq 0 g(0)=2(dc)T(ud)0
所以: ∃ t > 0 , s . t ( s o   t h a t ) ∣ ∣ d − c + t ( u − d ) ∣ ∣ 2 2 < ∣ ∣ d − c ∣ ∣ 2 2 \exist t>0,s.t(so\space that)||d-c+t(u-d)||_2^2<||d-c||_2^2 t>0,s.t(so that)dc+t(ud)22<dc22,这与 d − c d-c dc是最小距离的假设相互矛盾

严格可分超平面
充分条件:例如:一个集合是闭的,一个集合是开的,那么,一定可分割

支撑面Supporting hyperplane theorem

定义:
点集C的边界点 x 0 x_0 x0上衍生出的一条直线 { x ∣ a T x = a T x 0 } \{x|a^Tx=a^Tx_0\} {xaTx=aTx0},保证C完全在线的某一侧
其中,向量 a ≠ 0 , 且 ∀ x ∈ C , 有 a T x ≤ a T x 0 a\neq 0,且\forall x\isin C,有a^Tx\leq a^Tx_0 a=0,xC,aTxaTx0
最优化方法(学习笔记)-第二章凸集_第16张图片
性质:
如果C是凸集,那么C的每一个边界点都存在一个支撑面

对偶Dual cone

对偶定义

锥K的对偶定义: K ∗ = { y ∣ y T x ≥ 0   f o r   a l l   x ∈ K } K^*=\{y|y^Tx\geq 0\space for\space all\space x\isin K\} K={yyTx0 for all xK}(保证选取的向量,与锥内的点向量之间,都保持直角以下的关系)
最优化方法(学习笔记)-第二章凸集_第17张图片

对偶举例

  • 自对偶self-dual cones
    • K = R + n    ⟹    K ∗ = R + n K=R_+^n\implies K^*=R_+^n K=R+nK=R+n(非负实数集)
    • K = S + n    ⟹    K ∗ = S + n K=S_+^n\implies K^*=S_+^n K=S+nK=S+n(半正定对称矩阵)
    • K = { ( x , t ) ∣   ∣ ∣ x ∣ ∣ 2 ≤ t }    ⟹    K ∗ = { ( x , t ) ∣   ∣ ∣ x ∣ ∣ 2 ≤ t } K=\{(x,t)|\space||x||_2\leq t\}\implies K^*=\{(x,t)|\space||x||_2\leq t\} K={(x,t) x2t}K={(x,t) x2t}(第二范数恒为正)
  • 普通对偶
    • K = { ( x , t ) ∣   ∣ ∣ x ∣ ∣ 1 ≤ t }    ⟹    K ∗ = { ( x , t ) ∣   ∣ ∣ x ∣ ∣ ∞ ≤ t } K=\{(x,t)|\space||x||_1\leq t\}\implies K^*=\{(x,t)|\space||x||_\infty \leq t\} K={(x,t) x1t}K={(x,t) xt}(第一范数是绝对值,对偶是其向量的最大值)

对偶性质

  • 对偶也是凸集convex
    u , v ∈ K ∗ , ( θ u + ( 1 − θ ) v ) T x = θ u T x + ( 1 − θ ) v T x ≥ 0 , 所 以 对 θ ∈ [ 0 , 1 ] , 有 θ u + ( 1 − θ ) v ∈ K ∗ u,v\isin K^*,(\theta u+(1-\theta)v)^Tx=\theta u^Tx+(1-\theta)v^Tx\geq0,所以对\theta\isin[0,1],有\theta u+(1-\theta)v\isin K^* u,vK,(θu+(1θ)v)Tx=θuTx+(1θ)vTx0,θ[0,1],θu+(1θ)vK
    锥cone不一定是convex的,如下图
    最优化方法(学习笔记)-第二章凸集_第18张图片
  • K ∗ ∗ 是 K K^{**}是K KK的凸包
    K K K是凸集, K ∗ ∗ = K K^{**}=K K=K

对偶的偏序关系

proper cones的对偶也是proper的
其偏序的定义: y ⪰ K ∗ 0    ⟺    y T x ≥ 0   f o r   a l l   x ⪰ K 0 y\succeq_{K^*}0\iff y^Tx\geq 0\space for \space all \space x\succeq_K0 yK0yTx0 for all xK0
注意: y ∈ K ∗ , x ∈ K y\isin K^*,x\isin K yK,xK

对偶的最小化

  • 最小元minimum element
    ∀ 向 量 λ ∈ K ∗ ( λ ⪰ K ∗ 0 ) , ∀ x , z ∈ S , 有 λ T x ≤ λ T z , 所 以 x 就 是 点 集 S 关 于 对 偶 K ∗ 的 最 小 元 \forall向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的最小元 λK(λK0),x,zS,λTxλTzxSK
    最优化方法(学习笔记)-第二章凸集_第19张图片
  • 极小元minimal element
    ∃ 向 量 λ ∈ K ∗ ( λ ⪰ K ∗ 0 ) , ∀ x , z ∈ S , 有 λ T x ≤ λ T z , 所 以 x 就 是 点 集 S 关 于 对 偶 K ∗ 的 极 小 元 \exist向量\lambda\isin K^*(\lambda\succeq_{K^*}0),\forall x,z\isin S,有\lambda^Tx\leq \lambda^Tz,所以x就是点集S关于对偶K^*的极小元 λK(λK0),x,zS,λTxλTzxSK
    最优化方法(学习笔记)-第二章凸集_第20张图片

总结

  • 基本概念
    • 凸集和仿射集
      凸集convex是 θ ∈ [ 0 , 1 ] \theta\isin [0,1] θ[0,1],仿射集affine是 θ ∈ R \theta\isin R θR,所以凸集不一定是仿射集
    • 凸组合和凸包
      两个x扩展到k个x的组合
    • 凸锥
      任意一个x,而且 θ ≥ 0 \theta\geq 0 θ0
    • 超平面和半空间
      超平面:凸+仿射;半空间:凸+非仿射
    • 球体和椭球
      半径的取值变换
    • 范数
      带范数的球和带范数的锥都是凸的
    • 多面体和半正定矩阵
      这些都是凸的
  • 保凸运算
    通过简单集合(超平面,多面体,球体)变化求证
    • 交集
      就是求得半空间的交集
    • 仿射变换
      类似线性变换+平移,仍保持线性结构
    • 感知函数
      函数形式是分式,类似投影效果
    • 线性反分式函数
      感知函数的形式,分子利用了仿射变换
  • 不等关系
    • 好锥的定义
      凸convex,闭closed,实solid,尖pointed
    • 偏序
      部分元素成立的二元关系
    • 最小化
      最小元-锥尖;极小元-底线
    • 可分超平面
      区分两个可分割的点集
    • 支撑面
      凸集的每个边界点都有支撑面
  • 对偶
    • 定义
      向量-内积大于0,矩阵-迹大于0
    • 性质
      对偶是凸的, K ∗ ∗ 是 K K^{**}是K KK的凸包
    • 最小化
      最小元-锥尖-任意向量λ;极小元-由一个向量λ决定

如若笔记有误,欢迎指正批评。未来仍会不定期修正和补充。

你可能感兴趣的:(最优化方法(学习笔记),最优化)