这一章开始,进入凸优化的应用。
拟合、逼近、插值
- 拟合
- 一般是对于离散点
- 用函数代替列表函数使得误差在某种意义下最小
- 插值
- 一般是对于离散点
- 用一个函数来近似代替列表函数,并要求函数通过列表函数中给定的数据点
- 逼近
- 一般是对于连续函数
- 为复杂函数寻找近似替代函数,其误差在某种度量下最小
范数逼近
基本问题 p286 p 286
最简单的范数逼近问题具有以下形式的无约束问题:
min||Ax−b|| min | | A x − b | |
向量 r=Ax−b r = A x − b 称为这个问题的残差,其分量称为个体残差。
很明显,范数逼近问题是一个凸问题,也就是说,至少存在一个最优解。
由线性代数的知识,当 b∈C(A) b ∈ C ( A ) 时,最优值为0,但我们更关心其不为 A A 的列空间的情况。
解释
Ax=x1a1+...+xnan A x = x 1 a 1 + . . . + x n a n
可以看出,范数逼近问题目标是用 A A 的列空间的线性组合尽可能的逼近 b b 向量,其偏差由范数度量。
在几何上有更好的解释,其中, x x 可认为是向量 b b 在 A A 的子空间中的投影点,也就是最靠近 b b 的点。
最小二乘逼近
最常见的范数逼近是 l2 l 2 范数。其问题描述为:
min||Ax−b||22=r21+...+r2m min | | A x − b | | 2 2 = r 1 2 + . . . + r m 2
其目标函数为残差平方和。我们可以将目标函数转化为凸二次函数:
f(x)=xTATAx−2bTAx+bTb f ( x ) = x T A T A x − 2 b T A x + b T b
可以解析的求解得到:
ATAx=ATb A T A x = A T b
这个方程为正规方程,并且总是有解的。
Chebyshev逼近
当使用 l∞ l ∞ 范数时,逼近问题转化为:
min||Ax−b||∞=minmax{|r1|,...,|rm|} min | | A x − b | | ∞ = min max { | r 1 | , . . . , | r m | }
表示为极小化最大残差。可以将其描述为线性规划问题:
mint min t
s.t.−t1⪯Ax−b⪯t1 s . t . − t 1 ⪯ A x − b ⪯ t 1
残差绝对值之和逼近
如果使用 l1 l 1 范数,逼近问题表示为:
min||Ax−b||=min|r1|+...+|rm| min | | A x − b | | = min | r 1 | + . . . + | r m |
这是一种鲁棒估计器。也可以表示为线性规划问题:
min1Tt min 1 T t
s.t.−t⪯Ax−b⪯t s . t . − t ⪯ A x − b ⪯ t
罚函数逼近
我们把范数扩展开来,可以考虑目标函数:
(|r1|p+...+|rm|p)1/p ( | r 1 | p + . . . + | r m | p ) 1 / p
我们可以不用管外面的幂次,具体来说,可写成如下罚函数逼近问题:
minϕ(r1)+...+ϕ(rm) min ϕ ( r 1 ) + . . . + ϕ ( r m )
s.t.r=Ax−b s . t . r = A x − b
其中, ϕ ϕ 称为罚函数,若其为凸函数,则该问题为凸优化问题。
我们可以将目标函数理解为总体惩罚:每个残差的罚函数之和。
有一些常见的罚函数 p288 p 288 :
- ϕ(u)=|u|p ϕ ( u ) = | u | p ,为范数逼近问题
- 带有死区的线性罚函数
- 对数障碍罚函数
- Huber罚函数
对于这些罚函数的解释可以参考书上 p288 p 288 。
书中还考虑了野值(很大的噪声值)对用罚函数设计的影响。
最小范数问题
之前我们考虑的是范数逼近问题(在某种度量下残差最小),现在考虑范数最小问题:
min||x|| min | | x | |
s.t.Ax=b s . t . A x = b
该问题的解为 Ax=b A x = b 的最小范数解。
可重构为范数逼近问题,令 x0 x 0 为任意解, Z Z 的列是 A A 的零空间的基:
min||x0+Zu|| min | | x 0 + Z u | |
几何解释
可行集 {x|Ax=b} { x | A x = b } 是仿射的,最小范数问题是在仿射集合中寻找距离0最近的点,即寻找0向仿射集合的投影。
线性方程组的最小二乘解 p296 p 296
最常见的最小范数问题为 l2 l 2 范数:
min||x||22 min | | x | | 2 2
s.t.Ax=b s . t . A x = b
其唯一解称为方程 Ax=b A x = b 的最小二乘解。类似于最小二乘逼近,此问题也可以被解析的求解。我们可以使用对偶问题来解决此凸优化问题,最优性条件为:
2x⋆+ATv⋆=0,Ax⋆=b 2 x ⋆ + A T v ⋆ = 0 , A x ⋆ = b
这很容易求解,不再赘述。
最小罚问题
minϕ(x1)+...+ϕ(xn) min ϕ ( x 1 ) + . . . + ϕ ( x n )
s.t.Ax=b s . t . A x = b
在约束 Ax=b A x = b 下,最小罚问题找到了具有最小总惩罚的 x x 。
正则化逼近
双准则式
在正则化逼近中,我们的目标是寻找向量 x x 使其较小,同时使得残差较小的值。
可以描述为双目标凸向量优化问题:
min(||Ax−b||,||x||) min ( | | A x − b | | , | | x | | )
注意,这两个范数可能是不同的,第一个用以度量残差的规模,第二个用于度量 x x 的规模。
正则化
正则化是求解双准则问题的一个常用的标量化方法:
min||Ax−b||+γ||x|| min | | A x − b | | + γ | | x | |
其中 γ>0 γ > 0 为问题参数。
Tikhonov正则化 p298 p 298
最常见的正则化基于上式并利用Euclid范数,得到一个凸二次优化问题(也称为领回归):
min||Ax−b||22+δ||x||22=xT(ATA+δI)x−2bTAx+bTb min | | A x − b | | 2 2 + δ | | x | | 2 2 = x T ( A T A + δ I ) x − 2 b T A x + b T b
这个正则化有解析解:
x=(ATA+δI)−1ATb x = ( A T A + δ I ) − 1 A T b
鲁棒逼近
随机鲁棒逼近
当矩阵数据 A A 允许不确定和可能的变化时,记起均值为 A¯ A ¯ , U U 为均值为0的随机矩阵,则可以将 A A 表示为:
A=A¯+U A = A ¯ + U
自然的,可以用 ||Ax−b|| | | A x − b | | 的期望来作为目标函数:
minE||Ax−b|| min E | | A x − b | |
这种问题被称为随机鲁棒逼近问题。虽然是凸优化,但并不好解。
若 A A 仅有有限个可能值(离散点)时,即 P(A=Ai)=pi P ( A = A i ) = p i ,则问题可以写为:
minpi||A1x−b||+...+pk||Akx−b|| min p i | | A 1 x − b | | + . . . + p k | | A k x − b | |
这被称为范数和问题。可以表述为:
minpTt min p T t
s.t.||Aix−b||≤ti s . t . | | A i x − b | | ≤ t i
可见,若为 l2 l 2 范数,则范数和问题是一个二阶锥规划。
鲁棒最小二乘问题
minE||Ax−b||22 min E | | A x − b | | 2 2
由于 A=A¯+U A = A ¯ + U ,则可以将目标函数改写为:
E||Ax−b||22=E(A¯x−b+Ux)T(A¯x−b+Ux)=(A¯x−b)T(A¯x−b)+E(xTUTUx)=||A¯x−b||22+xTPx(1)(2)(3) (1) E | | A x − b | | 2 2 = E ( A ¯ x − b + U x ) T ( A ¯ x − b + U x ) (2) = ( A ¯ x − b ) T ( A ¯ x − b ) + E ( x T U T U x ) (3) = | | A ¯ x − b | | 2 2 + x T P x
其中 P=E(UTU) P = E ( U T U ) 。因此,可以将该问题化为正则化最小二乘形式:
min||A¯x−b||22+||P1/2x||22 min | | A ¯ x − b | | 2 2 + | | P 1 / 2 x | | 2 2
不难通过求导可以得到解为:
x=(A¯TA¯+P)−1A¯Tb x = ( A ¯ T A ¯ + P ) − 1 A ¯ T b
最坏鲁棒逼近
我们用 A A 的可能值集合 χ χ 描述其不确定性,我们定义候选的逼近解 x x 的最坏误差为:
ewc(x)=sup{||Ax−b|||A∈χ} e w c ( x ) = sup { | | A x − b | | | A ∈ χ }
最坏情况鲁棒逼近问题是极小化最差情况的误差:
minewc(x) min e w c ( x )