最优化方法(学习笔记)-第六章逼近与拟合

文章目录

  • 范数逼近和最小范数
    • 观测m ≥ \geq 未知n
      • 范数逼近的定义及解释
      • 罚函数逼近
    • 观测m ≤ \leq 未知n
      • 最小范数问题
      • 最小罚函数问题
  • 正则化逼近
    • 正则化理解
    • 标量化问题
      • Tikhonov regularization
      • Optimal input design
      • Signal reconstruction信号恢复
  • 稳健/鲁棒逼近
    • stochastic随机
    • worst-case最坏
    • 对比Robust approximation
  • 总结

范数逼近和最小范数

观测m ≥ \geq 未知n

范数逼近的定义及解释

  • 范数逼近的凸优化问题形式

min ⁡ ∣ ∣ A x − b ∣ ∣ A ∈ R m × n , m ≥ n , ∣ ∣ . ∣ ∣ 表 R m 的 范 数 s o l u t i o n : x ∗ = arg ⁡ min ⁡ x ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} \\A\isin R^{m\times n},m\geq n,||.||表R^m的范数 \\solution:x^*=\arg{\min_x{||Ax-b||}} minAxbARm×n,mn,.Rmsolution:x=argxminAxb

  • 解释

    就是希望找一个拟合模型(直线),然后衡量它与实际数据点的差距(范数)

    • 几何geometric角度

      A = { a 1 , a 2 , . . . , a n } A=\{a_1,a_2,...,a_n\} A={a1,a2,...,an}(列空间),那么存在平面 R ( A ) = ∑ i = 1 n ( a i h i ) R(A)=\sum\limits_{i=1}^n(a_ih_i) R(A)=i=1n(aihi);

      然后 A x = b ~ Ax=\tilde{b} Ax=b~是向量 b b b R ( A ) R(A) R(A)平面上的投影;

      目的就是找到 b ~ 和 b \tilde{b}和b b~b差距最小的 x x x.

    • 估计estimation角度

      假设是线性模型: y = A x + ε y=Ax+\varepsilon y=Ax+ε

      y y y是测量结果, x x x是位置向量, ε \varepsilon ε是测量误差

      利用范数,转变求解问题: x ^ = arg ⁡ min ⁡ x ∣ ∣ A x − b ∣ ∣ \hat{x}=\arg\min_x{||Ax-b||} x^=argminxAxb

    • 优化设计角度

      x x x是输入的设计变量, A x Ax Ax是输出的结果;

      最贴近目标 b b b的最好设计是 x ∗ x^* x

  • 例子

    • L2最小二范数least-squares逼近( ∣ ∣ . ∣ ∣ 2 ||.||_2 .2)

      一般观测独立情况下,经过数据处理总能满足列满秩 r a n k ( A ) = n rank(A)=n rank(A)=n,存在左逆矩阵 A L A^L AL

      求解一般等式问题: A T A x = A T b A^TAx=A^Tb ATAx=ATb

      最优解(伪逆( A L A^L AL)): x ∗ = ( A T A ) − 1 A T b x^*=(A^TA)^{-1}A^Tb x=(ATA)1ATb

    • L∞切比雪夫Chebyshev逼近( ∣ ∣ . ∣ ∣ ∞ ||.||_{\infty} .)

      可转变为求解线性规划LP
      在这里插入图片描述

    • L1绝对值和sum of absolute residuals逼近( ∣ ∣ . ∣ ∣ 1 ||.||_1 .1)

      可转变为求解线性规划LP
      在这里插入图片描述

罚函数逼近

  • 求解问题
    最优化方法(学习笔记)-第六章逼近与拟合_第1张图片

  • 罚函数的例子&对比

    • quadratic: ϕ ( u ) = u 2 \phi(u)=u^2 ϕ(u)=u2
    • deadzone-linear: ϕ ( u ) = max ⁡ { 0 , ∣ u ∣ − a } \phi(u)=\max\{0,|u|-a\} ϕ(u)=max{0,ua}
    • log-barrier:
  • 函数图像对比
    最优化方法(学习笔记)-第六章逼近与拟合_第2张图片

  • 罚函数的形式很大程度影响了残差的分布(样本m=100,未知数n=30, ϕ ( u ) = ∣ ∣ . ∣ ∣ p \phi(u)=||.||_p ϕ(u)=.p)

    ϕ ( u ) = ∣ u ∣ , ϕ ( u ) = u 2 , ϕ ( u ) = m a x 0 , ∣ U ∣ − a , ϕ ( u ) = − log ⁡ ( 1 − u 2 ) \phi(u)=|u|,\phi(u)=u^2,\phi(u)=max{0,|U|-a},\phi(u)=-\log(1-u^2) ϕ(u)=u,ϕ(u)=u2,ϕ(u)=max0,Ua,ϕ(u)=log(1u2)

    [L1]残差的分布集中在零点,但是因为绝对值对大误差的惩罚很小,所以会存在少部分大误差的数据

    [L2]二次函数对小残差的惩罚很小,所以小误差的分布比较散,但是大误差会减少

    [deadzone]边界之内就是free空间

    [log-barrier]没有大于1的残差,但是分布较为均匀,类似L2
    最优化方法(学习笔记)-第六章逼近与拟合_第3张图片

  • Huber罚函数with 参数M
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MxKU5PkN-1610126784382)(C:\Users\13055\AppData\Roaming\Typora\typora-user-images\image-20210108233711082.png)]
    相对比二次函数,线性函数对大误差(离群值)没那么敏感,就是逼近中允许少部分的离群值存在.
    最优化方法(学习笔记)-第六章逼近与拟合_第4张图片

观测m ≤ \leq 未知n

最小范数问题

满足等式条件下,可以获得的最小范数

  • 范数逼近的凸优化问题形式

min ⁡ ∣ ∣ x ∣ ∣ s . t . A x = b A ∈ R m × n , m ≤ n , ∣ ∣ . ∣ ∣ 表 R n 的 范 数 s o l u t i o n : x ∗ = arg ⁡ min ⁡ A x = b ∣ ∣ x ∣ ∣ \min{||x||} \\s.t. Ax=b \\A\isin R^{m\times n},m\leq n,||.||表R^n的范数 \\solution:x^*=\arg{\min_{Ax=b}{||x||}} minxs.t.Ax=bARm×n,mn,.Rnsolution:x=argAx=bminx

  • 解释

    • geometric

      x ∗ x^* x是仿射集 { x ∣ A x = b } \{x|Ax=b\} {xAx=b}里最接近0的点

    • estimation

      x ∗ x^* x是可行域 b = A x b=Ax b=Ax里最小的点

    • design

      x x x是输入的设计变量, b b b是要求的输出结果;

      x ∗ x^* x是满足要求中最小的设计方案

  • 例子

    • L2:等式约束利用拉格朗日函数转变,然后求导得到KKT条件

      { 2 x + A T ν = 0 A x = b \begin{cases}2x+A^T\nu=0\\Ax=b\end{cases} {2x+ATν=0Ax=b

      得到 { ν = − 2 ( A A T ) − 1 b x = A T ( A A T ) − 1 b \begin{cases}\nu=-2(AA^T)^{-1}b\\x=A^T(AA^T)^{-1}b\end{cases} {ν=2(AAT)1bx=AT(AAT)1b

      因为rank(A)=m<=n,所以 A A T AA^T AAT可逆

      { min ⁡ ∣ ∣ x ∣ ∣ 2 2 s . t . A x = b \begin{cases}\min{||x||_2^2}\\s.t. Ax=b\end{cases} {minx22s.t.Ax=b的解是 x ∗ = A T ( A A T ) − 1 b x^*=A^T(AA^T)^{-1}b x=AT(AAT)1b

    • L1:可转化为线性规划LP问题,趋向得到稀疏解 x ∗ x^* x

最小罚函数问题

  • 问题定义
    最优化方法(学习笔记)-第六章逼近与拟合_第5张图片

拟合:用不同的罚函数(使用工具DL去构造),去学习(理解min凸问题)怎么逼近实际数据(分布)

正则化逼近

正则化理解

  • 正则化 : 结合范数逼近和最小范数

  • 解释 : 用最小的x来找最优逼近 A x ≈ b Ax\approx b Axb

    • estimation

      假设线性测量模型 y = A x + ν y=Ax+\nu y=Ax+ν,其中,先验知识 ∣ ∣ x ∣ ∣ ||x|| x要求是尽可能小的

    • optimal design

      小的 x x x是满足 y = A x y=Ax y=Ax中更便宜或更高效的解

    • 稳健逼近

      相比大x,带小x的优良逼近 A x ≈ b Ax\approx b Axb对A中存在的误差更不敏感.

标量化问题

  • 把正则化要求用一个公式表示,带有权衡参数 γ \gamma γ
    最优化方法(学习笔记)-第六章逼近与拟合_第6张图片

Tikhonov regularization

就是标量化问题加上二次方
最优化方法(学习笔记)-第六章逼近与拟合_第7张图片
整合成类似 min ⁡ ∣ ∣ A ~ x − b ~ ∣ ∣ 2 2 \min{||\tilde{A}x-\tilde{b}||_2^2} minA~xb~22的形式,解是 x ∗ = ( A T A + δ I ) − 1 A T b x^*=(A^TA+\delta I)^{-1}A^Tb x=(ATA+δI)1ATb

Optimal input design

  • 带脉冲信号h的线性动态系统LDS(一维卷积函数)

  • 输入设计 : 具有3个目标的多准则问题
    最优化方法(学习笔记)-第六章逼近与拟合_第8张图片

  • 正则化最小二范数形式

    表现效果:

    • δ \delta δ较大时,输入信号的变化幅度变缓/平滑,输出信号的变化更平滑
    • η \eta η较大时,输入信号的大小幅度变小,输出信号的变化更平滑
      最优化方法(学习笔记)-第六章逼近与拟合_第9张图片

Signal reconstruction信号恢复

最优化方法(学习笔记)-第六章逼近与拟合_第10张图片

  • 二次平滑quadratic smoothing

    二次平滑平滑噪声和信号中的急剧跃迁
    最优化方法(学习笔记)-第六章逼近与拟合_第11张图片

  • 累积变换平滑total variation smoothing
    在这里插入图片描述
    总变化平滑保留了信号中的急剧跃迁
    最优化方法(学习笔记)-第六章逼近与拟合_第12张图片

  • 最好的拟合效果应该是右边中间那个(也就是下图中的拐点处)
    最优化方法(学习笔记)-第六章逼近与拟合_第13张图片

稳健/鲁棒逼近

  • 带不确定A的优化问题 min ⁡ ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} minAxb

  • 机器学习 : 当我们把ML的模型写成最优化问题 , 求解出来 , 就可以更容易知道数据的偏好 , 及其分布情况
    最优化方法(学习笔记)-第六章逼近与拟合_第14张图片

stochastic随机

  • 假设A是随机的,求 min ⁡ E ∣ ∣ A x − b ∣ ∣ \min{\mathbb{E}||Ax-b||} minEAxb

  • Stochastic Robust Least Square Problem
    最优化方法(学习笔记)-第六章逼近与拟合_第15张图片

    • 其中 P = E ( U T U ) P=\mathbb{E}{(U^TU)} P=E(UTU),是正定的,可以开平方/解

    • 对上式的 x x x求导并等于0,可以得到
      2 A ˉ T A ˉ x − 2 A ˉ T b + 2 P x = 0 x ~ = ( A ˉ T A ˉ + P ) − 1 A ˉ T b 2\bar{A}^T\bar{A}x-2\bar{A}^Tb+2Px=0 \\\tilde{x}=(\bar{A}^T\bar{A}+P)^{-1}\bar{A}^Tb 2AˉTAˉx2AˉTb+2Px=0x~=(AˉTAˉ+P)1AˉTb

    • 因此Robust LS等价于LS问题
      min ⁡ ∣ ∣ A ˉ x − b ∣ ∣ 2 2 + ∣ ∣ P 1 / 2 x ∣ ∣ 2 2 \min{||\bar{A}x-b||_2^2+||P^{1/2}x||_2^2} minAˉxb22+P1/2x22

    • Tikhonov正则化最小问题的另一种解释
      当 P = δ I − 对 角 矩 阵 , min ⁡ ∣ ∣ A ˉ x − b ∣ ∣ 2 2 + δ ∣ ∣ x ∣ ∣ 2 2 当P=\delta I -对角矩阵,\min{||\bar{A}x-b||_2^2+\delta||x||_2^2} P=δI,minAˉxb22+δx22

worst-case最坏

  • A中存在的可能值组成集合 A \mathcal{A} A,求 min ⁡ sup ⁡ A ∈ A ∣ ∣ A x − b ∣ ∣ \min{\sup_{A\isin\mathcal{A}}||Ax-b||} minsupAAAxb

    • 其中 sup ⁡ A ∈ A ∣ ∣ A x − b ∣ ∣ \sup_{A\isin\mathcal{A}}||Ax-b|| supAAAxb就表示最坏误差
  • worst-case Robust Least Square Problem
    最优化方法(学习笔记)-第六章逼近与拟合_第16张图片

    • 假设集合 A \mathcal{A} A非空且有界,sup函数对应如下形式
      max ⁡ ∣ ∣ P u + q ∣ ∣ 2 2 s . t . ∣ ∣ u ∣ ∣ 2 2 ≤ 1 \max ||Pu+q||_2^2 \\s.t. ||u||_2^2\leq1 maxPu+q22s.t.u221
      q ( x ) = A ˉ x − b q(x)=\bar{A}x-b q(x)=Aˉxb,利用拉格朗日算子
      L ( u , λ ) = u T P ( x ) T P ( x ) u + q ( x ) T q ( x ) + 2 q ( x ) T P ( x ) u + λ ( u T u − 1 ) L(u,\lambda)=u^TP(x)^TP(x)u+q(x)^Tq(x)+2q(x)^TP(x)u+\lambda(u^Tu-1) L(u,λ)=uTP(x)TP(x)u+q(x)Tq(x)+2q(x)TP(x)u+λ(uTu1)
      求解变量变成 t , x , λ t,x,\lambda t,x,λ

    • 根据强对偶转换为
      最优化方法(学习笔记)-第六章逼近与拟合_第17张图片

    • 因此robust LS等价于SDP问题
      在这里插入图片描述

对比Robust approximation

  • [对比] stochastic和worst-case Robust approximation
    最优化方法(学习笔记)-第六章逼近与拟合_第18张图片

  • [对比] 普通LS,Tikhonov LS,Robust LS—残差频数的分布情况
    最优化方法(学习笔记)-第六章逼近与拟合_第19张图片

总结

  • 逼近和拟合的CVX包:

    • CVX-Matlab或者cvxopt-Python
    • 常见模型:sdp;gp…
  • 范数逼近

    • 问题: min ⁡ ∣ ∣ A x − b ∣ ∣ \min{||Ax-b||} minAxb
    • 三个角度(几何,估计,优化设计)解释
    • 例子:L2,L∞,L1
    • 扩展:罚函数逼近 { min ⁡ ϕ ( r 1 ) + . . . + ϕ ( r m ) s . t . r = A x − b \begin{cases}\min{\phi(r_1)+...+\phi(r_m)}\\s.t. r=Ax-b\end{cases} {minϕ(r1)+...+ϕ(rm)s.t.r=Axb
      • deadzone,log-barrier罚函数
      • Huber罚函数
  • 最小范数问题

    • 问题: { min ⁡ ∣ ∣ x ∣ ∣ s . t . A x = b \begin{cases}\min{||x||}\\s.t. Ax=b\end{cases} {minxs.t.Ax=b
    • 三个角度(几何,估计,优化设计)解释
    • 例子:L2,L1
    • 扩展:罚函数逼近 { min ⁡ ϕ ( r 1 ) + . . . + ϕ ( r n ) s . t . A x = b \begin{cases}\min{\phi(r_1)+...+\phi(r_n)}\\s.t. Ax=b\end{cases} {minϕ(r1)+...+ϕ(rn)s.t.Ax=b
  • 正则化逼近

    • 正则化问题: min ⁡ ( ∣ ∣ A x − b ∣ ∣ , ∣ ∣ x ∣ ∣ ) ( w . r . t ( 关 于 ) R 2 + ) \min{(||Ax-b||,||x||)}\\(w.r.t(关于)R_2^{+}) min(Axb,x)(w.r.t()R2+)
    • 标量化问题: min ⁡ ( ∣ ∣ A x − b ∣ ∣ + γ ∣ ∣ x ∣ ∣ ) \min{(||Ax-b||+\gamma||x||)} min(Axb+γx)
      • 例子
        • Tikhonov regularization
        • Optimal input design
        • Signal reconstruction
  • 稳健/鲁棒逼近

    • 问题: min ⁡ ∣ ∣ A x − b ∣ ∣ , A 不 确 定 \min{||Ax-b||},A不确定 minAxb,A
    • 逼近方法
      • Stochastic随机
      • Worst-Case最坏

考虑到时间,麻烦的公式以后就不敲了.

Reference

总结
凸优化PPT

你可能感兴趣的:(最优化方法(学习笔记))