最优化方法(学习笔记)-第一章最优化简介

第一章最优化简介

  • 数学表达最优化问题
  • 解优化问题
    • 一般优化问题
    • 特殊的优化问题(短时间有效找最优)
      • 最小二乘least-square
      • 线性规划LP
      • 凸优化问题
  • 非线性优化问题
    • 局部最优方法
    • 全局最优方法
  • 凸优化简史

数学表达最优化问题

例子引入

  • 输入: { ( z i , y i ) i = 1 N } \{{(z_i,y_i)}_{i=1}^N\} {(zi,yi)i=1N}
  • 函数拟合:假如是在两层神经网络的 R e L U = > σ ( z ) = m a x ( 0 , z ) ReLU=>\sigma(z)=max(0,z) ReLU=>σ(z)=max(0,z)
    就是用函数 h ( z ) = ∑ j = 1 M a j σ ( w j z + b j ) h(z)=\sum\limits_{j=1}^M a_j\sigma(w_jz+b_j) h(z)=j=1Majσ(wjz+bj)去拟合
  • 目标:希望输出和采样尽可能接近 m i n f o ( x ) minf_o(x) minfo(x)
    f o ( x ) = 1 N ∑ j = 1 N ( h ( z j ) − y j ) 2 f_o(x)=\frac{1}{N}\sum\limits_{j=1}^N(h(z_j)-y_j)^2 fo(x)=N1j=1N(h(zj)yj)2
    x = { ( a j , w j , b j ) } j = 1 M x=\{(a_j,w_j,b_j)\}_{j=1}^M x={(aj,wj,bj)}j=1M
    • 参数不可以随意取
    • 可以使用限制 s u b j e c t   t o   f j ( x ) ≤ b j , j = 1 , . . . . m subject\space to\space f_j(x)\leq b_j,j=1,....m subject to fj(x)bjj=1,....m

规范的最优化问题

  • x x x:optimiation的变量
  • f 0 f_0 f0:目标函数(拟合的准确度)
  • f i f_i fi:constrant function 限制条件(参数范围,先验知识等)
  • o p t i m i z e d   s o l u t i o n   x ∗ : f 0 ( x ) optimized \space solution \space x^*:f_0(x) optimized solution x:f0(x)最小并且满足限制条件

解优化问题

一般优化问题

  • 很难解
  • 最优解耗时间,最优性和时间的权衡

特殊的优化问题(短时间有效找最优)

最小二乘least-square

例子:求 m i n ∣ ∣ A x − b ∣ ∣ 2 2 = L 2 范 数 的 平 方 = m i n ∑ ( a i x − b i ) 2 min||Ax-b||_2^2=L2范数的平方=min\sum(a_ix-b_i)^2 minAxb22=L2=min(aixbi)2

  • A ∈ R k × n , k : 样 本 数 , n : 特 征 数 , x ∈ R n × 1 变 量 , b ∈ R k × 1 观 测 值 , A = ( a 1 , a 2 , . . . . , a n ) A\isin R^{k\times n},k:样本数,n:特征数,x\isin R^{n\times 1}变量,b\isin R^{k\times 1}观测值,A=(a_1,a_2,....,a_n) ARk×nk:n:xRn×1bRk×1A=(a1,a2,....,an)
  • A x = ( a 1 x 1 + a 2 x 2 + . . . . + a n x n ) 是 由 { a i } i = 1 n 张 成 的 空 间 中 的 一 个 向 量 Ax=(a_1x_1+a_2x_2+....+a_nx_n)是由\{a_i\}_{i=1}^n张成的空间中的一个向量 Ax=(a1x1+a2x2+....+anxn){ai}i=1n
  • 也就是把b投影(垂直)到A空间剩下的量最小    ⟹    A T ( A x − b ) = 0    ⟹    A T A x = A T b    ⟹    x = ( A T A ) − 1 A T b \implies A^T(Ax-b)=0\implies A^TAx=A^Tb\implies x=(A^TA)^{-1}A^Tb AT(Axb)=0ATAx=ATbx=(ATA)1ATb
  • 特点:易识别,增加正则项 ∣ ∣ x ∣ ∣ 2 2 , ∣ ∣ x ∣ ∣ 1 ||x||_2^2,||x||_1 x22x1

线性规划LP

数学规范: m i n   C T x , s . t   a i T x ≤ b i   ( i = 1 , . . . . . m ) min\space C^Tx,s.t\space a_i^Tx\leq b_i\space (i=1,.....m) min CTxs.t aiTxbi (i=1,.....m)

  • 有解析体
  • 有可靠有效的算法
  • 计算量是 O ( n 2 m ) ( a l l o w   m > n ) O(n^2m)(allow\space m>n) O(n2m)(allow m>n)
  • 成熟的解题方式
  • 不容易识别
  • 正则项
    例子:求 m i n   max ⁡ 1 ≤ i ≤ m ∣ a i x − b i ∣ ⇓ min\space \max\limits_{1\leq i\leq m}|a_ix-b_i|\Darr min 1immaxaixbi
    变化为: m i n     t , s . t   { a i x − b i ≤ t a i x − b i ≥ t min\space\space\space t,s.t\space \begin{cases} a_ix-b_i\leq t \\ a_ix-b_i\geq t \end{cases} min   ts.t {aixbitaixbit

凸优化问题

数学规范: m i n   f 0 ( x ) , s . t   f i ( x ) ≤ b i   ( i = 1 , . . . . . m ) min\space f_0(x),s.t\space f_i(x)\leq b_i\space (i=1,.....m) min f0(x)s.t fi(x)bi (i=1,.....m)
目标函数与限制函数均为凸函数    ⟹    f ( α x + β y ) ≤ α f ( x ) + β f ( x )     ( α + β = 1 , α ≥ 0 , β ≥ 0 ) \implies f(\alpha x+\beta y)\leq\alpha f(x)+\beta f(x)\space\space\space (\alpha+\beta=1,\alpha\geq0,\beta\geq0) f(αx+βy)αf(x)+βf(x)   (α+β=1α0β0)
例如: 最 小 二 乘 ∣ ∣ A x − b ∣ ∣ 2 2    或 者 L P 问 题 C T x 最小二乘||Ax-b||_2^2\space\space或者LP问题C^Tx Axb22  LPCTx

  • 无理论解
  • 可靠有效的方法
  • O ( m a x { n 3 , m n 2 , F } )   , F 是 f i 函 数 的 求 导 ( 一 阶 和 二 阶 ) O(max\{n^3,mn^2,F\})\space,F是f_i函数的求导(一阶和二阶) O(max{n3,mn2,F}) Ffi
  • 广泛的技术(趋势)
  • 非常难识别
  • 很多技巧
  • 很多问题都可以转化为凸优化问题

非线性优化问题

一般的处理是有折衷的

局部最优方法

  • 离初值近的局部最小值
  • 计算快,适合大规模
  • 需要依赖初值
  • 无法提供解与全局最优的距离

全局最优方法

  • 计算时间长,系统参数+,指数级+
  • 找全局解
  • 转化基于凸优化问题的方法求解

凸优化简史

  • 算法
    • 1900-1920:起初起源
    • 1947:LP
    • 1960:早期的内点法
    • 1970s:椭球法,次梯度
    • 1980s:多项式时间的内点
    • to now:非线性凸优化问题
  • 应用
    • 1980:运筹学和少量工程
    • 1990:大量的工程问题

单纯是为了记笔记,如若有拼写错误等,跪请大神指出!也欢迎交流讨论。

你可能感兴趣的:(最优化方法(学习笔记))