最优化的基本概念

最优化的基本概念

    • 连续和离散优化问题
    • 无约束和约束优化问题
    • 随机和确定性优化问题
    • 线性和非线性规划问题
    • 凸和非凸优化问题
    • 全局和局部最优解
    • 优化算法

一般来说,最优化算法研究可以分为: 构造最优化模型、确定最优化问题的类型和设计算法、实现算法或调用优化算法软件包进行求解.最优化模型的构造和实际问题紧密相关,比如说,给定二维欧几里得(Euclid)空间的若干个离散点,假定它们可以通过一条直线分成两部分,也可以通过一条曲线分成两部分.那么分别使用直线与曲线所得到的最优化模型是不同的.在确定模型之后,我们需要对模型对应的优化问题进行分类.
这里, 分类的必要性是因为不存在对于所有优化问题的一个统一的算法.因此我们需要针对具体优化问题所属的类别,来设计或者调用相应的算法求解器.最后就是模型的求解过程.同一类优化问题往往存在着不同的求解算法.对于具体的优化问题,我们需要充分利用问题的结构,并根据问题的需求(求解精度和速度等)来设计相应的算法.
另外,根据算法得到的结果,我们可以来判别模型构造是否合理或者进一步地改进模型.如果构造的模型比较复杂,那么算法求解起来相对困难(时间慢或者精度差).此时算法分析可以帮助我们设计替代模型,以确保快速且比较精确地求出问题的解.这三个部分的研究对于形成完备的最优化体系是必要的.实际应用导出的各种各样的最优化模型给最优化学科不断注入新鲜的血液,对现有的优化算法进行挑战并推动其向前发展.最优化算法的设计以及理论分析帮助实际问题建立更鲁棒稳定的模型.模型与算法相辅相成,使得最优化学科不断发展.

连续和离散优化问题

最优化问题可以分为连续和离散优化问题两大类.连续优化问题是指决策变量所在的可行集合是连续的,比如平面、区间等.如稀疏优化问题的约束集合就是连续的.离散优化问题是指决策变量能在离散集合上取值,比如离散点集、整数集等.常见的离散优化问题有整数规划,其对应的决策变量的取值范围是整数集合.

在连续优化问题中,基于决策变量取值空间以及约束和目标函数的连续性,我们可以从一个点处目标和约束函数的取值来估计该点可行领域内的取值情况.进一步地,可以根据邻域内的取值信息来判断该点是否最优.离散优化问题则不具备这个性质,因为决策变量是在离散集合上取值.因此在实际中往往比连续优化问题更难求解.实际中的离散优化问题往往可以转化为一系列连续优化问题来进行求解.比如线性整数规划问题中著名的分支定界方法,就是松弛成一系列线性规划问题来进行求解.因此连续优化问题的求解在最优化理论与算法中扮演着重要的角色.

无约束和约束优化问题

最优化问题的另外一个重要的分类标准是约束是否存在.无约束优化问题的决策变量没有约束条件限制,即可行集合 X = Rn.相对地,约束优化问题是指带有约束条件的问题.在实际应用中,这两类优化问题广泛存在.无约束优化问题对应于在欧几里得空间中求解一个函数的最小值点.比如在ℓ1 正则化问题中,决策变量的可行域是 Rn,其为一个无约束优化问题.

因为可以通过将约束罚到目标函数上转化为无约束问题,所以在某种程度上,约束优化问题就是无约束优化问题.很多约束优化问题的求解也是转化为一系列的无约束优化问题来做,常见方式有增广拉格朗日函数法、罚函数法等.尽管如此,约束优化问题的理论以及算法研究仍然是非常重要的.主要原因是,借助于约束函数,我们能够更好地描述可行域的几何性质,进而更有效地找到最优解.对于典型的约束和无约束优化模型.

随机和确定性优化问题

伴随着近年来人工智能的发展,随机优化问题的研究得到了长足的发展.**随机优化问题是指目标或者约束函数中涉及随机变量而带有不确定性的问题.**不像确定性优化问题中目标和约束函数都是确定的,随机优化问题中总是包含一些未知的参数.在实际问题中,我们往往只能知道这些参数的某些估计.随机优化问题在机器学习、深度学习以及强化学习中有着重要应用,其优化问题的目标函数是关于一个未知参数的期望的形式.因为参数的未知性,实际中常用的方法是通过足够多的样本来逼近目标函数,得到一个新的有限和形式的目标函数.由于样本数量往往非常大,我们还是将这个问题看作相对于指标随机变量的期望形式,然后通过随机优化方法来进行求解.

相比于确定性优化问题,随机优化问题的求解往往涉及更多的随机性.很多确定性优化算法都有相应的随机版本.随机性使得这些算法在特定问题上具有更低的计算复杂度或者更好的收敛性质.以目标函数为多项求和的优化问题为例,如果使用确定性优化算法,每一次计算目标函数的梯度都会引入昂贵的复杂度.但是对于随机优化问题,我们每次可能只计算和式中的一项或者几项,这大大减少了计算时间.同时我们还能保证算法求解的足够精确.

线性和非线性规划问题

线性规划是指目标函数和约束函数都是线性的.当目标函数和约束函数至少有一个是非线性的,那么对应的优化问题的称为非线性规划问题.线性规划问题在约束优化问题中具有较为简单的形式.类似于连续函数可以用分片线性函数来逼近一样,线性规划问题的理论分析与数值求解可以为非线性规划问题提供很好的借鉴和基础.

线性规划问题的研究很早便得到了人们的关注.在 1946—1947 年,GeorgeBernard Dantzig 提出了线性规划的一般形式并提出了至今仍非常流行的单纯形方法.虽然单纯形方法在实际问题中经常表现出快速收敛,但是其复杂度并不是多项式的.1979 年,Leonid Khachiyan 证明了线性规划问题多项式时间算法的存在性.1984 年,Narendra Karmarkar 提出了多项式时间的内点法.后来,内点法也被推广到求解一般的非线性规划问题.目前,求解线性规划问题最流行的两类方法依然是单纯形法和内点法.

凸和非凸优化问题

凸优化问题是指最小化目标函数和可行域分别是凸函数和凸集.如果其中有一个或者两者都不是凸的,那么相应的最小化问题是非凸优化问题.因为凸优化问题的任何局部最优解都是全局最优解,其相应的算法设计以及理论分析相对非凸优化问题简单很多.

在实际问题的建模中,我们经常更倾向于得到一个凸优化模型.另外,判断一个问题是否是凸问题也很重要.比如,给定一个非凸优化问题,一方法是将其转化为一系列凸优化子问题来求解.此时需要清楚原非凸问题中的哪个或哪些函数导致了非凸性,之后考虑的是如何用凸优化模型来逼近原问题.在压缩感知问题中, ℓ 0 ℓ_0 0范数是非凸的,原问题对应的解的性质难以直接分析,相应的全局收敛的算法也不容易构造.利用 ℓ 0 ℓ_0 0范数和 ℓ 1 ℓ_1 1 范数在某种意义上的等价性,我们将原非凸问题转化为凸优化问题.在一定的假设下,我们通过求解 ℓ 1 ℓ_1 1范数对应的凸优化问题得到了原非凸优化问题的全局最优解.

全局和局部最优解

在求解最优化问题之前,先介绍最小化问题的最优解的定义.

**定义 1.1 (**最优解) 对于可行点 x ˉ \bar x xˉ(即 x ˉ ∈ X \bar x \in \mathcal X xˉX),定义如下概念:

(1) 如果 f ( x ˉ ) ⩽ f ( x ) f(\bar x) ⩽ f(x) f(xˉ)f(x), ∀ x ∈ X ∀x ∈ \mathcal X xX,那么称 x ˉ \bar x xˉ为全局极小解(点),有时也称为(全局)最优解或最小值点;
(2)如果存在 x ˉ \bar x xˉ的一个 ε 邻域 N ε ( x ˉ ) N_ε(\bar x) Nε(xˉ)使得 f ( x ˉ ) ⩽ f ( x ) , ∀ x ∈ N ε ( x ˉ ) ∩ X f(\bar x) ⩽ f(x), ∀x ∈ N_ε(\bar x) ∩ \mathcal X f(xˉ)f(x),xNε(xˉ)X , 那么称 x ˉ \bar x xˉ为的局部极小解(点),有时也称为局部最优解;
(3)进一步地,如果有 f ( x ˉ ) < f ( x ) , ∀ x ∈ N ε ( x ˉ ) ∩ X , x ≠ x ˉ f(\bar x) < f(x), ∀x ∈ N_ε(\bar x) ∩ \mathcal X , x \ne\bar x f(xˉ)<f(x),xNε(xˉ)X,x=xˉ成立,则称 x ˉ \bar x xˉ为严格局部极小解(点).

如果一个点是局部极小解,但不是严格局部极小解,我们称之为非严格局部极小解.在图 1.8 中,我们以一个简单的函数为例,指出了其全局与局部极小解.

最优化的基本概念_第1张图片

优化算法

在给定优化问题之后,我们要考虑如何求解.根据优化问题的不同形式,其求解的困难程度可能会有很大差别.对于一个优化问题,如果我们能用代数表达式给出其最优解,那么这个解称为显式解,对应的问题往往比较简单.例如二次函数在有界区间上的极小化问题,我们可以通过比较其在对称轴上和区间两个端点处的值得到最优解,这个解可以显式地写出.但实际问题往往是没有办法显式求解的,因此常采用迭代算法

迭代算法的基本思想是:从一个初始点 x 0 x^0 x0出发,按照某种给定的规则进行迭代,得到一个序列 x k {x^k} xk.如果迭代在有限步内终止,那么希望最后一个点就是优化问题的解.如果迭代点列是无穷集合,那么希望该序列的极限点(或者聚点)则为优化问题的解.为了使算法能在有限步内终止,我们一般会通过一些收敛准则来保证迭代停在问题的一定精度逼近解上.对于无约束优化问题,常用的收敛准则有
在这里插入图片描述
其中 ε 1 , ε 2 ε_1, ε_2 ε1,ε2为给定的很小的正数,∥ · ∥ 表示某种范数(这里可以简单理解为 ℓ 2 ℓ2 2范数, f ∗ f^ ∗ f 为函数f 的最小值(假设已知或者以某种方式估计得到)以及 ∇ f ( x k ) ∇ f(x^k) f(xk) 表示函数 f在点 x 处的梯度(光滑函数在局部最优点处梯度为零向量).对于约束优化问题,还需要考虑约束违反度.具体地,要求最后得到的点满足
最优化的基本概念_第2张图片
其中 ε 3 , ε 4 ε_3,ε_4 ε3,ε4为很小的正数,用来刻画 x k x^k xk 的可行性.除了约束违反度之外,我们也要考虑 x k x^k xk与最优解之间的距离,如 (1.5.1) 式中给出的函数值与最优值的相对误差.因为约束的存在,我们不能简单地用目标函数的梯度来判断最优性,实际中采用的判别准则是点的最优性条件的违反度.

对于一个具体的算法,根据其设计的出发点,我们不一定能得到一个高精度的逼近解.此时,为了避免无用的计算开销,我们还需要一些停机准则来及时停止算法的进行.常用的停机准则有
在这里插入图片描述
这里的各个 ε 一般互不相等.上面的准则分别表示相邻迭代点和其对应目标函数值的相对误差很小.在算法设计中,这两个条件往往只能反映迭代点列接近收敛,但不能代表收敛到优化问题的最优解.

在算法设计中,一个重要的标准是算法产生的点列是否收敛到优化问题的解.对于问题,其可能有很多局部极小解和全局极小解,但所有全局极小解对应的目标函数值,即优化问题的最小值 f ∗ f ^∗ f是一样的.考虑无约束的情形,对于一个算法,给定初始点 x 0 x^0 x0,记其迭代产生的点列为 x k {x^k} xk.如果 x k {xk} xk 在某种范数 ∥ · ∥ 的意义下满足
在这里插入图片描述
且收敛的点 x ∗ x^∗ x 为一个局部(全局)极小解,那么我们称该点列收敛到局部(全局)极小解,相应的算法称为是依点列收敛到局部(全局)极小解的.

在算法的收敛分析中,初始迭代点 x 0 x^0 x0 的选取也尤为重要.比如一般的牛顿法,只有在初始点足够接近局部(全局)最优解时,才能收敛.但是这样的初始点的选取往往比较困难,此时我们更想要的是一个从任何初始点出发都能收敛的算法.因此优化算法的研究包括如何设计全局化策略,将已有的可能发散的优化算法修改得到一个新的全局收敛到局部(全局)最优解的算法.比如通过采用合适的全局化策略,我们可以修正一般的牛顿法使得修改后的算法是全局收敛到局部(全局)最优解的.

进一步地,如果从任意初始点 x 0 x^0 x0 出发,算法都是依点列收敛到局部(全局)极小解的,我们称该算法是全局依点列收敛到局部(全局)极小解的 .相应地,如果记对应的函数值序列为 { f ( x k ) } \{ f(x^k)\} {f(xk)},我们还可以定义算法的**(全局)依函数值收敛到局部(全局)极小值**的概念.对于凸优化问题,因为其任何局部最优解都为全局最优解,算法的收敛性都是相对于其全局极小而言的.除了点列和函数值的收敛外,实际中常用的还有每个迭代点的最优性条件(如无约束优化问题中的梯度范数,约束优化问题中的最优性条件违反度等等)的收敛.

对于带约束的情形,给定初始点 x 0 x^0 x0,算法产生的点列 { x k } \{x^k\} {xk} 不一定是可行(即 x k ∈ X x^k ∈ \mathcal X xkX未必对任意 k 成立).考虑到约束违反的情形,我们需要保证 x k {x^k} xk在收敛到 x ∗ x^∗ x的时候,其违反度是可接受的.除此要求之外,算法的收敛性的定义和无约束情形相同.

在设计优化算法时,我们有一些基本的准则或技巧.对于复杂的优化问题,基本的想法是将其转化为一系列简单的优化问题(其最优解容易计算或者有显式表达式)来逐步求解.常用的技巧有:
最优化的基本概念_第3张图片
对于同一个优化问题,其求解算法可以有很多.在设计和比较不同的算法时,另一个重要的指标是算法的渐进收敛速度.我们以点列的 Q-收敛速度(Q 的含义为“quotient”)为例(函数值的 Q-收敛速度可以类似地定义).设 { x k } \{x^k\} {xk} 为算法产生的迭代点列且收敛于 x ∗ x^∗ x,若对充分大的 k 有
在这里插入图片描述
则称算法(点列)是 Q-线性收敛的;若满足
在这里插入图片描述称算法(点列)是 Q-超线性收敛的;若满足
在这里插入图片描述
称算法(点列)是 Q-次线性收敛的.若对充分大的 k 满足
在这里插入图片描述
则称算法(点列)是 Q-二次收敛的.

除 Q-收敛速度外,另一常用概念是 R-收敛速度(R 的含义为“root”).以点列为例,设 x k {x^k} xk 为算法产生的迭代点且收敛于 x ∗ x^∗ x,若存在 Q-线性收敛于 0 的非负序列 t k t_k tk 并且在这里插入图片描述
对任意的 k 成立,则称算法(点列)是 R-线性收敛的.类似地,可定义 R-超线性收敛和 R-二次收敛等收敛速度.

与收敛速度密切相关的概念是优化算法的复杂度 N(ε),即计算出给定精度 ε 的解所需的迭代次数或浮点运算次数.在实际应用中,这两种定义复杂度的方式均很常见.如果能较准确地估计每次迭代的运算量,则可以由算法所需迭代次数推出所需浮点运算次数.我们用具体的例子来进一步解释算法复杂度.设某一算法产生的迭代序列 { x k } \{x^k\} {xk}满足
最优化的基本概念_第4张图片
其中 c > 0 c > 0 c>0 为常数, x ∗ x^∗ x 为全局极小点.如果需要计算算法满足精度 f ( x k ) − f ( x ∗ ) ⩽ ε f(x^k) −f(x^∗) ⩽ ε f(xk)f(x)ε 所需的迭代次数,只需令 c / √ k ⩽ ε c/√k ⩽ ε c/kε则得到 k ⩾ c 2 / ε 2 k ⩾ c^2/ε^2 kc2/ε2 ,因此该优化算法对应的(迭代次数)复杂度为 N ( ε ) = O ( 1 / ε 2 ) N(ε) = \mathcal O(1/ε^ 2) N(ε)=O(1/ε2).注意,渐进收敛速度更多的是考虑迭代次数充分大的情形,而复杂度给出了算法迭代有限步之后产生的解与最优解之间的定量关系,因此近年来受到人们广泛关注.

你可能感兴趣的:(最优化,算法)