统计机器学习-拉格朗日对偶性

将有原始问题转化成对偶问题,通过求解对偶问题解决原始问题。

原始问题

假设,,是定义在上的连续可微函数,考虑约束最优化问题

称此约束最优化问题为原始最优化问题或原始问题。

如果只是极小化(1)是比较容易的,但是加上约束就不太好处理,于是首先引入广义拉格朗日函数

和是拉格朗日乘子,规定。定义函数

这是一个关于的函数。首先把看做一个常量,再此基础上确定使(4)最大的和,然后带入(5)就成为了一个关于的函数。

如果满足了约束,很容易得到。因为第二项中,且条件,所以乘积,取最大则等于0,第三项满足条件时为0,所以。

如果不满足条件,则会得到

因为如果,则可以使。同理,如果,也可以找到使。

所以(5)可以改写成

于是原始问题就等于极小化问题

称为广义拉格朗日函数的极大极小问题。定义原始问题的最优值

对偶问题

定义

类似的,这是一个关于和的函数。首先把和看做一个常量,再此基础上确定使(10)最大的,然后带入(10)就成为了一个关于和的函数。

对公式(10)极大化,即

称为广义拉格朗日函数的极大极小问题。(11)等价于约束最优化问题

定义对偶问题的最优值

原始问题和对偶问题的关系

定理1

若原始问题和对偶问题都有最优值,则

证明略。即当原始问题和对偶问题都有最优值时,原始问题的最优值大于等于对偶问题的最优值。

推论1

设和,分别是原始问题(1)-(3)和对偶问题(12)-(13)的可行解,并且,则和,分别是原始问题和对偶问题的最优解。

证明略。即两者都是最优解时,。

于是存在某些条件下可以用解对偶问题代替解原始问题,且

定理2

对于原始问题(1)-(3)和对偶问题(12)-(13)。假设函数和是凸函数,是仿射函数;并且假设不等式约束是严格可行的,即存在,对所有有,则存在,,,使是原始问题的解,,是对偶问题的解,并且

定理3

对于原始问题(1)-(3)和对偶问题(12)-(13)。假设函数和是凸函数,是仿射函数;并且假设不等式约束是严格可行的,则和,分别是原始问题和对偶问题的解充分必要条件是,,满足Karush Kuhn Tucker(KKT)条件:

(20)称为KKT的对偶互补条件,由此条件可知,若,则。

PS:

凸函数:类似满足条件

的函数,二阶导数大于等于0或海塞矩阵正定。

仿射函数:最高次数为1的函数,例如。

你可能感兴趣的:(统计机器学习-拉格朗日对偶性)