20200813-共轭函数的仿射变化

Convex Optimization的第三章中提到了共轭函数的仿射变化。但是没有具体说明过程,这里推导一下。

参考资料:

Convex Optimization: Chapter-3


函数f(x)的共轭函数定义为

f^*(y)=\sup\limits_{x\in\mathbf{dom}f}(x^Ty-f(x))

现给出其仿射变化函数g(x)=af(x)+b,其共轭函数为g^*(y)=af^*(y/a)-b,证明如下:

z=\nabla f(x)时,仿射函数x^Tz与函数f(x)的距离最大,即梯度相同时,距离最远。

因此对于函数f(x)来说,其共轭函数为

f^*(z)=x^T\nabla f(x)-f(x)

其中z=\nabla f(x)

对于函数g(x)来说,其共轭函数为

\begin{array} {ll} g^*(y)&=ax^T\nabla f(x)-af(x)-b\\ &=a(x^T\nabla f(x)-f(x))-b\\ &=af^*(z)-b \end{array}

其中y=a\nabla f(x)=az

变量替换就可得到g^*(y)=af^*(y/a)-b


函数g(x)=f(Ax+b),其共轭函数为g^*(y)=f^*(A^{-T}y)-bA^{-T}y,其中,A\in \mathbf{R}^{n\times n},\ b\in \mathbf{R}^{n\times 1}。证明如下:

这里用到了矩阵求导,参考资料:矩阵求导,矩阵求导、几种重要的矩阵及常用的矩阵求导公式

首先对函数f(x)与上面的证明一致,不再赘述。

对于函数g(x)=f(Ax+b),当y=A^T\nabla f(Ax+b)时,仿射函数x^Ty与函数f(Ax+b)的距离最大。

因此其共轭函数为

g^*(y)&=x^TA^T\nabla f(Ax+b)-f(Ax+b)

w=Ax+b,则x=A^{-1}(w-b)y=A^T\nabla f(x)。而共轭函数为

\begin{array}{ll} g^*(y)&=x^TA^T\nabla f(Ax+b)-f(Ax+b)\\ &= (w-b)^TA^{-T}A^T\nabla f(w)-f(w)\\ &=w^T\nabla f(w)-f(w)-b^T\nabla f(w)\\ &=f^*(z)-b^T\nabla f(w) \end{array}

其中,y=A^T\nabla f(w)=A^Tz,则z=A^{-T}y,而\nabla f(w)=A^{-T}y。将z,\ \nabla f(w)进行替换就可以得到g^*(y)=f^*(A^{-T}y)-bA^{-T}y了。


这里给个提示:

  • A'A=E
  • A^{T}x=y,\ x=A^{-T}y
  • (A^{T})^{T}=A,注意与矩阵的逆区别。
  • 所有的推导按照矩阵求导的分母布局进行的。

 

 

 

你可能感兴趣的:(凸优化,共轭函数,仿射变化)