逻辑回归目标函数凹凸性的证明

1 背景介绍

逻辑回归可以说是非常经典的一个模型了,其简单易用和鲁棒性得到了广大玩家的认可,甚至机器学习界流传几句话叫:“不知道数据怎么样就先上个lr试试效果”,“好的数据用lr也比坏的数据用神经网络要强”,其重要性可见一斑。

逻辑回归模型的物理含义是基于信息熵的,概率计算公式可以通过最大熵模型推导得出,而目标函数是通过极大似然估计得到的。这些基础知识本篇不再介绍,以后有时间再写推导过程。
本篇的重点是,如何证明目标函数是凸函数?因为只有证明目标函数是凸函数才能用梯度下降法进行求解,并且保证得出全局最优解。

2 证明过程

试着证明逻辑回归函数是凸函数。假设一个函数是凸函数,我们则可以得出局部最优解即为全局最优解,所以假设我们通过随机梯度下降法等手段找到最优解时我们就可以确认这个解就是全局最优解。证明凸函数的方法有很多种,在这里我们介绍一种方法,就是基于二次求导大于等于0。比如给定一个函数,做两次求导之后即可以得出,所以这个函数就是凸函数。类似的,这种理论也应用于多元变量中的函数上。在多元函数上,只要证明二阶导数是posititive semidefinite即可以。 问题(c)的结果是一个矩阵。 为了证明这个矩阵(假设为H)为Positive Semidefinite,需要证明对于任意一个非零向量, 需要得出
记X为以为元素的矩阵,记H为以为对角元素的对角矩阵,那么hessian矩阵可以写成

\left[ \begin{matrix} x_{1,1} &x_{1,2} &\cdots &x_{1,n} \\ x_{2,1} & x_{2,2} &\cdots & x_{2,n} \\ \vdots &\vdots &\ddots &\vdots \\x_{n,1} &x_{n,2} &\cdots &x_{n,n} \end{matrix} \right] · \left[ \begin{matrix} h(x_1)(1−h(x_1) &0 &\cdots &0 \\ 0 &h(x_2)(1−h(x_2) &\cdots &0 \\ \vdots &\vdots &\ddots &\vdots \\ 0&0&0& h(x_n)(1−h(x_n)\end{matrix} \right] · \left[ \begin{matrix} x_{1,1} &x_{1,2} &\cdots &x_{1,n} \\ x_{2,1} & x_{2,2} &\cdots & x_{2,n} \\ \vdots &\vdots &\ddots &\vdots \\x_{n,1} &x_{n,2} &\cdots &x_{n,n}\end{matrix} \right]

根据sigmoid函数的性质,可知0

如何证明这是一个半正定矩阵?直接套定义:

vX相乘,得到一个向量,将这个向量记为p,里面的元素大概是那么上式可以转化为

拆开,就得到

每一项都是大于等于0的,所以结果大于等于0,也就是,所以目标函数的二阶导数所对应的hessian矩阵半正定,所以目标函数是凸函数

你可能感兴趣的:(逻辑回归目标函数凹凸性的证明)