Logistic回归损失函数推导

Logistic回归损失函数推导

  • 前言
  • Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?
  • Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?
  • Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?
  • 为什么不用线性回归做分类?
  • Logistic回归为什么不像线性回归那样用平方损失函数?
  • Logistic回归的参数为什么不像线性回归那样直接公式求解?
  • Logistic回归与线性回归有哪些联系?

前言

在Logistic回归的极大似然推导之前,我们先要明白,什么是Logistic回归?
回归问题可以分成如下三类:
Logistic回归损失函数推导_第1张图片
其中广义线性回归,本质上是非线性回归,但我们可以把它转变为线性回归来做。而Logistic回归就是广义线性回归的一种。那为什么广义线性回归可以将非线性转变为线性来做呢?

广义线性回归实质上是线性回归的扩展,其要求因变量只能通过线性的形式来依赖于自变量,从而保持了线性自变量的思想。那具体怎么以线性的形式依赖?广义线性通过设定一个连接函数,将因变量的期望与因变量相联系,并且对误差的分布给出了一个误差函数

因此对于广义线性回归模型而言,其有三部分构成:
第一是线性自变量,描述了自变量与因变量的直接关系;
第二是连接函数,描述了因变量与因变量的期望之间的关系;
第三是误差函数,描述了广义线性模型中的随机误差。

Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?

在说明清楚Logistic回归之前,我们先来讲清楚Logistic回归的广义,即对数线性回归(log-linear regression)是什么。
根据上节的内容,线性回归
我们知道线性回归表达的是真实标记y与自变量x的一一映射,那么,我们如何得到自变量x与y的期望值的一个映射呢?
假设y的期望值是一个对数函数,那么我们可以知道:
Logistic回归损失函数推导_第2张图片
于是得到了对数线性回归模型(log-linear regression),这里y的期望函数,即对数函数起到了将线性回归模型的预测值和真实标记联系起来的作用。

理解到这,再往下看对数几率回归(Logistic regression),即Logistic回归损失函数,其只是将y的期望函数,即连接函数改变为了sigmoid函数,那么连接函数的选择有没有什么要求呢?西瓜书上p57页提到,说对于“只需要找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来”。这里再多解释下,为什么要用单调可微?因为后期会需要求导,单调可微是为了让求导的局限性更小。

Logistic回归损失函数推导_第3张图片
到这里以后,我们仅仅是说出了Logistic回归是什么,但是它和极大似然又有什么毛关系呢?又为何用极大似然来求它的损失函数?
我们先来看下sigmoid函数的特性:
Logistic回归损失函数推导_第4张图片
sigmoid函数对应的取值范围是0-1,即采用概率的方式来进行判断,正是基于此,因此在求概率的分布情况时,同上一篇博客一样,我们才可以通过极大似然估计来推导其损失函数,推导过程如下:
Logistic回归损失函数推导_第5张图片


在求出似然函数后,接下来要考虑的就是如何最大化似然函数以求出损失函数,因为根据最优化原理,任何最大化问题统一转为最小,任何凹函数都转为凸函数。所以将最大化似然函数变为最小化其相反的函数,并将其相反的函数作为损失函数,如下:

Logistic回归损失函数推导_第6张图片
对照西瓜书求解如下:

总结->Logistic回归:就是用对数几率函数,将模型预测值z转化为接近0或1的y值,再用线性模型拟合y的对数几率。

Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?

Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?

为什么不用线性回归做分类?

Logistic回归为什么不像线性回归那样用平方损失函数?

Logistic回归的参数为什么不像线性回归那样直接公式求解?

Logistic回归与线性回归有哪些联系?

你可能感兴趣的:(机器学习)