统计学习————逻辑斯蒂回归

逻辑斯谛回归(对数几率回归)是统计学习中的经典分类方法,已经成为流行病学和医学中常见的分析方法。它主要有下面三个用途:
(1)寻找危险因素,例如寻找某一疾病的危险因素。
(2)预测。如果已经建立logistic回归模型,可以根据模型,预测在不同自变量情况下,发生某病或某种情况的概率。
(3)判别。判断某人属于某病或属于某种情况的概率有多大。

1 逻辑斯谛分布与回归

1.1 逻辑斯谛分布

定义:设X为连续随机变量,若X服从逻辑斯谛分布,有:


file

F(x)与f(x)的图形如下,其分布函数F(x)是一条S型曲线,以(μ,1/2)中心对称,满足F(-x+μ)-1/2=-F(x+μ)+1/2


file

1.2 逻辑斯谛回归

逻辑斯谛回归既可以看成回归也可以看成分类。

1.2.1 回归

逻辑斯谛回归将样本特征与样本发生概率联系起来,概率是数,可以称为回归。
下图中左式利用一个函数计算p值,右式根据计算的p判断事件发生情况。

file

1.2.2分类

也可以看成分类算法----做分类时主要解决二分类问题。

file

注:θ^T为参数,Xb为特征,w(i)为第i个特征的权重,b为截距。

由于y的取值为(-∞,+∞),导致分类效果差(无限制)。下面引入sigmoid函数,使得y取值在(0,1)。

file

1.2.3 sigmoid函数

函数形式:

file

图形:

file

引入sigmoid函数后,即保证p在(0,1):

file
file

那么应该怎么才能找到θ使得能最大程度获得样本数据集x及其对应分类输出y呢?

2 梯度下降求最佳θ

2.1 损失函数

损失函数:

file

损失函数图形:

file

总损失:

file

2.2 梯度下降法求最佳θ

file

前一项求导:

file

后一项求导:

file

一个:

file

m个:

file

梯度下降后即可求得最佳θ:

file

2 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,X取实数,随机变量 Y 取值为 1或0;
定义:

file

对于给定的输入示例x,按照上述两式,可以求得两个的概率,然后比较两个概率大小,把x分到概率大的那边。

如果对权值向量和输入向量加以扩充,这时的回归模型如下:

file

如果事件发生概率为p,该事件的几率为p/(1-p),则该事件的对数几率或logit函数是:

file

带入上上面式子:

file

说明输出Y=1的对数几率是输入X的线性函数。

可以通过定义把线性函数w.x转换为概率,此时线性函数值越接近+∞,概率值越接近1,越接近-∞,概率值越接近0。


file

本文由博客一文多发平台 OpenWrite 发布!

你可能感兴趣的:(统计学习————逻辑斯蒂回归)