Logistic回归原理浅谈

原文参考http://blog.csdn.net/ariessurfer/article/details/41310525
Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。
在讲解Logistic回归理论之前,我们先从LR分类器说起。LR分类器,即Logistic Regression Classifier。在分类情形下,经过学习后的LR分类器是一组权值这里写图片描述,当测试样本的数据输入时,这组权值与测试数据按照线性加和得到
这里写图片描述
这里这里写图片描述是每个样本的n个特征。
解出x之后,按照sigmoid函数的形式求出这里写图片描述
sigmoid函数的图像如图所示Logistic回归原理浅谈_第1张图片
sigmoid函数的定义域为这里写图片描述,值域为(0,1)。当x取值为(-INF,0),y的概率小于0.5,y取0的概率比较大;当x取值为(0,INF),y的概率大于0.5,y取1的概率比较大。因此最基本的LR分类器适合对两类目标进行分类。
sigmoid函数解释:假设在n个独立自变量这里写图片描述作用下,记y取1的概率是p=P(y=1 | x),取0的概率是1-p,取1和取0的概率之比为这里写图片描述,称为事件的优势比(odds),对odds取自然对数即得这里写图片描述,则这里写图片描述
所以Logistic回归最关键的问题就是研究如何求得这里写图片描述这组权值。这个问题是用极大似然估计来做的。

下面正式地来讲Logistic回归模型。
Logistic回归模型是建立这里写图片描述与自然变量的线性回归模型。
考虑具有n个独立变量的向量这里写图片描述,记y取1的概率是p=P(y=1 | x),取0的概率是1-p,取1和取0的概率之比为这里写图片描述,称为事件的优势比(odds),对odds取自然对数即得这里写图片描述,则这里写图片描述这里写图片描述

假设有m个观测样本,观测值分别为这里写图片描述,设这里写图片描述取1的概率是这里写图片描述,取0的概率是这里写图片描述,所以得到一个观测值的概率服从二点分布这里写图片描述这里写图片描述,因为各个观测样本之间相互独立,那么它们的联合分布为各边缘分布的乘积。得到似然函数为这里写图片描述,然后我们的目标是求出使这一似然函数的值最大的参数估计,最大似然估计就是求出参数这里写图片描述,使得L(w)取得最大值,对函数L(w)取对数,然后对n+1个这里写图片描述分别求偏导,得到n+1个方程,解这个n+1个方程组得到这里写图片描述
上述方程比较复杂,一般方法似乎不能解之,所以我们引用了牛顿-拉菲森迭代方法求解。

你可能感兴趣的:(Logistic回归原理浅谈)