学习:StatQuest-逻辑回归

前言

逻辑回归的底层是由线性回归所支撑的,它所用于将线性模型转换为概率模型进行分类:


图1

图2

图3

图2 是计算逻辑回归事件概率
图3计算odds和事件概率

逻辑回归

逻辑回归强调的是一种分类


image.png

由这个图上,我们可以看到小鼠被严格的分为两类,Obese和Not Obese,这样分类是否太严格了,我们完全可以设立一个阈值,根据已有的特征来进行分类:


image.png

比方说我建立一个线性模型,然后转换为概率模型;
image.png

假设说我们阈值设为0.5,即P(Y) > 0.5 分类为
Obese;否则为Not Obese
以此来达到二分类的目的

逻辑回归系数

逻辑回归是广义线性模型的一个分支


image.png

我们先看看底层的东西:线性模型


image.png

线性模型的横坐标是weight,纵坐标是size,这两者成线性关系,
而逻辑回归:
image.png

横坐标为weight ,纵坐标用于判断是否Obese
纵坐标这样计算:


image.png

P是利用前言中图2 的公式所计算
假设说:
image.png

我计算的P = 0.731 ,它所对应的纵坐标如上图所示

非线性模型情况

接下来我们考虑下的非线性模型的逻辑回归:


image.png

这是个分组统计的结果,考虑某基因突变是否会导致Obese


image.png

我们利用设计矩阵进行模型整合,先看一下有无突变基因对小鼠size的分布影响
我们利用逻辑回归的思想,计算odds的log值,并依次填充在纵坐标轴上
image.png

我们也可以引入设计矩阵把两个模型整合


image.png

比方说这样利用odds值就可以比较突变与肥胖的关系了
image.png

逻辑回归显著性检验

举个例子,假设是个二分类,分为A,B两类.其中A类有5个元素;B类有4个元素,
那么回顾下线性模型的R^2 ,我们要计算两部分:fit部分和mean部分,逻辑回归也一样
那么基于线性模型来看分类:


image.png

我们利用前言中图2的式子计算概率P,然后利用下面的式子计算log(odds):


image.png

再然后利用log(odds)转换成逻辑回归的纵坐标值:
image.png

ps:其实绕来绕去计算出来的结果就是每个数据点的概率值

最后计算似然和:


image.png

那么SS(fit)就算完了,在逻辑回归里面称为LL(fit)
再回顾下线性模型的R^2 我们除了要计算fit部分,还要计算mean部分(当然在逻辑回归里面称为overall probability,下文中我都简称为mean),下面我们就来计算mean部分,这是个二分类,它的odds这么算:
log(odds) = log(5/4) = 0.22


image.png

然后计算概率


image.png

结果为:
image.png

好吧,9个数据点所计算出来的概率值为0.56,也就是说随机取一个样,为A类的概率为0.56,为B类的概率为0.44
我们计算下这9个数据点的似然值和的log值(为了方便计算,我们取概率为0.55)
image.png

这样的话SS(mean)也就计算出来了,在逻辑回归里面我们称为LL(mean)
R^2 为:


image.png

本例中值为0.39

p_value:
借助于Chi - squared分布,利用:


image.png

来计算相应的值:


image.png

这样就得到p_value了

你可能感兴趣的:(学习:StatQuest-逻辑回归)