logistic回归_Logistic回归概览

        前面的一个阶段我们已经掌握了一些线性回归的知识点,接着我们开启学习的新篇章,这将是在研究中非常重要的一部分。

1. 线性回归知识点回顾

基于简单或者多重线性回归,我们可以完成一下任务:

(1)计算拟合直线的R2,判定模型的拟合效果。参考:线性回归中的R方与R方显著性。

(2)计算R2的p值,判定R2是否具有统计显著性。参考:线性回归中的R方与R方显著性。

(3)基于拟合直线,预测未知变量数据。简单线性回归属于机器学习的一种,而多重线性回归是一种较简单回归更复杂的机器学习。参考: 线性回归的R实现与结果解读   。

(4)基于线性回归,我们也讨论线性回归如何实现t检验和ANOVA检验,即基于分类变量预测未知变量数据大小。参考:线性回归的妙处:t检验与方差分析。

(4)不同线性回归模型之间的比较。例如将多重线性回归(基于重量、血容量预测小鼠体积)与简单线性回归模型(基于重量预测小鼠体积)进行比较,可以告诉我们是否重量和血容量的预测效果更优,也就是重量与血容量的相关性。参考:设计矩阵(design matrices);设计矩阵 in R。logistic回归_Logistic回归概览_第1张图片

2. logistic 回归要点速览

(1)Logistic回归中,预测未知变量为二分类变量,如肥胖/非肥胖、阳性/阴性、真/假、有病/无病等等。logistic回归_Logistic回归概览_第2张图片

(2)logistic回归中的因变量可以是连续变量或分类变量。连续变量如:体重和年龄;分类变量如小鼠的基因型。正是因为logistic回归可以基于连续变量或分类变量对二分类结果做出预测,使其在机器学习领域中发挥重要作用。

(3)logistic回归拟合一条“S”形曲线,可预测未知数据。该曲线对应的纵坐标水平值为判定为肥胖的概率,区间为[0,1]。利用该曲线,预测某一体重的小鼠是否为肥胖,如果该体重对应在曲线的右上方对应体重小鼠被判定为肥胖的概率大,该体重对应在曲线中间部分对应体重小鼠被判定为肥胖的概率居中,而该体重对应在在曲线的左下方对应体重小鼠被判定为肥胖的概率小。在此案例中,当被判定为肥胖的概率>50%时,那么该体重的小鼠被判定为肥胖;反之则判定为非肥胖。logistic回归_Logistic回归概览_第3张图片

(4)logistic回归也分为简单模型和复杂模型。

  • 简单模型如:基于小鼠的体重判定其是否为肥胖;
  • 较复杂的模型如:基于小鼠的体重和基因型判定其是否为肥胖;
  • 更复杂的模型如:基于小鼠的体重、基因型和年龄判定其是否为肥胖;
  • 甚至更加复杂的模型如:动动小脑袋瓜子,自己琢磨。

(5)简单模型与复杂模型之间的比较:比较方法与线性回归中的方法不一样。在线性回归中,我们可以基于简单或复杂线性回归模型的比较,检验是否模型中额外的变量有助于预测结果。但在logistic回归中,该方法不可行。

logistic回归_Logistic回归概览_第4张图片

如果我们要检验该变量(astrological sign)是否有助于结果预测,我们需要使用“wald’s test”检验该变量的效应是否显著不等于零。如果不是,则说明该变量对预测结果无益,意味着我们在研究中可以删除该指标。

(6)logistic回归利用最大似然值估计法拟合最佳曲线。如在基于小鼠体重预测小鼠是否为肥胖的案例中,计算所有数据在随意一条logistic曲线上的似然值(likelihood),然后将所有数据的似然值进行相乘以得到整个样本在该曲线上的似然值;接着左右移动曲线,重新计算整个样本在该曲线上的似然值......最大似然值对应的曲线即为logistic回归曲线。

如果忘记什么是最大似然值估计的话,请参考最大似然估计法相关推文:概率与似然值;最大似然法估计正态分布参数;最大似然法估计二项式分布参数;似然。logistic回归_Logistic回归概览_第5张图片

(7)Logistic回归中R2的计算。利用最大似然值估计法求解logistic回归曲线,数据中无残差,故不能用线性回归模型中的方法计算R2。相反,应该使用其他的方法,详见后续更新。

参考视频:https://www.youtube.com/watch?v=yIYKR4sgzI8&t=10s

编辑:吕琼

校审:罗鹏

logistic回归_Logistic回归概览_第6张图片

你可能感兴趣的:(logistic回归)