回归分析

对于自己的数据,选择正确的回归方法非常重要,今天我们就学习一下主流的回归分析。

今天主要讲解主流回归的区分方式,文末有思维逻辑图可以参照。

在讲之前,跟大家一起回顾一下,回归分析和相关性分析的区别。

1.回归分析

大家在接触的时候都知道我们是为了研究某几个自变量,对一个因变量造成的影响情况。

这一些原因是否真的会导致这个结果?还有,这些原因出现时,会造成结果出现的机率是多少。

比如说我们吃的越多长得越胖,那么进食量就是原因,体重就是结果。

那么我们为了研究进食量对体重的影响情况,我们就会选择回归分析。

只要是涉及到谁对谁的影响情况,我们通通选择的都是回归分析。

2.相关性分析

在统计学里面相关性分析是指的是两个变量之间互为关联,方向一致或者是方向不一致,在统计学里面被称为相关性。

相关性分析是一定没有前因后果的,是不存在原因发生在前面,从而导致的后面的后果的这种情况。

我们可以明确的确定其中一个变量是起因而另外一个变量是结果的时候,选择回归分析。

我们在生活里面可以讲解谁和谁之间有相关关系,但是在统计学里面,我们一定要严谨的描述成进食量对体重有影响关系,因为在统计学里面影响关系,也就是我们所说的这个回归分析和相关性分析是不同的。

在统计分析的时候,我们到底是选择这个回归分析呢,还是选择相关性分析?

比如吸烟和肺癌,我们想知道的是吸烟会不会导致肺癌发生,也就是说吸烟会不会影响肺癌的发生,这时候我们选择回归分析。

总之,相关性分析就是关联关系不存在原因和结果,你好我好你差我差是一个状态;而回归分析有明确的前因后果。

回归分析的种类:

回归分析有很多,我们常用到的,按因变量的类型分为三类:

1.线性回归分析

2.Logistic回归分析

3.生存回归分析

下面一一说明,后面有附图:

一、线性回归

因变量是连续数值型变量,不论自变量是哪种,都选择线性回归。

比如说像体重,可以取到40公斤,41公斤,42公斤,甚至还可以到44.14 ,41.2等等,像这种在坐标轴上任意位置可以取到数值,就被称作为连续数值型的变量。

我们的体重、年龄、生化指标等等,这样一些数值都是被称作为连续数值型的变量,就应该选择线性回归分析。

敲黑板:

如果自变量里面有无序分类变量的时候,在做线性回归的时候,一定要做正确的虚拟化处理,这个是关键。

线性回归分三类:

1.一元线性回归

因变量只有一个,自变量有一个,就是用一元线性回归。

2.多元线性回归

因变量只有一个,自变量有多个,就用多元线性回归。

注意多个自变量之间的共线性问题:

什么是共线性?

共线性,即同线性或同线型。统计学中,共线性即多重共线性。

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

就是某一个矩阵里面有两列变量重叠了,就会导致回归分析的结果出现很大的错误,spss软件里面普通的这个OLS(最小二乘估计)是失效的。

比如,自变量里面有一个alt和ast,如果自变量还有一个是alt和ast的比值,三个自变量里面有一个自变量完全是通过另外两个自变量计算出来的,这就存在极强的共线性。

还有一种共线性的情况,就像这个alt和ast是反映同一个内容的,那么这个alt和ast本身之间就可就可能存在一个比较强的共线性。

当这个共线性达到一定的严重程度的时候,那么我们在spss里面,用这个OLS算出的结果一定错误。有可能p值无穷大……等等,就是那种完全没法解释的情况。

用什么方法合适呢?有三种方法:

①岭回归,spss可以实现。

②主成分回归,spss可以实现。

③偏最小二乘法,可以用PLS实现。

3.路径分析

因变量有多个,就要用路径分析,用软件AMOS结构方程软件做分析。

例如:一个或者几个因素是否会影响患者的焦虑情况,这个抑郁情况,疼痛情况等。

原因有几个不管,只要造成的结果有多个,Spss软件是处理不了的,因为spss软件只允许选入一个因变量,所以因变量有多个的时候,需要改用MOD结构方程软件进行路径分析。

二、Logistic回归分析

1.二元Logistic回归分析

因变量是二分类变量,不管自变量是何类型,都属于此类回归分析。

例如,复发vs未复发,阴性vs阳性,生存vs死亡……

2.多元Logistic回归分析

因变量是无序多分类变量,什么是无序多分类呢?

简单来说,就是因变量大于等于三个,而且相互之间是没有顺序的。

比如,血型,职业等。

一般来说不要有五类以上,如果变量很多,做回归分析的时候,算出来的表格会有很多张,而且很繁琐。

版面很珍贵的期刊没有那么多版面,一般因变量都选择三类。

3.有序Logistic回归分析

因(结局)变量是有序的,无论自变量是连续还是分类,就要选择有序logistic回归。

例如:疾病的严重程度,轻中重;及格,良好,优秀……

敲黑板:

有序因变量有一个平行线检验平行性,看起来有序的变量没有通过检验的时候,不能选择有序logistic回归,就得选择多元logistic回归。

总结:首先判断因变量是有序的,选择有序logistic回归,如果后面的平行线检验没有通过,就改用无序logistic回归,也就是多元logistic回归。

三、COX生存回归分析

是二分类logistic回归的一个演化。

因为生存分析就是研究存活死亡,或者复发未复发,在二元logistic回归的基础上,纳入了一个时间数据。

比如,如果因变量是存活和死亡两类,那么应该选择二元logistic回归,但是数据里面除了有患者存活和死亡的状态之外,还记录了对于这个死亡患者的这个存活时间,这时就选择COX生存回归分析。

以上就是我对回归分析的框架学习,后续再深入研究每个知识点。

特别要注意的一点是,回归分析前要做单因素分析筛查:

在进行回归分析的时候,为了减少自变量之间的混杂干扰,不建议把多个自变量同时纳入到回归分析里面。

在纳入之前,首先要对自变量进行一个这个单因素的筛查,没有关系的就直接舍弃。

线性回归的单因素筛查方法和logistic回归的筛查方法,都是不一样的。

后期再研究。

你可能感兴趣的:(回归分析)