统计入门系统知识--线性回归分析

线性回归按变量数量的多少可分为:

•简单线性回归

•多重线性回归


简单线性回归,也就是有一个自变量,数学上表达为一元一次函数,其模型可以表示如下:

上述公式是基于样本得到的结果,b0和b1均为统计量,若该公式拓展到总体人群,则为


x:自变量

ŷ:y的预测值

b0 、β0:截距

b1、β1:变量回归系数

其中,关键的指标即为b1和β1,他们称之为回归系数,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

值得注意的是,这里x是真实的变量值x,而y带了一顶帽子,并非是y的真实值,而是成为y的预测值或者估计值。

实际上,世界上所有的x和y没有严格上一一对应的关系,通过x产生的预测值ŷ,是接近于y但不等于y。

y预测值与y直接的差值我们称之为残差。

残差反映了除了x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。

ϵ:我们对y的预测是不可能达到与真实值完全一样的,这个真实值只有上天知道,因此必然会产生误差,我们就用ϵ来表示这个无法预测的误差。我们通过引入了ϵ可以让模型达到完美状态,也就是理论的回归模型。

结合残差,真实的y和x关系如下:

同样的,多个自变量存在的情况下,多重线性回归模型的表示如下:

其中,bk、、βk:回归系数,在多重线性回归中,被称之为偏回归系数,表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似,反映的是x对y的影响力,是当x每改变一个观测单位时所引起y的改变量。

一个回归模型,必然有残差,成功的模型必然也有相应的变量来解释y的变异,但是残差可大可小。一般来说,建立回归模型时,总希望残差尽可能小残差越小,往往意味着更多的y的变异被解释掉了,预测模型更加真实,即Y预测值更接近于Y真实值。

这一“残差越小越好”的思维被运用回归分析中,便成为了回归建模的基本原则,最小二乘原则


直线回归分析的基本过程

首先,绘制散点图,了解线性关系

其次,计算a和b值,构建回归方程

第三,开展假设检验,分析回归系数的总体参数是否β≠0

β假设检验方法,可以采用t检验或方差分析,通常t检验


统计分析策略:能否采用回归分析,采用什么样的回归分析

(1)自变量x和应变量y理论上有没有因果关系:

回归分析必须要求两个变量必须有因果关系,才能探讨原因变量对结局变量单向影响关系以及影响程度。

(2)结局y的资料类型:结局变量类型,决定回归方法

  •定量资料:线性回归

  •分类资料:logistic回归

(3)x、y是否存在着线性关系:

回归模型是多元一次方程,x与y直接必须有线性趋势


案例分析


案例分析:胰岛素和血糖存在因果关系,定量资料

SPSS路径:Analyze→ regression → linear


结果解读:


R^2, 决定系数,反映回归方程模拟情况, R^2越大,说明模拟程度越高


P值<0.05,说明模型构建成功,有意义


①是回归系数b值

②是回归系数的抽样误差,即标准误

③Beta值,其实很多人不太理解,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度的。本例是单因素回归,无法比较,我们将在多因素回归进行进一步介绍。

④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。

⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。


本例结果显示,胰岛素对血糖的影响的存在着统计学差异(b=-0.415,P<0.001)。

回归方程:血糖=16.852-0.415×胰岛素


总结:

基本关联性分析方法

•t、F、卡方、秩和

•直线相关、秩相关

针对不同类型的变量开展相关分析,研究关系的有无及大小

高级关联性分析方法

•回归分析

基于函数的方法开展关联性分析,研究关系的有无及影响程度


1. 单因素回归分析与诸多基本统计学方法结果一致

基本统计学方法包括t、F、卡方、秩和、相关分析。他们都是在探讨相关性,简单线性回归,当只有一个自变量时,其结果与t检验、线性相关分析一致。


2. 单因素回归分析在观察性研究中,不足以探讨因果关系

观察性研究,简单线性回归分析虽然可以探讨原因变量对结局变量的影响及影响程度,但其结果仍无法说明自变量对因变量是否有真正的因果关系,因为观察性就变量的关系受到诸多干扰因素影响,如同t、F、相关分析,简单线性回归也是关联性的分析方法,但不是因果关联性的分析手段。合适的因果关联性分析方法,仍然要借助于多因素回归分析(多变量回归分析)。 


3. 线性回归分析要求的条件不少

本文提到了线性回归,要求变量之间应具有因果关系、定量数据、线性关系,数据不符合要求者,谨慎开展线性回归分析。除此之外,线性回归还要求正态性、独立性、方差齐性三个条件。



内容来自 医学数据分析公众号 郑卫军老师

你可能感兴趣的:(统计入门系统知识--线性回归分析)