连续性变量与连续性变量之间,就有使用线性回归或者是相关
相关表示的是两个变量之间或者是多个变量之间相关关系的方向和强弱关系
如果我们想要知道两个变量或者多个变量之间具体的关系,那么我们就要使用回归。
处理一个连续性变量与一个连续性变量之间的关系的时候,可以采用简单线性回归。
如果是多个连续性变量则需要采用多重线性回归。
如果其中有一个变量是分类变量的话,那么我们则需要进行logistic回归。
如果这是二分类变量的话,那就是二元logistic回归
如果这个分类变量是多分类变量的话,那我们就要用多元logistic回归
logistic回归里面分为有序和无序的。如果是有序的分类变量,那么就要使用有序logistic回归,分类变量为无序的,则为无序logistic回归。
条件logistic回归,就是指配对之后的,要进行回归分析。
简单线性回归
就是自变量解释因变量变异的比例。自变量改变,一个单位因变量变化情况。根据新增自变量预测自变量的情况。
它的前提:杜宾检验,散点图,pp图,个案诊断
1.自变量与因变量都为连续变量
2.判断是否有线性关系,也就是一个是否会随着另一个变量的改变而改变。相互独立观测值。durbin越接近于2,有可能为独立。以及散点图
3.不存在显著异常值,个案判断当中会发现异常值为第几例,我们直接将他踢出就行,然后重新进行分析,我们也可以将异常值保留,我们需要做两套模型,这样的异常模型与不异常模型进行比较
第三种方法,也就是因变量进行数据转换。
4.之后我们要注意等方差性。也就是看散点图是不是均匀分布?
5.回归残差的正态性,p-p图的观察方法是越贴近对角线越符合正态分布。
结果
模型摘要中的啊,只有一个自变量,代表着两者相关程度。我们这个时候可以看皮尔逊系数,r方的话就是自变量,对因变量变异的一个解释程度越接近越好,调整后r方。会变得更加准确,更加标准。
方差检验P大于0.05即不存在息息相关,没有统计学意义。
如果是系数P大于0.05就没有统计学意义
常量就是截距就是自变量,等于零的时候因变量取值,p要小于0.05,才有意义。
常量下的指标为方程的斜率的,取值范围在95%的置信区间内。
因此,我们可以构建简单线性回归方程Y,等于y=ax+b+误差模型构建好后,在操作栏保存,将模型信息导出到XML文件中,然后准备好要预测的数据集,实用程序,评分向导即可完成预测,也就是模型的应用。
多重线性回归
多重线性回归是探索对因变量有影响的因素,控制混杂因素,评价多个因变量评价多个自变量,对因变量的影响可以用。这边要去推导因变量它的前提是因变量与自变量简笔消费线性关系。
前提
自变量与因变量之间线性关系,因变量为连续性,变量自变量也为连续性变量,或者是分类变量。但不能存在多重共线性
残差,要服从正态方差齐性,相互独立
样本量必须为自变量的20倍以上。
加上共线性诊断
结果上
首先要看个自变量与因变量的散点图验,证线性关系
模型摘要上要看杜宾检验,如果趋向于零或者四则为残差不独立,
PP图可以查看,正态分布。
方差齐性的散点图要看波动范围趋于稳定。系数上,如果容差小于0.2,或者容忍度大于十,那么则有共线性问题。相关性,那个地方可以皮尔逊,如果大于0.7,就是共线。
多重共线性问题的解决方法是使用岭回归逐步回归或者是主成分回归,也就是运用主成分分析法所做的回归。
模型摘要r方为X与Y的相关程度,它的值越大,则相关程度越高。校正后的r方也是越大越好,越接近一,也就是说,模型的拟合效果越好
方差检验小于0.01即可,即认为该模型有统计学意义,
系数K值小于0.05可纳入模型。beta可以比较不同自变量对因变量的作用大小,所以最后可以构建出方程。
y=a1x1+a2x2+……+anxn+误差
可以根据系数表来手动构建方程,也可以直接保存导出为模型信息
总结:
一般线性回归
进行散点图的描述,判断有无线性关系?统计处选择个案诊断和德宾沃森图形社指出,我们要选择直方图,正态概率图,x轴是z pred,dy轴是zresid,保存处为标准化预测,区间单值。
结果
输入处和除去的变量处,我们可以看到我们书中的哪些变量运用了什么样的方法进行输入。
模型摘要处,我们要看调整后的r方,它可以告诉我们自变量可以在多大程度上去预测因变量的变化,沃森的数值在1.8到2.2之间,则说明符合线性回归独立性的条件方差,检验处小于0.05就证明统计模型有意义
系数处意思就是x就是自变量每改变一个单位,因变量的平均改变量也随之改变多少个单位,这个数值为未标准化系数b的数值
标准化残差直方图以及pp图,我们可以看到他是否符合正态分布。贴合标准线就行
回归标准化残差与标准化预测值的散点图,如果数值点基本全部都在正负三个标准差之内,则说明总体效果好无异常点,如果数据点并没有在零上下对称分布,则说明等方差性可能不太满足
个案诊断可以帮我们发现有异常的个案,我们可以将它删去之后再重新进行回归就可以得到更加精确,更加科学的结果
多重线性回归
就是自变量变为了很多个需要使用。统计出需要点击估算值模型,拟合共线性诊断,德宾沃森个案诊断等等其他设置与之前的一样,结果解读处我们会发现异常的个案号,那么我们需要将它进行剔除,但如果分析后发现异常值很多,那并不建议无限删减下去,否则模型失真无法应用。简单回归中,r方大于0.5叫好0.8非常好。多重回归大于零点三,尚可,大于零点五良好大于零点六,非常好,但在实验性研究当中大于零点八,才有应用的的价值,然后查看dw检验,以及方差分析,系数,然后来构建我们的模型
多重线性回归,如果发现共线性比较严重的话(容差接近0,vif大于10),参数选择处加上共线性诊断。那么我们可以试一下,逐步回归法,如果逐步不行的话,那么我们就采取主成分分析法,也就是试一下主成分回归
总之
线性回归应该满足线性,独立性,正态性和方差性,当构建模型用于解释而非预测的时候,正态性和方差性不是很严格线性,可以通过散点图识别独立性,通过dw不留检验识别正太,请通过残差直方图与pp图识别等发x性,可以通过resid和pres ID三点图来进行识别预测模型,为了更好的预测效果,往往会要求解释性很高,此时常采用逐步回归法。
样本量通常要求很大才会得到更加精确的数据
二元logistic回归
因变量为二分类变量,自变量是任何形式的资料
先做单因素分析,检验水准α<0.1即为有意义(防止有意义的因素被错杀了),然后筛选出有意义的单因素。然后进行多因素的分析(方程中的变量)
哑变量分类处选入就行了
概率和组成员以及exp(B)需要选入
结果:
分类变量编码----O型眼处参数编码123都为0就是参照的
omnibus检验,p<0.05,说明模型有意义
-2对数似然比越接近0越好,后面俩越大越好,最大为1.
分类表总体百分比反应预测的准确性
方程中的变量B列的数值就是方程各项的系数
OR值exp(B)是增加一个级别(以最大或者是最小为基准)或者是一个单位后发生的影响,95%可信区间为可能的倍数关系。
哑变量:无序多分类变量需要使用,尤其是变量的类别间没有差别。哑变量个数等于类别数-1。
同进同出原则:如果其中一个类别有意义,那么全部的哑变量都需要进入模型中
多元logistic回归(有序)
因变量为多分类变量。多分类变量间有两种顺序,有序和无序
考虑因素间的相互作用,只考虑主效应选择主效应模型。考虑因子间的交互作用就是全因子模型。因素较多,选择逐步回归就是定制步进法。
有序logistic回归的前提是要进行平行线检验。如果不是平行性检验就不能进行有序回归
协变量框需要放入连续性计量资料、二分类、等级资料。
因子框需要放入无序多分类
输出勾选平行性检验。拟合优度,摘要,参数
结果:
-2对数似然比越小越好,越说明模型拟合效果好。
模型卡方检验p<0.05,说明最终模型是一个有效的模型
平行性检验要求大于0.05
无序需要哑变量
多项logistic回归(无序)
模型类似上面设置
统计--个案摘要/伪r方/步骤/模型拟合/估算值/似然比检验
结果:
模型拟合信息的似然比检验--p要小于0.05,模型有统计学意义
单独的似然比检验可以知道哪个变量有意义,丢不丢弃最后看计算看看
伪r方越接近1模型预测效果越好
参数估算数值的b列可以得到方程,注意看显著性和exp(b)也就是or值
条件logistic回归
目的:控制潜在混杂因素的干扰,提高优势比的估计精度。
前提:对它进行配组
分析--生存分析---COX回归
虚拟时间放入时间框,状态进行定义,结局状态进行定义,协变量看看。选项为exp(b)
结果:
方程中的变量看显著性和exp(b)
logostic回归经验总结
2. 线性回归我们更注重回归方程,得到变量间的数量依存关系,Logistic回归我们更关注发现风险因素,根据OR值判别。
3. 目前,Logistic回归建模理论上也是先单因素,在发现有意义变量的基础上,再进行多因素分析。同时当研究的自变量个数不是很多时,可以将多个自变量直接放入模型进行检验,无须进行单变量检验筛选这一步。
4. 几种可能的情况
(1)单因素分析有意义,可是多因素分析没意义了,这叫“单有多无”,单因素有意义并不能代表该因素与Y肯定有意义,很可能该因素在别的因素作用下,才与Y有关系的。
(2)单无多有,即单因素分析无意义,可是多因素分析时,该因素却有意义了所以统计分析还是多因素分析的结果更为可信。
5. 当我们进行多个影响因素筛选时的方法如上,可是有时我们就想知道某因素A对结局Y的影响大小,此时建模时,A必须进入模型,其他因素进入模型的依据很多时候不再是P<0.05,而是当因素B进入与不进入模型,如果因素A的系数变化大于10%,则此因素B必须进入模型进行控制,这也是近年SCI高分论文的常见做法。6. 条件Logistic回归用于探索危险因素的效率较高,但不适合进行发病预测,因为匹配后的数据,已经不是来自现场的真实数据。
9. 同级对等原则:这是松哥经验,在建立回归模型时,如果Y为计量资料,此时X为计量资料分析的效果会比较好,当然当Y为计量,X可以为任何形式;当Y为等级资料,此时X为等级效果或分类会较好;当Y为二分类,此时X为等级或分类效果较好。很多国外的文章,当Y为二分类时,虽然X实际为计量,研究者会让其以计量形式、等级形式进入模型进行分析,然后讨论结果;当Y为二分类时,虽然X实际为等级,研究者会让其以等级形式和分类的形式进入模型进行分析,然后讨论结果。大家细细体会其中的意味吧!
非线性关系
因变量与自变量之间的相互关系可以用线性方程来近似的反应。但是,在现实生活中,非线性关系大量存在。线性回归模型要求变量之间必须是线性关系,曲线估 计只能处理能够通过变量变换化为线性关系的非线性问题,因此这些 方法都有一定的局限性。相反的,非线性回归可以估计因变量和自变 量之间具有任意关系的模型,用户根据自身需要可随意设定估计方程的具体形式。
分析--回归--非线性
曲线回归
无法实现线性化的资料
SPSS实现曲线回归_sayasora的博客-CSDN博客_spss曲线回归
对于可以通过变量变换实现线性化的资料,回归的步骤如下: