1.来历
Francis.Galton,研究父母身高/儿女身高时,发现子辈身高趋向于全体人口的平均身高.该现象由其朋友Karl.Pearson证实.
2.涵义
研究因变量对自变量的依赖关系,试图通过自变量的确定来估计或预测因变量的均值.
3.回归与因果
因变量与自变量的依赖关系,并不一定意味着因果关系,从逻辑上讲,统计关系式本身不可能意味这任何因果关系.
4.回归与相关
相关是衡量变量间的线性关联度,回归关注的是估计或预测因变量.且回归中,通常假设因变量是随机的,自变量是固定或非随机的;而相关分析总变量间是对称的,不加区别的,都看作随机的.
5.线性的涵义
a.对变量为线性,普通线性关系,总体回归曲线为线性的.
b.对参数为线性,这样就延伸了线性的涵义,”线性”回归是指对参数beta为线性的一种回归.
6.经典线性回归模型最小二乘法的基本假定
a.线性回归模型,对参数而言.
b.在重复抽样中自变量X值是固定的.
c.干扰项的条件均值为0,方差相等,无自相关
e.干扰项与自变量的协方差为0.
f.观测次数n必须大于待估计的参数个数.
g.自变量X值要有变异性,不能完全相同.
h.正确地设定回归模型,没有设定偏误
i.没有完全的多重共线性,即自变量之间没有完全的线性关系
SAS 软件实践;
data class; set sashelp.class; run; *回归模型; proc reg data=class; model weight = height; title 'weight-height regression'; run; *最小二乘法估计的协方差矩阵; proc reg data=class; model weight = height/covb; * 协方差选项; title 'regression with covariance options'; run; /* 输出残差 */ proc reg data=class; model weight = height / r; * 残差选项; output out=weightout r=ehat; * 数据命名; title 'regression with residual option'; run; /* 检验残差正态性*/ proc univariate data=weightout; var ehat; histogram/normal; run; /* 模型预测 */ proc reg data=class; model weight=height / p; *预测选项; title 'regression with predict option'; output out=weightpred p=yhat; *输出预测数据; run; /* proc reg统计图 */ proc reg data=class; model weight = height; plot residual.*height; plot yhat*height; plot weight*height; title 'regression with plot options'; run; quit;