线性回归的总结

  总结

The assumptions  of the linear regression

[喵喵] XanY exit linear relationship(看散点图进行判断)

[喵喵]X is not random , or X is uncorrelated with the Error term(x和y的协方差为0)

[喵喵]the expected value of the Error term  is 0, the variance is constant ( homoskedastic, 否则会有异方差性)

[喵喵]the Error term is uncorrelated across observation (相互之间是独立的,不然会存在序列相关性)

[喵喵]the Error  term is normal  distribution

  多元的还要再加上不存在多重共线性

[二哈][二哈][二哈][二哈][二哈]

  measure of fit

R ^ 2和adjusted R ^ 2(多元)

R^ 2= explained sum of squares / total sum of squares ( 表示了自变量对因变量的解释力度)

(一元回归,还是相关系数Correlation  Coefficient )(R^ 2是Coefficient of Determination  )

the difference (相关系数衡量的是两个变量之间的关系,而R ^ 2不表示,且可以衡量多个变量)

[摊手]随着回归中的变量增加,R ^ 2会增加,并不是因为建立的关系有多符合( the problem is often referred to as Overestimateing the regression )

[摊手]异方差性(heteroskedasticity)

可以分成条件异方差(Error term 随自变量的变动而变动)和非条件异方差

条件异方差对回归有影响,而非条件异方差则无影响

影响  不影响b1(Coefficient estimates)

        影响T 检验中的标准误

        变大    更容易落尽拒绝域 更容易拒绝原假设(null hypothesis )

          变小    则相反

[摊手]serial Correlation (autocorrelation ) 序列相关性

  Error  term 之间相关

  经常被发现in time series data

正的 正大大大  负的  正小小

[摊手]multicollinearity多重共线性

两个或两个以上的independent  variable  are highly correlated With each  others

In practice , a matter of degree rather than of absence or presence

检验的方法

假设检验  T 检验拒绝原假设(存在因变量的系数为0)

        F检验

相关系数矩阵  任何两个因变量的相关系数absolute  value都>0.7

纠正的方法

去掉多余自变量

你可能感兴趣的:(线性回归的总结)