回归分析基本假设

置信区间 置信区间是随机变量

置信水平:95%置信区间,从总体中对样本进行随机采样,计算参数的置信区间,那么100次这样的独立过程,有95%的概率计算出的区间包括真实参数值。

置信水平固定,样本量越多,置信区间越窄。

方差及标准差

衡量数据集中样本分布的离散程度

协方差 相关系数

衡量样本之间的相关性

回归分析的基本假设 LINE

  1. Linearity 线性

应变量和每个自变量都是线性关系。
若不满足,会导致很大的泛化误差
If patterns are not linear, it would be worthwhile to explore data transformations.

  1. Indpendence 独立性

对于所有的观测值,它们的误差项相互之间是独立的。
若不满足,即很强的自相关性;假设同一样本存在自相关性(序列相关性),测得的标准差往往会偏小,进而会导致置信区间变窄。

  1. Normality 正态性

误差项服从正态分布;
Most statistic tests rely on normal distribution assumption.
Univariate normality doesn't ensure multivariate normality, but it helps.

  1. Equal-variance 等方差

总体回归函数中的随机误差项具有相同的方差,即模型满足同方差性。
Just by ensuring normality in some variables, we solved the homoscedasticity problem.

  1. 自变量之间相互独立

若不满足,多重共线性(Multicollinearity),导致标准差偏大,置信区间变宽;可通过正则化方法消除(L1/L2 norm)。

你可能感兴趣的:(回归分析基本假设)