线性回归中的前提假设

在谈线性回归模型的时候被问到,在线性回归中,有三个假设,是哪三个?
当时回答出来自变量x和因变量y之间是线性变化关系,也就是说,如果x进行线性变化的话,y也会有相应的线性变化。
提到数据样本的时候也答道了样本点之间要求是独立同分布的(根据MLE准则,假定对样本加上高斯白噪声e的情况下)。
但是第三个最终还是没有答上来,面试官也没有再给提示,所以回来自己再查一下。
LR的wiki页面(http://en.wikipedia.org/wiki/Linear_regression)中,有提到了LR的假设,分别是:


Weak exogeneity:弱外生性。看意思是说假设用来预测的自变量x是没有测量误差的。这一假设当然是不现实的,不过如果没有这个假设的话,模型的复杂度会大大增加。
Linearity:线性。就是因变量y是多个自变量x之间的线性组合。
Constant variance (aka homoscedasticity):同方差性。意思是说不同的因变量x的方差都是相同的。
Independence of errors:误差独立性。即是变量之间是独立的(有些方法可以处理变量之间不独立的情况,如generalized least squares等)。
Lack of multicollinearity in the predictors:预测变量之中没有多重共线性。多重共线性意思是说,This can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies or by transforming one of the copies linearly). It can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其后果是:In the case of multicollinearity, the parameter vector β will be non-identifiable—it has no unique solution. 我的理解是说,没有特征之间的交叉或者多次重复某些互相相关的特征。其实感觉,如果有特征交叉或多次重复相关特征的话,应该就是非线性模型了。当时上课的时候李老师在如何用线性回归模型来描述非线性特征中提到了,就是使用特征交叉、对同一个feature分区间改变权重(区间之间也可以交叉)一类的方法。如果这样导致特征过多、计算量大,而想要降低维度的话,可以使用聚类来把相似特征聚到一起,或者使用L1范数来进行特征选择。


感觉这几个假设中,我提到了线性假设(线性假设应该也算是包含了没有多重共线性吧,个人猜测),独立同分布假设中应该算是包含了同方差性、误差独立性。所以,可能没提到的那个指的是弱外生性,也就是假设样本点的取得是没有测量误差的,这一个假设一般现实中都不满足,但是都会假设满足来降低模型复杂度。

你可能感兴趣的:(线性回归中的前提假设)