因变量 方差膨胀系数_如何理解方差膨胀因子(Variance Inflation Factor,VIF)?

OLS方差膨胀因子的标准定义为:

其中,

为第i个变量

与其他全部变量

(

)的复相关系数,所谓复相关系数即可决系数

的算术平方根,也即拟合优度的算术平方根。不过这个可决系数

是指用

做因变量,对其他全部

(

)做一个新的回归以后得到的可决系数。

当然这些都是网上随便搜就有的结果,本不值得我重新再写一边。但是经过本人推导,方差膨胀因子确实跟皮尔逊相关系数(矩阵)有关系。

首先什么是皮尔逊相关系数矩阵?

大家对这个东西估计是不陌生,这本身就是一个矩阵,不过这是下三角矩阵。把下三角矩阵填满,形成一个对称矩阵,就是一个皮尔逊相关系数矩阵,

本人发现第i个变量的方差膨胀因子正好为

不用说,就是对这个相关系数矩阵求行列式。

则指的是将相关系数矩阵

的第i行i列去掉,剩下的部分计算行列式。如果大学线代课没全忘的话,这个东西就是余子式。

有人觉得神奇么?(PS:这个结果应该有大把人已经推导过,只是我暂时还没看见而已hhh)

=======================证明============================

求证 :

既然有评论问起来我就补充一下证明。

证明:

--------------------------------(1) 最小二乘解与相关系数矩阵的关系----------------------

其中向量

,且

列满秩(列不满秩那就是完全共线性,无穷多个最小二乘解),那么

那么逆矩阵(自行用线性变换算一下就有了)就是

是观测变量的个数。

是自变量观测值

对应的方差-协方差矩阵。

是自变量观测值

对应的标准差对角矩阵,即

只取对角元素的算术平方根形成的子矩阵。

则是

对应的相关系数矩阵。

则易由定义得

此时

同理,

是自变量观测值

分别与因变量观测值

对应的协方差向量,

是相关系数向量,

是因变量观测值

对应的标准差。

所以

-----------------------------------------残差平方和与相关系数矩阵-------------------------

残差平方和

又根据一阶条件

联立得(先用第一个一阶条件把其余两两式

消掉,再联立消去

)得残差平方和(RSS或SSE)

把上一小节代进去就得

又总平方和

所以代入得

拟合优度=复相关系数的平方=回归平方和/总平方和

---------------------------------------证明的最后一步--------------------------------------

绕完上面的口令以后,我们构造一个矩阵

能看出来吗?这也是个相关系数矩阵,即y , x1 , x2 , x3,... ,xn对应的相关系数矩阵

然后对

求行列式。分块矩阵怎么求行列式呢?分块矩阵行列式的性质及其应用 - 图文 - 百度文库​wenku.baidu.com

神奇的事情来了,按链接介绍的行列式计算法则:

所以

所以

!!!!!!!!!!答案呼之欲出!!!!!!!!!!!!!!!

----------------------------------------方差膨胀因子----------------------------------------

你看,

不正是

划掉第一行第一列的子矩阵,即

不就是Q的第1,1 个余子式了吗!

所以同理推得:

为第i个变量

与其他全部变量

(

)做OLS的拟合优度啊!!

你可能感兴趣的:(因变量,方差膨胀系数)