(注:上一篇读书笔记对应翻译到原文的章节2.5。笔者自己翻阅了一下2.6~2.9节的内容,觉得有点絮叨,而且翻译起来也不够直白清爽,所以打算跳过了。这一篇从原书第三章开始,阐述线性模型。笔者自己看完原书对应的内容觉得对最小二乘有更深的认识了,希望看到这篇文章的别人也如此。)
线性模型一般假设回归模型 E(Y|X) E ( Y | X ) 是输入 X1,...,Xp X 1 , . . . , X p 的线性函数。线性模型在电脑诞生之前就已经存在了。他们非常简单,而且解释起输入与输出的关系也比较明了,有时它们的表现甚至会比一些非线性模型更好。这一章主要讲解用于回归的线性模型。大家会发现,很多非线性模型都是线性模型的适当延伸。
像之前讨论过的,假设我们有一个输入向量 XT=(X1,X2,...,Xp) X T = ( X 1 , X 2 , . . . , X p ) ,然后想要预测一个实数输出 Y Y 。线性模型一般具有如下的形式:
当我们用线性模型解决问题的时候,我们一般潜意识有这么两种可能的假设:要么假设回归函数 E(Y|X) E ( Y | X ) 是线性的,要么假设线性模型是对我们问题一个较好的近似。 βj β j 在这里属于未知参数,输入 Xj X j 则可以来源于很多地方,比如:
但始终不变的一点是:模型对于任何一个输入值都是线性的。
一般,当我们有一组训练数据来寻找合适的 β β 之后,我们需要有一个估计方法来衡量好坏。这里又要讲到最小二乘法了。令 β=(β0,β1,...,βp)T β = ( β 0 , β 1 , . . . , β p ) T ,那么最小二乘的残差平方和可以写成:
从统计学角度而言,如果我们的训练数据 (xi,yi) ( x i , y i ) 是从样本空间中独立、随机抽取的,那么采用 RSS R S S 作为标准是相对合理的。就算 xi x i 不是随机抽取的,只要 yi y i 条件独立于 xi x i ,这一标准仍旧是可行的。
上图展示的是三维空间(两个输入维+一个输出维)中最小二乘法的几何表达(注:原书图3.1)。需要注意的是,上面的数学公式并不保证我们模型一定合理,它只是根据残差平方和找到最佳的线性拟合结果。最小二乘法直观上是很令人信服的,它直接衡量了平均意义上的拟合偏差。
数学上我们可对上面的式子这么改写:
其中 y=(yi,...,yN) y = ( y i , . . . , y N ) 是一个列向量, X X 是一个 N×(p+1) N × ( p + 1 ) 的矩阵。注意到我们的未知参数总共有 p+1 p + 1 个(注:多出来的1是截距项)。接下来,我们进行微分:
假设 X X 为列满秩,则 XTX X T X 是正定的,我们将一阶微分结果设为0(求极点):
因此,我们在做预测的时候会有:
我们专门记一个新矩阵 H=X(XX)−1XT H = X ( X X ) − 1 X T 为帽子矩阵(hat matrix),因为它在 y y 头上带了个尖角一样的帽子,表明是我们的预测值。
接下来我们在 RN R N 空间里讨论一种新的最小二乘的几何解释。我们将 X X 的列向量表示为 X0,X1,...,Xp X 0 , X 1 , . . . , X p ,其中 X0≡1 X 0 ≡ 1 。(注:因为这是常数项)。这些向量张成了 RN R N 的一个子空间(注:元素0在空间中,且空间满足加法、乘法准则,则为子空间;至于为何这些向量能够张成一个子空间,需要考虑到 X X 列满秩,各个向量线性不相关)。我们最小化的目标是 RSS(β)=||y−Xβ||2 R S S ( β ) = | | y − X β | | 2 ,而我们的做法是通过选择 β^ β ^ ,使得残差矢量 y−y^ y − y ^ 正交于这个列向量张成的子空间。(注:正交性在我们将一阶微分结果设为0的时候,也就是往上数第三个公式,得到了体现),因此我们得到的预测结果 y^ y ^ 就是 y y 正交投影到这个子空间上的结果。 H H 矩阵负责将 y y 投射到 y^ y ^ ,所以也被称作该子空间的投影矩阵。(注:下图为原书图3.2)
我们需要考虑到,有时候 X X 的列向量线性不独立,则 X X 没有达到列满秩的条件。(注:具体如何不独立,可以随意设想一个列向量是另一个列向量的倍数,则高斯消元法可以使其中一个列向量全部为0)。这种情况下, XTX X T X 为奇异矩阵, β^ β ^ 也不是一个唯一值。但是 y^=Xβ^ y ^ = X β ^ 仍旧是成立的投影关系,只不过我们有不止一种方法来解释这种投影关系。列不满秩的情况大多发生在当大量定性输入值通过冗余方式编码的时候(比如第一篇提到过的虚拟变量),也可能发生在信号、图像处理中。大多数商业软件能够通过重编码、丢弃冗余列、滤波等方式来修正 X X 。
(注:下面的一些讨论可能在实际应用中不会出现,可以跳过。笔者自己其实也没怎么看懂,能力有限 = =)
到目前为止,我们尚未对数据的真实概率分布有过讨论。为了讨论 β^ β ^ 的性质,我们现在让所有的 yi y i 都互不相关,并拥有方差 σ2 σ 2 。(注:观测到的 yi y i 来自于某一概率分布),而所有的 xi x i 都是固定值。根据我们对 β^ β ^ 的推导,我们可以得到 β^ β ^ 的方差情况(注: Var(cX)=c2X V a r ( c X ) = c 2 X ):
从可以观测到的数据中我们对 σ2 σ 2 做的无偏估计(注:用 N−p−1 N − p − 1 使得 E(σ^2)=σ2 E ( σ ^ 2 ) = σ 2 )为:
我们需要一点额外的假设来讨论模型和参数。如果我们现在知道我们采用线性模型来预测数据是正确的,换句话说, Y Y 的条件数学期望关于 X1,...,Xp X 1 , . . . , X p 就是线性的,并且在写成等式的时候要加上一个高斯噪声项:
这下,我们有了 β^ β ^ 的一个分布情况:
这是一个多变量高斯分布函数。同时:
(注:笔者想了一会儿没想透这个卡方分布怎么的出来的,欢迎指点)
此外, β^ β ^ 与 σ^2 σ ^ 2 统计意义上独立。这样,我们可以对参数 βj β j 进行各种假设检验,探求置信区间。
为了检验“某一个特定系数 βj=0 β j = 0 ”这一假设,我们先生成 Z−score Z − s c o r e 标准值:
其中, vj v j 是矩阵 (XTX)−1 ( X T X ) − 1 的第j个对角元素。在零假设 βj=0 β j = 0 的前提下, zj z j 是一个自由度为 N−P−1 N − P − 1 的 t t 分布,所以 zj z j 的值过大会导致我们拒绝零假设。如果式子里面的 σ^ σ ^ 被一个已知值 σ σ 给替换了,那么 zj z j 就是一个标准正态分布。 t t 分布和正态分布的尾端分位点形状随着样本数量的增加而没有太大的区别,所以用谁都无所谓。
(注:这之后又稍微跳过了一部分关于 F F 检验的内容。)