简单线性回归形式: Y = β 0 + β 1 X 1 Y=\beta_0+\beta_1X_1 Y=β0+β1X1
残差: e i = y i − y ^ i e_{i}=y_{i}-\hat{y}_{i} ei=yi−y^i
残差平方和(residual sum of squares RSS) R S S = ∑ i = 1 n e i 2 RSS=\sum_{i=1}^{n}e_i^2 RSS=∑i=1nei2 用最小二乘法近似 β ^ 0 \hat\beta_0 β^0 和 β ^ 1 \hat\beta_1 β^1 来降低 RSS,得出极小值点
β ^ 1 = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} β^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ) β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x} β^0=yˉ−β^1xˉ
Y Y Y 与 X X X 的线性关系写成 Y = β 0 + β 1 X + ϵ Y = \beta_0 +\beta_1X+\epsilon Y=β0+β1X+ϵ
无偏估计量不会系统的高估或低估真实参数。无偏估计量依赖于数据集,在特定数据集上会高估,通过大量数据集估计后再平均会更加精确
线性回归通常使用两个量来评估模型:残差标准差(residual standard error,RSE)和 R 2 R^2 R2 统计量
残差标准差
RSE是对 ϵ \epsilon ϵ 标准差的估计。粗略说,是响应变量偏离真实回归线的平均值
R S E = 1 n − 2 R S S = 1 n − 2 ∑ i = 1 n ( y i − y ^ i ) 2 \mathrm{RSE}=\sqrt{\frac{1}{n-2} \mathrm{RSS}}=\sqrt{\frac{1}{n-2} \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}} RSE=n−21RSS=n−21∑i=1n(yi−y^i)2
R S S = ∑ i = 1 n ( y i − y i ^ ) 2 RSS=\sum_{i=1}^n(y_i-\hat{y_i})^2 RSS=∑i=1n(yi−yi^)2
R 2 R^2 R2 统计量
R 2 = T S S − R S S T S S = 1 − R S S T S S R^2=\frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS} R2=TSSTSS−RSS=1−TSSRSS T S S = ∑ ( y i − y ˉ ) 2 TSS=\sum(y_i-\bar{y})^2 TSS=∑(yi−yˉ)2
多元线性回归形式: Y = β 0 + β 2 X 1 + . . . . + β p X P + ϵ Y=\beta_0+\beta_2X_1+....+\beta_pX_P+\epsilon Y=β0+β2X1+....+βpXP+ϵ
预测变量和响应变量之间有关系吗?
使用假设检验来验证这个问题, H 0 : β 1 = β 2 = . . . = β p = 0 H_0:\beta_1=\beta_2=...=\beta_p=0 H0:β1=β2=...=βp=0
H α : ∃ β j ≠ 0 H_\alpha:{\exists}\space\beta_j\neq0 Hα:∃ βj=0 通过计算 F − s t a t i s t i c F-statistic F−statistic 来论证
F = T S S − R S S ) / P R S S / ( N − P − 1 ) F=\frac{TSS-RSS)/P}{RSS/(N-P-1)} F=RSS/(N−P−1)TSS−RSS)/P T S S = ∑ ( y i − y ˉ ) 2 TSS=\sum(y_i-\bar{y})^2 TSS=∑(yi−yˉ)2 R S S = ∑ i = 1 n ( y i − y i ^ ) 2 RSS=\sum_{i=1}^n(y_i-\hat{y_i})^2 RSS=∑i=1n(yi−yi^)2
如果线性假设是正确的,则 E { RSS / ( n − p − 1 ) } = σ 2 E\{\operatorname{RSS} /(n-p-1)\}=\sigma^{2} E{RSS/(n−p−1)}=σ2
如果假设 H 0 H_0 H0 是正确的,则
因此当响应变量与预测变量之间不存在关联时,我们预计 F 统计量的取值接近于1,如果 H α H_\alpha Hα 为真,则预计 F 大于1
当 F 统计量已经接近1,那么拒绝 H 0 H_0 H0 需要多大的 F ?这取决于 n 和 p 的取值
对任意给定的 n 和 p 可以计算 p 值(p - value)从而判断是否拒绝 H 0 H_0 H0
确定重要变量
如果p > n,则不能使用后向选择,而总是可以使用前向选择。前向选择是一种贪婪的方法,并且可能包含早期的变量,后来变得冗余。混合选择可以弥补这一点。
模型拟合
预测
预测有三种不确定性
只有两个水平的预测变量
创建虚拟变量 (在机器学习中称为 独热编码)
x i = { 1 if i th person owns a house 0 if i th person does not own a house x_{i}=\left\{\begin{array}{ll}1 & \text { if } i \text { th person owns a house } \\0 & \text { if } i \text { th person does not own a house }\end{array}\right. xi={10 if i th person owns a house if i th person does not own a house
在回归方程中使用该变量作为预测因子
y i = β 0 + β 1 x i + ϵ i = { β 0 + β 1 + ϵ i if i th person owns a house β 0 + ϵ i if i th person does not. y_{i}=\beta_{0}+\beta_{1} x_{i}+\epsilon_{i}=\left\{\begin{array}{ll}\beta_{0}+\beta_{1}+\epsilon_{i} & \text { if } i \text { th person owns a house } \\\beta_{0}+\epsilon_{i} & \text { if } i \text { th person does not. }\end{array}\right. yi=β0+β1xi+ϵi={β0+β1+ϵiβ0+ϵi if i th person owns a house if i th person does not.
β 0 \beta_0 β0 解释为不拥有信用卡的人之间的平均信用卡余额
或者使用别的虚拟变量代替 0/1 编码方案
x i = { 1 if i th person owns a house − 1 if i th person does not own a house x_{i}=\left\{\begin{array}{ll}1 & \text { if } i \text { th person owns a house } \\-1 & \text { if } i \text { th person does not own a house }\end{array}\right. xi={1−1 if i th person owns a house if i th person does not own a house
则对应该回归方程为
y i = β 0 + β 1 x i + ϵ i = { β 0 + β 1 + ϵ i if i th person owns a house β 0 − β 1 + ϵ i if i th person does not. y_{i}=\beta_{0}+\beta_{1} x_{i}+\epsilon_{i}=\left\{\begin{array}{ll}\beta_{0}+\beta_{1}+\epsilon_{i} & \text { if } i \text { th person owns a house } \\\beta_{0}-\beta_{1}+\epsilon_{i} & \text { if } i \text { th person does not. }\end{array}\right. yi=β0+β1xi+ϵi={β0+β1+ϵiβ0−β1+ϵi if i th person owns a house if i th person does not.
β 0 \beta_0 β0 解释为总体平均信用卡余额(忽略住房影响)
值得注意的是,无论使用何种编码方案,所有者和非所有者的信用余额的最终预测都将是相同的,唯一的区别在于系数的解释方式。
超过两个水平的定性预测变量
创建额外虚拟变量(例:对地区创建虚拟变量)
x i 1 = { 1 if i th person is from the South 0 if i th person is not from the South x_{i 1}=\left\{\begin{array}{ll}1 & \text { if } i \text { th person is from the South } \\0 & \text { if } i \text { th person is not from the South }\end{array}\right. xi1={10 if i th person is from the South if i th person is not from the South
x i 2 = { 1 if i th person is from the West 0 if i th person is not from the West x_{i 2}=\left\{\begin{array}{ll}1 & \text { if } i \text { th person is from the West } \\0 & \text { if } i \text { th person is not from the West }\end{array}\right. xi2={10 if i th person is from the West if i th person is not from the West
建立线性回归方程
y i = β 0 + β 1 x i 1 + β 2 x i 2 + ϵ i = { β 0 + β 1 + ϵ i if i th person is from the South β 0 + β 2 + ϵ i if i th person is from the West β 0 + ϵ i if i th person is from the East. y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\epsilon_{i}=\left\{\begin{array}{ll}\beta_{0}+\beta_{1}+\epsilon_{i} & \text { if } i \text { th person is from the South } \\\beta_{0}+\beta_{2}+\epsilon_{i} & \text { if } i \text { th person is from the West } \\\beta_{0}+\epsilon_{i} & \text { if } i \text { th person is from the East. }\end{array}\right. yi=β0+β1xi1+β2xi2+ϵi=⎩ ⎨ ⎧β0+β1+ϵiβ0+β2+ϵiβ0+ϵi if i th person is from the South if i th person is from the West if i th person is from the East.
线性模型做出了几个高度限制性的假设,其中最重要的两个假设是预测变量和响应变量之间的关系是可加的和线性的。
可加性假设意味着一个预测变量 X j X_j Xj 和响应变量 Y Y Y 之间的相关性不依赖于其他预测变量的值
线性假设指出,与 X j X_j Xj 的一个单位变化相关的响应 Y Y Y 的变化是恒定的,不管 X j X_j Xj 的值如何
移除可加性假设
扩展模型的一种方法是包含第三个预测因子,称为交互项,它是通过计算 X 1 X_1 X1 和 X 2 X_2 X2 的乘积构造的
Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + ϵ Y=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+\beta_{3} X_{1} X_{2}+\epsilon Y=β0+β1X1+β2X2+β3X1X2+ϵ
交互项如何减轻可加性假设?
Y = β 0 + ( β 1 + β 3 X 2 ) X 1 + β 2 X 2 + ϵ = β 0 + β ~ 1 X 1 + β 2 X 2 + ϵ \begin{aligned}Y & =\beta_{0}+\left(\beta_{1}+\beta_{3} X_{2}\right) X_{1}+\beta_{2} X_{2}+\epsilon \\& =\beta_{0}+\tilde{\beta}_{1} X_{1}+\beta_{2} X_{2}+\epsilon\end{aligned} Y=β0+(β1+β3X2)X1+β2X2+ϵ=β0+β~1X1+β2X2+ϵ
β 1 ~ = β 1 + β 3 X 2 \tilde{\beta_1}=\beta_1+\beta_3X_2 β1~=β1+β3X2 ,因此 β 1 ~ \tilde{\beta_1} β1~ 是 X 2 X_2 X2 的函数。 X 1 X_1 X1 和 Y Y Y 之间的关联不再是恒定的, X 2 X_2 X2 值的变化会改变 X 1 X_1 X1 和 Y Y Y 之间的关联
如果 X 1 X_1 X1 和 X 2 X_2 X2 之间的相互作用看起来很重要,那么即使 X 1 X_1 X1 和 X 2 X_2 X2 的系数估计值具有较大的 p 值,我们也应该将它们都包括在模型中。因为,如果 X 1 × X 2 X_1 × X_2 X1×X2 与响应变量有关,那么 X 1 X_1 X1 或 X 2 X_2 X2 的系数是否恰好为零就没有什么意义了。
非线性关系
例如假设关系为: Y = β 0 + β 1 × X 1 + β 2 × X 2 2 + ϵ Y=\beta_0+\beta_1\times X_1+\beta_2\times {X_2}^2+\epsilon Y=β0+β1×X1+β2×X22+ϵia
数据的非线性
利用残差图识别非线性
给定一个简单线性回归模型,将残差 e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yi−yi^ 与预测变量 x i x_i xi 作图。理想情况下,残差图将显示无可辨别的模式。 模式的存在可能表明线性模型的某些方面存在问题
左图 U 型图指示了数据中强烈的非线性,右图无明显的模式
误差项的相关性
线性回归模型的一个重要假设是误差项不相关
如果误差项之间具有相关性:
则估计值的标准误差将低于真实标准误差,会导致置信区间与预测区间会比应有范围更窄
与模型相关的 p 值会低于他们应有的值,这可能导致我们错误地认为某个参数具有统计显著性
假设我们不小心把我们的数据加倍,导致观测值和误差项两两相同。如果我们忽略这一点,我们的标准误差计算就好像我们有一个大小为 2 n 2n 2n 的样本,而实际上我们只有 n n n 个样本。我们对 2 n 2n 2n 个样本的估计参数与对 n n n 个样本的估计参数相同,但置信区间缩小了 2 \sqrt2 2
误差项的非恒定方差
线性回归模型的另一个重要假设是 误差项具有恒定的方差 V a r ( ϵ i ) = σ 2 Var(\epsilon_i)=\sigma^2 Var(ϵi)=σ2 与线性模型相关的标准误差、置信区间、假设检验都依赖于这一假设
但误差项的方差往往是非常数的。我们可以通过残差图中漏斗形状的存在来识别误差中的非恒定方差或异方差性。
异常值(离群点)
离群点是指 y i y_i yi 离模型的预测值较远的点
离群值对于模型的拟合可能不会有太大的影响,但会引入其他问题。RSE 可能会因为单个离群值而发生急剧的变化,而 RSE 用于计算所有的置信区间和 p 值,因此单个数据引起的这种变化,可能会对拟合的解释产生影响。同样离群值的加入会导致 R 2 R^2 R2 的变化
残差图可以用于识别异常值,但很难确定残差需要多大。可以画学生残差(studentized residuals)用每个残差除以它的估计标准差,学生化残差绝对值大于 3 的观测值可能是异常值
因为数据收集错误的异常值可以直接删除,但需要注意,异常值也可以用于指示模型的不足
高杠杆点(High Leverage Points)
不寻常的预测变量 x i x_i xi
在简单线性回归中,高杠杆值一般是超过正常值的
在多元线性回归中,预测值在单个预测因子中是良好的,但在全集中是不正常的
为了量化观测值的杠杆,我们计算杠杆统计量(leverage statistic)该统计量的值较大,表明观测值具有较高的杠杆统计杠杆。
h i = 1 n + ( x i − x ˉ ) 2 ∑ i ′ = 1 n ( x i ′ − x ˉ ) 2 h_{i}=\frac{1}{n}+\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{i^{\prime}=1}^{n}\left(x_{i^{\prime}}-\bar{x}\right)^{2}} hi=n1+∑i′=1n(xi′−xˉ)2(xi−xˉ)2
杠杆统计量 h i h_i hi 始终介于 1 n \frac1n n1 和 1 1 1 之间,所有观测值的平均杠杆始终等于 p + 1 n \frac{p + 1}{n} np+1。因此,如果一个给定的观测有一个远远超过 p + 1 n \frac{p + 1 }{n} np+1 的杠杆统计量,那么我们可能会怀疑对应点有高杠杆。
共线性(collinearity)
共线性是指两个或多个预测变量密切相关的情况
共线性的存在会在回归背景下带来问题,因为很难分离出共线变量对响应的单独影响
共线性降低了回归系数估计值的准确度,导致 β j ^ \hat{\beta_j} βj^ 的标准误差增大。而 t-统计量由每个 β j ^ \hat{\beta_j} βj^ 除以其标准误差计算得到,因此共线性导致 t-统计量下降。因此,当存在共线性问题时,我们可能无法拒绝 H 0 : β j = 0 H_0:\beta_j=0 H0:βj=0 ,这意味着共线性降低了假设检验的能力,正确检测非零系数的概率。
评估多重共线性的一个更好方法是计算方差膨胀因子(VIF)VIF的最小可能值为1,表明完全不存在共线性。实践中一般存在少量共线性,当 VIF 超过 5 或 10 时表明存在共线性问题。VIF公式为:
VIF ( β ^ j ) = 1 1 − R X j ∣ X − j 2 \operatorname{VIF}\left(\hat{\beta}_{j}\right)=\frac{1}{1-R_{X_{j} \mid X_{-j}}^{2}} VIF(β^j)=1−RXj∣X−j21
R X j ∣ X − j 2 {R_{X_{j} \mid X_{-j}}^{2}} RXj∣X−j2是 X j X_j Xj 对所有其他预测变量回归的 R 2 R_2 R2
解决共线性的两个办法:
一些问题
预测变量和响应变量之间是否存在关联?
做出 H 0 : β = 0 H_0:\beta=0 H0:β=0 后,F-统计量可以判断是否拒绝这种假设
这种关联有多强?
RSE 用于估计响应变量的标准差; R 2 R^2 R2 记录由预测因子解释的响应中变异的百分比。
哪个预测变量与响应相关?
检查与每个预测因子的t统计量相关的p值
每个预测变量与响应俩之间的关联有多大?
置信区间。但报纸的区间包含0,说明给定电视和广播的取值,该变量在统计上不显著
预测的响应变量准确度多高?
与此估计相关的准确性取决于我们是否希望预测个体响应 Y = f ( X ) + ϵ Y = f ( X ) +\epsilon Y=f(X)+ϵ ,或平均响应 f ( X ) f ( X ) f(X) 。如果是前者,我们使用预测区间,如果是后者,我们使用置信区间。预测区间总是比置信区间宽,因为它们考虑了与不可约误差相关的不确定性。
这种关联是线性的吗?
使用残差图识别非线性