线性回归(一)

(一)简单线性回归
总体回归直线: Y=β0+β1X+ϵ ϵ 称为误差,服从零均值的正态分布,一般观察不到,其中 Var(ϵ)=σ2 E(ϵ)=0

通常假设误差 ϵ 是独立于X的。

  1. 探索总体变量

最小二乘线是用样本估计总体的一个特征。

例如:有n个关于Y的观测值,记为 y1,y2,...,yn ,可用它们估计总体均值 μ 。一般来说,样本均值能提供对总体均值的良好估计。如果我们能够从大量观测数据集中得到许多对 μ 的估计,则它们的均值正好等于 μ

  • 那么单一的估计值 μ^ 偏离真值 μ 有多远?

μ^ 的标准误差(standard error,记作 SE(μ^) )来衡量。

Var(μ^)=SE(μ^)2=σ2n ,其中, δ 是变量Y的每个观测值的标准差。标准误差还可理解为 μ^ 偏离 μ 的实际值的平均量。

  • 同样可以探索 β0^ β1^ 与真实值 β0 β1 的接近程度,用标准误差来衡量。假设每个观测值的误差项 ϵi 独立,且有相同的方差。
    标准误差

  • 注意区分:
    用样本来估计参数,其参数的标准差此时称为标准误差;若用总体来表示参数的离散程度,可称为标准差或方差。

  • 误差项的方差的估计 σ2^ 被称为残差标准误,由公式 RSE=RSS/(n2)

2.评价模型的准确性
量化模型拟合数据的程度,通常使用两个相关的量:残差标准误(RSE)和 R2 统计量。

  • RSE是对误差 ϵ 的标准偏差的估计
    线性回归(一)_第1张图片
    RSE被认为是对模型失拟的度量,是一种绝对度量方法。

  • R2 统计量采用一种比例的形式。
    这里写图片描述
    这里TSS是总平方和, TSS=(yiy¯)2

总平方和TSS测量响应变量Y的总方差,可以认为是在执行回归分析之前的响应变量中的固有变异性;而RSS测量的是进行回归后仍无法解释的变异性,TSS-RSS测量的是响应变量进行回归之后被解释的变异性,而 R2 测量的是Y的变异中能被X解释的部分所占比例。

  • 在变量选择中R中显得不够合理,一般使用调整的 R2
    (二)多元线性回归
    多元线性回归模型的形式为:
    Y=β0+β1X1+β2X2+...+βpXp+ϵ ,其中, Xj 代表第j个预测变量, βj 可解释为在所有其他预测变量保存不变的情况下, Xj 增加一个单位对Y产生的平均效果。

用最小二乘法进行估计,选择 β0,β1,...,βp 使残差平方和最小:
线性回归(一)_第2张图片

进行多元线性回归时,需要考虑的一些重要问题:
(1)预测变量 X1,X2,...,Xp 中是否至少有一个可以用来预测响应变量?
(2)所有预测变量都有助于解释Y吗?
(3)模型对数据的拟合程度如何?
(4)给定一组预测变量的值,响应值应预测为多少?所作预测的准确程度如何?

第一个问题
1.响应变量和预测变量之间是否有关系?
检验零假设:
H0:β1=β2=...=βp=0
对应的备择假设:
H1:βj0
要检验的F统计量:
F=(TSSRSS)/PRSS/(np1)
F统计量的取值取决于n和p的值,可以根据F分布计算出F统计量的p值,基于p值来判定是否拒绝 H0
上述假设检验也可认为是以前所学的对回归方程的检验。

注意区分:

  • 当检验某一个变量的显著性时,可根据t分布的统计量确定p值,来判定该预测变量与响应变量的相关性。但是当预测变量的数目很大时,容易出现错误。

  • 当p较小时 (p<<n) 时,使用F统计量检验预测变量和响应变量是否相关。
    然而当 p>n 时,即待估系数 βj 的个数比可用于估计的观测个数还多,不能用最小二乘法拟合多元线性模型,所以F统计量无法使用,可用向前选择等方法。

问题(2)

变量选择:比较常见的情况是响应变量仅与预测变量的一个子集相关。所以确定哪些预测变量与响应变量相关,以建立只包含相关预测变量的模型。
理想情况下,含有p个预测变量的子模型有 2p 个。
判断一个模型的质量:统计量 Cp ,赤池信息准则(AIC),贝叶斯信息准则(BIC)和调整 R2 。当预测变量p的个数较大时,评价每个子模型显得非常不高效。

因此,有三种经典的方法可以完成这个任务:
向前选择:从零模型开始,加入的变量是使RSS最小的变量。
向后选择:逐步删除p值最大的统计量,直到剩余的p值均低于某个阈值。
混合选择:向前向后选择的综合。

问题(三):模型拟合
最常见的衡量模型拟合优劣的指标是 RSER2
RSE一般被定义为: RSE=RSSnp1 ,易受量纲的影响;
R2 接近于1,则表明该模型能解释响应变量的大部分方差,且不受量纲的影响。

问题(四)预测
系数估计值 β0^,β1^,...,βp^ 是对 β0,β1,...,βp 的估计,最小二乘平面 Y^=β0^+β1^X1...+βp^Xp 是对真实总体回归平面
f(X)=β0+β1X1+...+βpXp 的一个估计。

模型中存在随机误差,称之为不可约误差,随机变量的估计值与真实值的差距,我们用预测区间来表示。
系数估计的不准确性,称之为可约误差,我们可以用置信区间来确定y的估计值与f(X)的接近程度.
预测区间总是比置信区间宽,因为预测区间既包含f(X)的估计误差(可约误差),也包含单个点偏离总体回归平面程度的不确定性(不可约误差)。

你可能感兴趣的:(data,mining)