机器学习笔记_回归_4: 最小二乘问题(2)

subset的选择(特征选择)

参看博客:http://m.blog.csdn.net/blog/xbinworld/44284293
* lasso可以做特征选择(转化为求解次梯度:owl-qn)

自变量选择对于估计和预测的影响

  • 全模型与选模型
    全模型 :设因变量为 m 个: y=β0+β1x1,,+βmxm+ε
    选模型: 从m中选择p个模型
    y=β0p+β1px1,,+βmpxp+εp

=> 性质(证明略)

  1. 选模型预测值是有偏估计(劣势)
  2. 选模型预测的残差小(优势)
  3. 选模型有可能预测的均方误差比全模型小

=> 自变量的选择是有益的

子集回归的选择

  • 从m个选择p的方法有 Cpm =>总是是 2m

  • 自变量的选择准则:m个自变量的回归建模,所有可能子集为 2m 如何选择最优子集
    =>残差平方和SSE最小的回归方差最好;
    (SSE=残差平方和= (yiyi^)2 )

  • i=1n(yiy¯)2=i=1n(yi^y¯)2+i=1n(yiy^)2

i=1n(yiy¯)2 : 总离差平方和=SST
i=1n(yi^y¯)2:=SSR
i=1n(yiy^)2:=SSE

  • 记:增加一个变量后 SSEp => SSEp+1

增减变量后, SSEP+1SSEP

  • 记:复决定系数: R2P+1=1SSEp+1SST;R2P=1SSEpSST

因为:SST于自变量无关,所以 R2p+1R2p

准则1. 自由度调整复决定系数达到最大
准则2. 赤池信息量AIC达到最小(AIC最小的为最优的): AIC=NLN(SSSE)+2P
准则3. Cp 统计量达到最小

  • 上述方法:遍历 2m1 个子集,按照准则选择最优;

逐步回归

  • F检验(方差齐性检验)

i=1n(yiy¯)2=i=1n(yi^y¯)2+i=1n(yiy^)2

i=1n(yiy¯)2:=SST
i=1n(yi^y¯)2:=SSR
i=1n(yiy^)2:=SSE
SST=SSR+SSE

检查自变量 x1,...xp 从整体上是否对随机变量y有明显的影响

F=SSR/PSSE(NP+1)

  • 前进法
  • 后退法
  • 逐步回归法

你可能感兴趣的:(机器学习笔记_回归_4: 最小二乘问题(2))