变量选择--Lasso

假设数据是 (Yi;Xi1,,Xip),i=1,2,,n.
高维数据(大 p )分析方法:
1. 降维:岭回归(Ridge regression);Lasso; Dantzig selector
2. 特征提取: 主成分分析(PCA)


Lasso:
Lasso可以说是最火的变量选择方法:

β̂ lasso=argmin(YXβ)T(YXβ)+λβ1

计算方法:
Lasso 的目标函数是凸的,不可导的,传统基于导数(梯度)的方法不可用
实用方法有:Lars,coordinate descent, ADMM等

lasso 的优点:

1.当模型为sparse的时候,估计准确度高
2. λ 增大时,不重要的变量回归系数 β̂ lassoj=0
3. Lars的收敛速度为 O(np2) , 等于 OLS 的收敛速度

lasso 不适用于:

1.模型不是sparse的时候;
2.变量间高度线性相关的时候.

R example 给了R中的包glmnet的使用方法

Regularization: Ridge Regression and the LASSO给了详细的介绍以及与Ridge regression, CV之间的比较

你可能感兴趣的:(机器学习,统计)