Sklearn--Lasso模型选择

使用赤池信息量准则(AIC),贝叶斯信息准则(BIC)和交叉验证(CV)来选择Lasso模型的最优正则化参数alpha。
LassoLarsIC的结果依赖AIC/BIC准则。

基于信息准则的模型选择非常快,但是它依赖于对模型自由度的正确估计、大样本数据以及假设模型是正确的等等。数据实际是由这个模型产生的。当特征数大于样本数时,它们也会崩溃。

对于交叉验证,我们使用20折、2种算法计算Lasso路径:LassoCV坐标下降法(coordinate descent),LassoLarsCV使用最小角回归法Lars (least angle regression) 。这两种算法得到大致相同的结果。他们的不同来自于运算速度和数值错误的来源。

Lars计算路径解决方法只针对路径上的每一个kink,在只有很少的样本或特征的情况下,kinks也很少,Lars是非常高效的。并且Lars能计算全路径而不用设置任何目标参数。相反,坐标下降法是在事先指定的网格(使用默认值)计算路径点。在网格点的数量比kink数量少的情况下是高效的。如果特征的数量非常大并且有足够的样本来选择,这种策略是很有趣的。在数值误差方面,对于高度相关的变量,Lars方法将计算更多的误差,而坐标下降算法只会计算在网格路径上的样本点。

你可能感兴趣的:(Sklearn--Lasso模型选择)