机器学习-特征选择

1.特征筛选

1)计算变量的相关性,对线性模型一般有效,非线性效果不明显。

2) 给予模型的特征选择,如lr选择正则化或随机森林输出特征的总要度。

3)RFE逐步特征选择。

sklearn在工业界通常不考虑效率,真正工业界用xgboost和lightgbm多。

2.模型评估和参数调优

1)数据切分、可能切偏,真正使用数据乱序加上交叉验证。

2)k折交叉验证(分层抽样通常,保证比例),交叉验证得分。

3)网格搜索,找最优的超参数,向量化运算比for循环高效永远。准备好参数字典、sklearn是并行的找超参数。候选参数通常是等差或等比的取,并没有实际的标准,通常是经验确定。

4)工业界用SVM分类的比较少,一般用gdbt和随机森林做分类多一些。

5)sklearn中有构建流水线的函数pipeline([ ])在参数调优时间需要注明那个环节_参数名称:[参数列表];网格搜索是一套机制,不是pipe里面的一个环节。make_pipeline( , , ,)可以不给流程的名字,pipline.steps输出流程,取中间结果pipe.named_steps(步骤名称).components_;grid.best_estimator_ ; components_;grid.best_estimator_.named_steps["步骤名称'],只要可以fit的环节都是可以放在pipeline里面的

6)中小型数据使用sklearn但是数据两比较大时间还是使用lightgbm和xgboost(如实现GDBT),工业界很喜欢树型模型,有点:第一 可解释性好 第二 不需要幅度缩放


你可能感兴趣的:(机器学习)