当机器学习性能遭遇瓶颈时,如何优化?

原文:https://machinelearningmastery.com/machine-learning-performance-improvement-cheat-sheet/

从一个公众号上看来的,尝试精简翻译一下

 

 

从以下4个方面着手:

1.数据

2.算法

3.算法调忧

4.集成

 

这4个方面对于性能提升的效果一般来讲是逐级递减的。

 

一、数据

1)获取更多的数据

2)创造更多的数据

3)清洗数据

4)重采样

5)重构你的问题(使其成为回归、分类、时间序列、异常检测、排序、推荐)

6)缩放你的数据

7)转换数据(改变数据分布,使其更接近高斯分布)

8)映射数据(降维,使用聚类手段将数据变得更紧凑)

9)特征选择

10)特征工程

 

二、算法策略

1)重采样策略(k折交叉验证)

2)评价指标(使用最能够满足问题需求的评价指标,可不一定是分类的准确度)

3)基准表现(可以选定随机、零规则(平均值/众数)来作为基准表现,以此来对所有待评价的算法进行排序)

4)抽样调查线性算法(更快且更易理解)

5)抽样调查非线性算法(更复杂且需要更多的数据,但是一般表现更好点)

6)查看文献(什么算法在你的问题上表现更好)

7)标准参数配置(参数配置)

 

三、参数调忧

调优策略

1)诊断(学习曲线看是否过拟合/欠拟合,看正确与否)

2)尝试使用直觉

3)查看文献

4)随机搜索(搜索算法的超参)

5)网格搜索(有可枚举的较好的参数待实验)

6)优化(结构、学习率)

7)更换实现工具

8)算法拓展

9)算法定制

10)联系专家

 

四、集成

集成技巧

1)混合模型的预测(取均值or众数)

2)混合数据代表(不同映射后的数据)

3)混合数据样本(bagging/boosting)

4)矫正预测

5)学习混合(使用一个新的模型去混合这些模型,stacking)

 

公众号上有更详细的译文:https://mp.weixin.qq.com/s/Ps_k4ACDCQvD1ZoUapjTHw

你可能感兴趣的:(机器学习)