大师兄的数据分析学习笔记(三十一):机器学习模型总结

大师兄的数据分析学习笔记(三十):半监督学习
大师兄的数据分析学习笔记(三十二):模型评估(一)

一、分类模型

  • KNN
  • 朴素贝叶斯
  • 决策树
  • 支持向量机
  • 逻辑映射
  • GBDT
  • 集成方法
  • 神经网络

二、回归模型

  • 线性回归
  • 逻辑回归
  • 人工神经网络
  • 回归树与提升树

三、聚类

  • K-means
  • DBSCAN
  • 层次聚类法
  • 图分裂

四、关联

  • 关联规则
  • 序列规则

五、半监督学习

  • 标签传播

六、模型的选择

  • 在当前的环境下,靠一种模型解决所有问题不现实,所以面对不同的情况,需要选择不同的算法模型。


  • 根据上图可以看出SKLEAN官网建议如下:
  • 样本<50:获得更多数据
  • 如果有标签化的数据
  • 样本<100k:使用线性的支持向量机
  • 如果线性的支持向量机不工作:
  • 如果是文本数据:使用朴素贝叶斯
  • 如果不是文本数据:使用KNN
  • 如果KNN不工作:使用集成支持向量机
  • 样本>100k:使用梯度下降法
  • 如果梯度下降法不工作:使用kernel approximation
  • 如果没有标签化数据类型的数量已知:
  • 样本<10k:使用K-means
  • 如果K-means不工作:使用层次聚类GMM
  • 向本>10k: 使用MiniBatch Kmeans
  • 如果没有标签化数据类型的数量未知:
  • 样本<10k:使用MeanShiftVBGMM
  • 样本>10k:靠运气
  • 如果预测的不是类别,而是连续数值:
  • 样本<100k:
  • 少量重要特征:使用LassoElasticNet
  • 非少量重要特征:使用岭回归SVR
  • 如果岭回归SVR不工作,使用和函数更复杂的SVR集成算法
  • 如果预测的不是类别、也不是连续值:
  • 使用降维方式
  • 如果降维方式不工作:
  • 样本<10k:使用Isomapspectral Embedding
  • 如果Isomapspectral Embedding不工作:使用LLE
  • 样本>10k:使用kernel approximation

你可能感兴趣的:(大师兄的数据分析学习笔记(三十一):机器学习模型总结)