机器学习的思路

参考大牛的文章:
http://blog.csdn.net/han_xiaoyang/article/details/50469334
http://blog.csdn.net/han_xiaoyang/article/details/50759472
认识到机器学习的思路:

机器学习的思路_第1张图片

机器学习基本分为分类、聚类、回归和维度约减四个方法。可以按上图进行选择算法

流程:
1.数据分析 可视化
2.建立特征工程(包括对数据进行预处理,补充缺失值,归一化数据等)
3.拿最贴切的机器学习算法模型去验证分析
4.模型诊断
分析模型的过拟合or欠拟合 ,来不断修正算法(交叉验证)
1)过拟合:

  • 增大训练样本量
  • 减少特征量(自动选择)
  • 增强正则化作用(L1 L2)
    l2正则化,它对于最后的特征权重的影响是,尽量打散权重到每个特征维度上,不让权重集中在某些维度上,出现权重特别高的特征。
    而l1正则化,它对于最后的特征权重的影响是,让特征获得的权重稀疏化,也就是对结果影响不那么大的特征,干脆就拿不着权重

2)欠拟合

  • 调整你的特征
  • 使用更复杂一旦的模型(比如说非线性的核函数)

3)总结为:

  • 过拟合、欠拟合 判断是模型诊断中至关重要的一步。常见的方法如交叉验证,绘制学习曲线等。过拟合的基本调优思路是增加数据量,降低模型复杂度。欠拟合的基本调优思路是提高特征数量和质量,增加模型复杂度。
  • 误差分析 也是机器学习至关重要的步骤。通过观察误差样本,全面分析误差产生误差的原因:是参数的问题还是算法选择的问题,是特征的问题还是数据本身的问题……
  • 诊断后的模型需要进行调优,调优后的新模型需要重新进行诊断,这是一个反复迭代不断逼近的过程,需要不断地尝试, 进而达到最优状态

5.模型融合(目前本人还不太会)

一般来说,模型融合后都能使得效果有一定提升。而且效果很好。
工程上,主要提升算法准确度的方法是分别在模型的前端(特征清洗和预处理,不同的采样模式)与后端(模型融合)上下功夫。因为他们比较标准可复制,效果比较稳定。而直接调参的工作不会很多,毕竟大量数据训练起来太慢了,而且效果难以保证。

你可能感兴趣的:(机器学习)