机器学习代码的书写

2019/04/17
最近在进行实验的过程中,一直都真是实验型的代码,走一步看一下输出的结果。
特别是多个分类器的时候,更是每个分类器单独写这个东西。
很早就已经接触到了pipline的概念,只不过我一直没用过,也没有具体的实践过。(还是没有彻底理解,为什么要用这个东西,有的说这样可以避免数据泄露,并且就是整个流程都是自动化的,不过这个说法并没有说服我,可能后续这方面的好处还是得自己慢慢来发现。)但的确,我觉得我现在这种写代码的方式,整体的结构很不合格的。下面来总结下,最近看到了一些关于这方面的内容:


  1. 比较多个分类器的性能[1]
    这个文章的内容很简单,主要是为了更直观的对比多个分类器的性能,因为他的交叉验证的函数的种子是固定的,所以多个分类器是具有可比性的,而且下面这个图非常直观。


    多个分类器对比[1]
  2. 对比多个分类器,并带有参数
    文章[1]中只是对比了多个默认参数的函数,并没有对参数进行调优,文章[2]中设计了一个类,将参数调优结合到了这个里面,最后集体打印所有的算法进行对比。

  3. sklearn-helper
    文章[3]的内容跟文章[2]很像,不过没有调优的部分,就是简单的信息输出helper

  4. pipeline的使用
    文章[4]介绍了pipeline的使用使用过程,这个是一系列的第三部分,主要集中在实际的代码操作上。更基础的内容可看文章[5]
    `

参考文献

[1]compare-machine-learning-algorithms-python-scikit-learn/
[2]model_optimization
[3]scikit-learn-helper
[4]managing-machine-learning-workflows-scikit-learn-pipelines-part-3
[5]learn-how-to-build-flexible-machine-learning-pipelines-in-sklearn/

你可能感兴趣的:(机器学习代码的书写)