sklearn(1) —— 入门

sklearn入门

scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。

在工程应用中,用python手写代码来从头实现一个算法的可能性非常低,这样不仅耗时耗力,还不一定能够写出构架清晰,稳定性强的模型。更多情况下,是分析采集到的数据,根据数据特征选择适合的算法,在工具包中调用算法,调整算法的参数,获取需要的信息,从而实现算法效率和效果之间的平衡。而sklearn,正是这样一个可以帮助我们高效实现算法应用的工具包。

sklearn有一个完整而丰富的官网,里面讲解了基于sklearn对所有算法的实现和简单应用。然而,这个官网是全英文的,并且现在没有特别理想的中文接口,市面上也没有针对sklearn非常好的书。因此,这门课的目的就是由简向繁地向大家解析sklearn的全面应用,帮助大家了解不同的机器学习算法有哪些可调参数,有哪些可用接口,这些接口和参数对算法来说有什么含义,又会对算法的性能及准确性有什么影响。我们会讲解sklearn中对算法的说明,调参,属性,接口,以及实例应用。注意,本门课程的讲解不会涉及详细的算法原理,只会专注于算法在sklearn中的实现。

我的开发环境是Jupyter lab,所用的库和版本大家参考:

  • Python 3.7.1(你的版本至少要3.4以上)

  • Scikit-learn 0.20.0 (你的版本至少要0.19)安装代码 conda install scikit-learn

  • Graphviz 0.8.4 (没有画不出决策树哦,安装代码 conda install python-graphviz

  • Numpy 1.15.3

  • Pandas 0.23.4

  • Matplotlib 3.0.1

  • SciPy 1.1.0

你可能感兴趣的:(机器学习)