sklearn快速入门教程:(一)准备工作

sklearn快速入门教程 – 准备工作

1. 前言

sklearn全称 scikit-learn,它是一个集成了目前市面上最常用的机器学习模型的库,使用起来非常轻松简单,因此获得了广泛的应用。

从官网显示数据来看,这个项目始于2007年,工具箱在2011年正式发布,并且在机器学习顶级杂志 Journal of Machine Learning Research 发表了对应的论文。能在JMLR上发文章就已经能说明该工具箱的水平不一般。论文全文可以直接在官网免费下载。不过论文本身并不是很重要,重要的是要了解sklearn究竟能用来做什么,以及它如何用。

目前市面上的教程也是一层出不穷,但许多同学仍然表示不好懂。这里我个人觉得不好懂的原因有这么几点:

  • 从教程本身而言,讲太多的理论,看得云里雾里。
  • 从自身而言,基础不扎实,尤其python本身不熟悉,学起来头疼

因此,本系列打算从更为直接的方面来讲解sklearn的使用方法,让新手能够快速上手,在学会使用工具的同时再慢慢去补充理论。

2. 准备工作

首先要明确一点,任何一个工具箱都不是独立存在的,要使用这些工具箱就必然要掌握一些其它的辅助技能,否则根本无法运用这些工具箱。作为一个以数据模型为主的工具箱,那么基本的处理数据的技能就是最为重要的,因此在此之前我们需要做一些准备工作。当然要全面地理解一套工具箱其实也并不是一朝一夕的,但我们可以在最开始适当降低要求,针对这些工具箱的特性做出一些取舍。这样可以明显地提高学习的速度,尤其是能增大初学时的自信心。在掌握了基本的框架的时候,再去慢慢补回相应的深层次的知识,也能够让自己的认识逐渐深入。

  • Python的基本语法和Python中的面向对象的概念与操作。既然sklearn是python的库,那么会用python自然是学习这个库的基本前提。当然Python作为一门系统的程序语言内容的确也有点太多,因此我们可以先重点学习一些直接相关,也就是直接会用到的一些知识和技能。针对这个库我们需要掌握的Python基本知识与技能有:
    • 学会1-2种IDE的使用。这里我们强力推荐pycharm。虽然它的功能可能90%我们都用不到,但一旦需要用到某些高级功能的时候,其它的工具就显得更浪费时间。比如pycharm的智能提示功能,虽然在notebook里面也能实现,但还得单独去配置,配置完了可能还会出问题,一不小心可能大半天就过去了。与其纠结这些问题,不如直接一步到位,适应个几天也就会了。
    • Python基本语法。这个不用多说,肯定要会写点简单的pyhon程序,比如for循环怎么用,如何导入库,怎样处理数组等等。
    • Python中的面向对象的概念与操作。这个说法本身其实不是很严谨,因为面向对象是通用的,与程序语言无关。但这样说的目的主要是想强调Python中面向对象的操作,因为它还是与其它许多语言的特性是不太一样的,也得单独去看一看。如果实在一开始弄不懂,那么最起码的如何初始化一个class,如何对它进行实例化,如何使用它的方法,理解一下什么叫静态方法、动态方法等这些问题也应该事先掌握。
  • Numpy的基本数据结构和操作方法。Numpy实际上是现在Python直接自带的一个库,基本上Python在处理数据的时候几乎就是调用Numpy中的类型和方法。我们在做机器学习的时候必然会涉及到数据的整理、简单预处理、格式化等等问题,因此这些内容也得事先有所了解。当然,我们是快速入门教程,肯定不用一下子把Numpy的教程看完。但最起码的,Numpy中有哪些数据结构,这些数据结构的基本操作(加减乘除、排序、查找、矩阵的计算等)得要事先熟悉一遍。
  • Pandas - 读写数据的利器。当然也要强调一点Pandas并不是读写数据唯一的方法。只不过直接用Python自带的方法来做太过繁琐,而其它的库虽然也有,但目前能像Pandas一样既完整又好用的也不是太多。举个例子,比如我们要读一个csv文件中的数据,用Pandas也就一句data = pandas.read_csv('data.csv')就行了。查询整理数据更是有类似SQL一样的机制。那么这个工具很显然能给我们提供极大的便利。
  • Matplotlib - 绘图工具。 绘图这件事在任何数据处理中其实都有非常重要的作用,因为它能最直观地给我们反馈各种结果,从而加深我们对结果的理解。Matplotlib基本上能够满足我们对基本的数据结果的各种展示需求。其中的pyplot模块用法也基本和其它一些常用的语言差不多,基本上只要用过类似R、Matlab等语言画过图的,看几分钟文档就能弄明白怎么画曲线图了。

至此,一个极简的准备工作就算完成一半了。还有一半就是装好sklearn。然后收藏好它的官方网站,我们在后面会经常使用。

千里之行,始于足下!

希望大家都能坚持下去,尽快地掌握sklearn的使用。

  • klearn快速入门教程:(二)线性回归
  • sklearn快速入门教程:(三)机器学习的通用模式及实现方法
  • sklearn快速入门教程:(四)模型自动调参
  • sklearn快速入门教程:(五)集成学习

你可能感兴趣的:(Sklearn,sklearn,人工智能,机器学习,python)