Python Scikit-Learn简介

scikit-learn不仅因其干净、统一、管道命令式的API而独具特色,而且它的在线文档又实用、又完整。这种统一性的好处是,只要掌握了scikit-learn一种模型的基本用法和语法,就可以非常平滑地过渡到新的模型或算法上。

一、scikit-learn的链接
1、英文官网链接:https://scikit-learn.org/stable/
2、官方中文文档:https://sklearn.apachecn.org/
3、官网内容6大模块:Classification分类 / Regression回归 / Clustering聚类 / Dimensionality reduction降维 / Model selection模型选择 / Preprocessing数据处理

二、scikit-learn评估器设计的原则
1、统一性:所有对象使用共同接口连接一组方法和统一的文档;
2、内省:所有参数值都是公共属性;
3、限制对象层级:只有算法可以用Python类表示。参数名称用标准的Python字符串。
4、函数组合:许多机器学习都可以用一串基本算法实现,scikit-learn尽力支持这种可能;
5、默认值设置:当模型需要用户设置参数时,scikit-learn预先定义适当的默认值。

三、从scikit-learn导入类或函数

from sklearn.tree import DecisionTreeClassifier #导入类
from sklearn.metrics import r2_score #导入函数
from sklearn.datasets import load_iris #导入数据集,是类对象

四、数据接口
1、可接受的数据格式:Numpy数组、Pandas Dataframe、SciPy稀疏矩阵;
2、要求数据集特征列和标签列单独存放在两个数组中;
3、特征矩阵表示为X,标签(目标数组)表示为y。

五、scikit-learn评估器的使用步骤
1、通过从scikit-learn中导入适当的评估器类,选择模型类;
2、用合适的数值对模型类进行实列化,配置模型超参数hyperparameter;
3、处理数据,获取特征矩阵和目标数组;
4、调用模型实例的fit()方法对数据进行拟合;
5、对新数据应用模型,如predict()或transform()方法。

六、快捷键
查看评估器的参数、属性、方法的快捷键有:
1、输入?如 DecisionTreeClassifier?
2、tab键
3、tab+shift键

注:以上内容部分参考CDA老师课件整理。

你可能感兴趣的:(Python)