Python:Sklearn概述

文章来源:https://blog.csdn.net/algorithmPro/article/details/103045824


 

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上,里面的 API 的设计非常好,所有对象的接口简单,很适合新手上路。

在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,如下图从其官网的截屏。

Python:Sklearn概述_第1张图片

要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面我用的都是一些通用名称,如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如

  • SomeClassifier = RandomForestClassifier

  • SomeRegressor = LinearRegression

  • SomeModel = KMeans, PCA

  • SomeModel = GridSearchCV, OneHotEncoder

上面具体化的例子分别是随机森林分类器、线性回归器、K 均值聚类、主成分分析、网格追踪法、独热编码。

1.分类 (Classification)

  1. from sklearn import SomeClassifier

  2. from sklearn.linear_model import SomeClassifier

  3. from sklearn.ensemble import SomeClassifier

2.回归 (Regression)

  1. from sklearn import SomeRegressor

  2. from sklearn.linear_model import SomeRegressor

  3. from sklearn.ensemble import SomeRegressor

3.聚类 (Clustering)

from sklearn.cluster import SomeModel

4.降维 (Dimensionality Reduction)

from sklearn.decomposition import SomeModel

5.模型选择 (Model Selection)

from sklearn.model_selection import SomeModel

6.预处理 (Preprocessing)

from sklearn.preprocessing import SomeModel

SomeClassifier, SomeRegressor, SomeModel 其实都叫做估计器 (estimator),就像 Python 里「万物皆对象」那样,Sklearn 里「万物皆估计器」。

 

此外,Sklearn 里面还有很多自带数据集供,引入它们的伪代码如下。

7.数据集 (Dataset)

from sklearn.datasets import SomeData

你可能感兴趣的:(Python基础)