对sklearn的初步了解

sklearn库

文章目录

  • sklearn库
    • 一.介绍
    • 二.模块使用大致介绍
      • 2.1 分类
      • 2.2 回归
      • 2.3 聚类
      • 2.4 降维
      • 2.5 模型选择
      • 2.6 预处理
      • 2.7 数据集
    • 三. 小例子

一.介绍

skearn库是python中用于机器学习的一个学习工具,它建立在numpy,pandas,matplotlib之上,对常用的机器学习进行封装,包括回归,降维,分类,聚类等方法。

二.模块使用大致介绍

在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理.

要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面我用的都是一些通用名称,如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如

  • SomeClassifier = RandomForestClassifier
  • SomeRegressor = LinearRegression
  • SomeModel = KMeans, PCA
  • SomeModel = GridSearchCV, OneHotEncoder

2.1 分类


from sklearn import SomeClassifier	
from sklearn.linear_model import SomeClassifier	
from sklearn.ensemble import SomeClassifier

2.2 回归

from sklearn import SomeRegressor	
from sklearn.linear_model import SomeRegressor	
from sklearn.ensemble import SomeRegressor

2.3 聚类

from sklearn.cluster import SomeModel

2.4 降维

from sklearn.decomposition import SomeModel

2.5 模型选择

from sklearn.model_selection import SomeModel

2.6 预处理

from sklearn.preprocessing import SomeModel

2.7 数据集

Sklearn 里面还有很多自带数据集供,引入它们的伪代码如下

from sklearn.datasets import SomeData

三. 小例子

from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

#使用以后的数据集进行线性回归(这里是波士顿房价数据)
loaded_data=datasets.load_boston()
data_X=loaded_data.data
data_y=loaded_data.target

model=LinearRegression()
model.fit(data_X,data_y)

print(model.predict(data_X[:4,:]))
print(data_y[:4])

#使用生成线性回归的数据集,最后的数据集结果用散点图表示
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)   #n_samples表示样本数目,n_features特征的数目  n_tragets  noise噪音
plt.scatter(X,y)
plt.show()

你可能感兴趣的:(sklearn,python)