skearn库是python中用于机器学习的一个学习工具,它建立在numpy,pandas,matplotlib之上,对常用的机器学习进行封装,包括回归,降维,分类,聚类等方法。
在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理.
要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面我用的都是一些通用名称,如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如
from sklearn import SomeClassifier
from sklearn.linear_model import SomeClassifier
from sklearn.ensemble import SomeClassifier
from sklearn import SomeRegressor
from sklearn.linear_model import SomeRegressor
from sklearn.ensemble import SomeRegressor
from sklearn.cluster import SomeModel
from sklearn.decomposition import SomeModel
from sklearn.model_selection import SomeModel
from sklearn.preprocessing import SomeModel
Sklearn 里面还有很多自带数据集供,引入它们的伪代码如下
from sklearn.datasets import SomeData
from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
#使用以后的数据集进行线性回归(这里是波士顿房价数据)
loaded_data=datasets.load_boston()
data_X=loaded_data.data
data_y=loaded_data.target
model=LinearRegression()
model.fit(data_X,data_y)
print(model.predict(data_X[:4,:]))
print(data_y[:4])
#使用生成线性回归的数据集,最后的数据集结果用散点图表示
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10) #n_samples表示样本数目,n_features特征的数目 n_tragets noise噪音
plt.scatter(X,y)
plt.show()