scikit-learn是Python中最重要的机器学习模块之一。它基于Scipy库,在不同的领域中已经发展出大量基于Scipy的工具包,它们被统一称为Scikits,其中最著名的一个分支就是scikit-learn。它包含众多的机器学习算法,主要分为六大类:分类、回归、聚类、数据降维、模型选择和数据预处理。
数据集名称 |
调用方式 |
适用算法 |
鸢尾花数据集 |
load_iris() |
用于分类算法 |
糖尿病数据集 |
load_diabetes() |
用于回归算法 |
波士顿房价数据集 |
load_boston |
用于回归算法 |
手写数字 |
load_digits() |
用于多分类算法 |
红酒 |
load_wine() |
用于分类算法 |
威斯康辛州乳腺癌 |
load_breast_cancer() |
用于二分类任务 |
from sklearn.datasets import load_iris #鸢尾花
from sklearn.datasets import load_wine #红酒
from sklearn.datasets import load_boston #波士顿房价
from sklearn.datasets import load_diabetes #糖尿病
from sklearn.datasets import load_digits #手写数字
from sklearn.datasets import load_breast_cancer #威斯康辛州乳腺癌
from sklearn.datasets import load_iris
data=load_iris()
print(data.keys()) # 查看数据的属性 ['data','target','feature_names','DESCR', 'filename'] ,显示数据集的内容,可以看到内容分别为数据,类标签等
print(data.target) #可查看类标签
print(data.data.shape,data.target.shape) # 查看数据的形状 (569, 30) (569,)
print(data.DESCR) # 描述这个数据集的信息
X,y=make_blobs(n_samples=300,n_features=2,centers=2, cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=22)
#n_samples:生成的样本数,n_features:样本的特征数(维度),centers:标签的种类数,cluster_std表示每个类别的方差,方差越大,数据越散乱,center_box:数据边界,shuffle :将数据进行洗乱,random_state:官网解释是随机生成器的种子
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()
X,y=make_moons(n_samples=300,noise=0.1,random_state=22)
#n_samples:随机生成样本的数量,noise:噪声值,random_state:随机生成器种子
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()
X,y=make_circles(n_samples=300,noise=0.1,random_state=22)
plt.scatter(X[:,0],X[:,1],c=y)
plt.show()