3.sklearn库中的标准数据集及基本功能

3.sklearn库中的标准数据集及基本功能

数据集总览

数据集大小 数据集名称 调用方式 适用算法 数据规模
小数据集 波士顿房价数据集 load_boston() 回归 506*13
鸢尾花数据集 load_iris() 分类 150*4
糖尿病数据集 load_diabetes() 回归 442*10
手写数字数据集 load_digits() 分类 5620*64
大数据集 Olivetti脸部图像数据集 fetch_olivetti_faces() 降维 400 * 64 * 64
新闻分类数据集 fetch——20newsgroups() 分类 -
带标签的人脸数据集 fetch_lfw_people() 分类;降维 -
路透社新闻语料数据集 fetch_revl() 分类 804414*47236

注:小数据集可以直接使用,大数据集要在调用程序时自动下载(一次即可)

波士顿房价数据集:
包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包括城镇犯罪率、一氧化碳浓度、住宅平均房间数、到中心去域的加权距离以及自主房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。

例如
使用
sklearn.datasets.load_bosten即可加载相关数据集
重要参数
return_X_y:表示是否返回target(即价格),默认为FALSE,只返回data(即属性)

波士顿房价数据集-加载示例

>>> from sklearn.datasets import load_boston
>>> boston = load_boston()
>>> print(boston.data.shape)
(506,13)

示例二

>>> from sklearn.datasets import load_boston
>>> data,target = load_boston(return_X_y=True)
>>> print(data.shape)
(506,13)
>>> print(target.shape)
506

手写数字数据集
包括1797个0-9的手写数字数据,每个数字由8*8大小的矩阵构成,矩阵中值得范围是0-16,代表颜色的深度。

示例

>>> from sklearn.datasets import load_digits
>>> digits = load_digits()
>>> print(digits.data.shape)
(1797,64)
>>> print(digits.target.shape)
(1797,)
>>> print(digits.images.shape)
(1797.8.8)
>>> import matplotlib.pyplot as plt
>>> plt.matshow(digits.images[0])
>>> plt.show()

sklearn库的基本功能

sklearn库的功能分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

分类任务

分类模型 加载模块
最近邻算法 neighbors.NearestNeighbors
支持向量机 svm.SVC
朴素贝叶斯 naive_bays.GaussianNB
决策树 tree.DecisionTreeClassifier
集成方法 ensemble.BaggingClassifier
神经网络 neural_network.MLPClassifier

回归任务

回归模型 加载模块
岭回归 linear_model.Ridge
Lasso回归 linear_model.Lasso
弹性网络 linear_model.ElasticNet
最小叫回归 linear_model.Lars
贝叶斯回归 linear_model.BayesianRidge
逻辑回归 linear_model.LogisticRegression
多项式回归 preprocessing.PolynomialFeatures

聚类任务

聚类方法 加载模块
K-means cluster.KMeans
AP聚类 cluster.AffinityPropagation
均值漂移 cluster.MeanShift
层次聚类 cluster.AgglomerativeClustering
DBSCAN cluster.DBSCAN
BIRCH cluster.Birch
谱聚类 cluster.SpectralClustering

降维任务

降维方法 加载模块
主成分分析 decomposition.PCA
截断SVD和LSA decomposition.TruncatedSVD
字典学习 decomposition.SparseCoder
因子分析 decomposition.FactorAnalysis
独立成分分析 decomposition.FastICA
非负矩阵分解 decompositon.NMF
LDA decompositon.LatentDirichletAllocation

你可能感兴趣的:(3.sklearn库中的标准数据集及基本功能)