SKLearn数据集API（一）

类型	获取方式
自带的小数据集	sklearn.datasets.load_
在线下载的数据集	sklearn.datasets.fetch_
计算机生成的数据集	sklearn.datasets.make_
svmlight/libsvm格式的数据集	sklearn.datasets.load_svmlight_file(...)
mldata.org在线下载数据集	sklearn.datasets.fetch_mldata(...)

返回的是bunch对象，是字典类型

鸢尾花数据集

image

下面使用花萼长度单个特征来划分查看，这是探索性分析，当我们不知道该使用那些特征的时候，就这样查看一下。

image

下面使用两个特征来划分查看

image

手写数字数据集

image

图像数据集

image

使用datasets.get_data_home()函数获取下载目录

类型	获取方式
20类新闻文本数据集	fetch_20newsgroups() / fetch_20newsgroups_vectorized()
野外带标记人脸数据集	fetch_lfw_people() / fetch_lfw_pairs()
Olivetti人脸数据集	fetch_olivetti_faces()
rcvl多标签数据集	fetch_rcvl()
加利福尼亚房价数据集	fetch_canlifornia_housing()

20类新闻文本数据集

包含了关于20个话题（topic）的18000条新闻报道，被分为两个子集：训练集和测试集

函数	内容
fetch_20newsgroups()	原始的文本列表，该文本可以被输入到文本特征提取器sklearn.feature_extraction.text.CountVectorizer进一步处理得到特征向量
fetch_20newsgroups_vectorized()	返回一个直接可以使用的特征，无须在进行特征提取。

image

image

Olivetti人脸数据集

Olivetti人脸数据集是AT&T在1992-1994年手机的人脸数据集，包含了40个不同的目标，每个目标10张图片，某些目标的图像在不同的时间段采集，带有光照，面部表情（眼镜开闭，笑容），面部袭细节的各种变化，所有的人脸图像被正立的放在一个灰色的背景上。

每一张图像上有256个灰度级，用无符号8为来存。加载函数会将所有的图像转换成[0,1]区间上的浮点数，目标值target存放着0到39的数字代表人脸的类别标签。然而每个标签对应的人脸图像都只有10张，每张图像的分辨率是64*64。这个小数据集会更加适合来做无监督学习或者半监督学习。