sklearn.datasets
模块Bunch
是sklearn.datasets.base
中的数据类型
Bunch
类似字典,也是由键值对组成,和字典区别在于其键值可以被实例对象当作属性使用
from sklearn import datasets
buch = datasets.base.Bunch(A=1,B=2,C=3)
print(type(buch)) # bunch类型
print(buch) # 和字典类似
print(buch['A']) # 和字典类似
print(buch.A) # 和字典不同
'''
{'A': 1, 'B': 2, 'C': 3}
1
1
'''
加载sklearn中的数据集时,它们并不是直接转换成ndarray
数组。而是转换为一个Bunch
对象,通常用其中的.data
成员和.target
成员分别表示样本集和标签集,他们是ndarray
数组
from sklearn import datasets
boston_data = datasets.load_boston()
print(type(boston_data))
print(type(boston_data.data))
print(type(boston_data.target))
print(type(boston_data['data']))
print(type(boston_data['target']))
'''
'''
进行机器学习时,我们需要一些训练数据。 sklearn.dataset
模块就是Scikit-Learn框架自带的数据集模块,可以方便快速地获取训练数据,测试算法性能
sklearn 的数据集可以分为以下几种,常用的是前三种
数据集类型 | 加载函数 |
---|---|
自带的小数据集(packaged dataset) | sklearn.datasets.load_ |
可在线下载并加载的大型数据集(Downloaded Dataset) | sklearn.datasets.fetch_ |
生成的数据集(Generated Dataset) | sklearn.datasets.make_ |
svmlight /libsvm 格式的数据集 |
sklearn.datasets.load_svmlight_file(...) |
从data.org购买并在线下载获取的数据集 | sklearn.datasets.fetch_mldata(...) |
第一类 packaged dataset 和第二类 Downloaded Dataset 的所有加载函数都返回一个Bunch
对象,里面至少包含以下两项
data
的成员(20news groups数据集除外),这是尺寸为(n_samples,n_features)
的ndarray
数组,存储样本数据target
的成员,这是尺寸为(n_samples,)
的ndarray
数组,存储每个样本对应的标签数据。通过将加载函数的传入参数设置为return_X_y = True
,几乎所有这些函数都可以将输出约束为元组(data,target)
第三类 Generated Dataset 的加载函数返回一个元组(X,y)
,形式和前两类设置参数return_X_y=True
时返回的(data,target)
一致
这是sklearn自带的小型标准数据集,这些数据集有助于快速在scikit中测试各种算法。然而,它们数据规模往往太小,无法代表真实世界的机器学习任务。
加载方式:dataset = sklearn.datasets.load_
常用的小数据集:
名字 | 导入方法 | 介绍 | 任务 | 数据规模 |
---|---|---|---|---|
波士顿房价 | load_boston(return_X_y=False) | 加载和返回一个boston房屋价格的数据集 | 回归 | 506 x 13 |
乳腺癌 | load_breast_cancer(return_X_y=False) | 加载和返回一个乳腺癌“恶性/良性”(1/0)类别型数据集 | 二分类 | 569 x 30 |
糖尿病 | load_diabetes(return_X_y=False) | 加载和返回一个糖尿病数据集 | 回归 | 442 x 10 |
手写数据 | load_digits(return_X_y=False) | 加载和返回一个手写图片数据集 | 多分类 | 1797 x 64 |
鸢尾花 | load_iris(return_X_y=False) | 加载和返回一个鸢尾花数据集 | 多分类 | 150 x 4 |
红酒 | load_wine(return_X_y=False) | 加载和返回一个红酒数据集 | 多分类 | 178 x 13 |
体能训练 | load_linnerud(return_X_y=False) | 加载和返回健身数据集 | 回归 | 20 x 3 |
用于回归
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),和与之对应的包含房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据,因此,波士顿房价数据集能够应用到回归问题上。使用.load_boston(return_X_y=False)
方法来导出数据,其中参数return_X_y
控制输出数据的结构,若选为True
,则将因变量和自变量独立导出,否则默认为整体导出
from sklearn import datasets
boston_data = datasets.load_boston() # 整体导出
X,y = datasets.load_boston(return_X_y = True) # 独立导出
#print(boston_data.DESCR) # 描述文档
print(dir(boston_data),'\n') # 数据集对象所含的成员
print(boston_data.data.shape,'\n') # 样本集形状
print(boston_data.target.shape,'\n') # 标签集形状
print(boston_data.data[:1],'\n') # 前3个样本
print(boston_data.target[:1],'\n') # 前3个标签
print(boston_data.feature_names,'\n') # 特征名
print(boston_data.filename,'\n') # 数据库文件路径
print(X.shape) # 独立导出的样本集
print(y.shape) # 独立导出的标签集
'''
['DESCR', 'data', 'feature_names', 'filename', 'target']
(506, 13)
(506,)
[[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]]
[24.]
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
'B' 'LSTAT']
D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\boston_house_prices.csv
(506, 13)
(506,)
'''
用于二分类,良性和恶性
这个数据集包含了威斯康辛州记录的569个病人的乳腺癌“恶性/良性”(1/0)类别型数据(训练目标),以及与之对应的30个维度的生理指标数据;因此这是个非常标准的二类判别数据集,在这里使用.load_breast_cancer(return_X_y)
来导出数据
from sklearn import datasets
breast_data = datasets.load_breast_cancer() # 整体导出
X,y = datasets.load_breast_cancer(return_X_y = True) # 独立导出
#print(breast_data.DESCR) # 描述
print(dir(breast_data),'\n') # 数据集对象所含的成员
print(breast_data.data.shape,'\n') # 样本集形状
print(breast_data.target.shape,'\n') # 标签集形状
print(breast_data.data[:1],'\n') # 第一个样本
print(breast_data.target[:1],'\n') # 第一个标签
print(breast_data.feature_names,'\n') # 特征名
print(breast_data.target_names,'\n') # 标签名
print(breast_data.filename,'\n') # 数据库文件路径
print(X.shape) # 独立导出的样本集
print(y.shape) # 独立导出的标签集
'''
['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']
(569, 30)
(569,)
[[1.799e+01 1.038e+01 1.228e+02 1.001e+03 1.184e-01 2.776e-01 3.001e-01
1.471e-01 2.419e-01 7.871e-02 1.095e+00 9.053e-01 8.589e+00 1.534e+02
6.399e-03 4.904e-02 5.373e-02 1.587e-02 3.003e-02 6.193e-03 2.538e+01
1.733e+01 1.846e+02 2.019e+03 1.622e-01 6.656e-01 7.119e-01 2.654e-01
4.601e-01 1.189e-01]]
[0]
['mean radius' 'mean texture' 'mean perimeter' 'mean area'
'mean smoothness' 'mean compactness' 'mean concavity'
'mean concave points' 'mean symmetry' 'mean fractal dimension'
'radius error' 'texture error' 'perimeter error' 'area error'
'smoothness error' 'compactness error' 'concavity error'
'concave points error' 'symmetry error' 'fractal dimension error'
'worst radius' 'worst texture' 'worst perimeter' 'worst area'
'worst smoothness' 'worst compactness' 'worst concavity'
'worst concave points' 'worst symmetry' 'worst fractal dimension']
['malignant' 'benign']
D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\breast_cancer.csv
(569, 30)
(569,)
'''
用于回归
这是一个糖尿病的数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标,因此适合与回归任务;这里使用.load_diabetes(return_X_y)
来导出数据
from sklearn import datasets
dbt_data = datasets.load_diabetes() # 整体导出
X,y = datasets.load_diabetes(return_X_y = True) # 独立导出
#print(dbt_data.DESCR) # 描述
print(dir(dbt_data),'\n') # 数据集对象所含的成员
print(dbt_data.data.shape,'\n') # 样本集形状
print(dbt_data.target.shape,'\n') # 标签集形状
print(dbt_data.data[:1],'\n') # 第一个数据
print(dbt_data.target[:1],'\n') # 第一个标签
print(dbt_data.feature_names,'\n') # 特征名
print(dbt_data.data_filename,'\n') # 样本文件路径
print(dbt_data.target_filename,'\n') # 标签文件路径
print(X.shape) # 独立导出的样本集
print(y.shape) # 独立导出的标签集
'''
['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename']
(442, 10)
(442,)
[[ 0.03807591 0.05068012 0.06169621 0.02187235 -0.0442235 -0.03482076
-0.04340085 -0.00259226 0.01990842 -0.01764613]]
[151.]
['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_data.csv.gz
D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\diabetes_target.csv.gz
(442, 10)
(442,)
'''
用于多分类,0到9,图片大小8x8
这个数据集是经典的结构化数据,共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值,我们都知道图片在计算机的底层实际是矩阵,每个位置对应一个像素点,有二值图,灰度图,1600万色图等类型,在这个样本中对应的是灰度图,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字,这与我们之前接触的数据有很大区别;在这里我们使用load_digits(return_X_y)
来导出数据:
from sklearn import datasets
digits_data = datasets.load_digits()
X,y = datasets.load_digits(return_X_y = True) # 独立导出
#print(digits_data.DESCR) # 描述
print(dir(digits_data),'\n') # 数据集对象所含的成员
print(digits_data.data.shape,'\n') # 样本集形状
print(digits_data.target.shape,'\n') # 标签集形状
print(digits_data.data[:1],'\n') # 第一个数据
print(digits_data.target[:1],'\n') # 第一个标签
print(digits_data.feature_names,'\n') # 特征名
print(digits_data.target_names,'\n') # 标签名
print(digits_data.images[:1],'\n') # 以8x8形式显示图片数据,其实就是带格式的data
print(X.shape) # 独立导出的样本集
print(y.shape) # 独立导出的标签集
'''
['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']
(1797, 64)
(1797,)
[[ 0. 0. 5. 13. 9. 1. 0. 0. 0. 0. 13. 15. 10. 15. 5. 0. 0. 3.
15. 2. 0. 11. 8. 0. 0. 4. 12. 0. 0. 8. 8. 0. 0. 5. 8. 0.
0. 9. 8. 0. 0. 4. 11. 0. 1. 12. 7. 0. 0. 2. 14. 5. 10. 12.
0. 0. 0. 0. 6. 13. 10. 0. 0. 0.]]
[0]
['pixel_0_0', 'pixel_0_1', 'pixel_0_2', 'pixel_0_3', 'pixel_0_4', 'pixel_0_5', 'pixel_0_6', 'pixel_0_7', 'pixel_1_0', 'pixel_1_1', 'pixel_1_2', 'pixel_1_3', 'pixel_1_4', 'pixel_1_5', 'pixel_1_6', 'pixel_1_7', 'pixel_2_0', 'pixel_2_1', 'pixel_2_2', 'pixel_2_3', 'pixel_2_4', 'pixel_2_5', 'pixel_2_6', 'pixel_2_7', 'pixel_3_0', 'pixel_3_1', 'pixel_3_2', 'pixel_3_3', 'pixel_3_4', 'pixel_3_5', 'pixel_3_6', 'pixel_3_7', 'pixel_4_0', 'pixel_4_1', 'pixel_4_2', 'pixel_4_3', 'pixel_4_4', 'pixel_4_5', 'pixel_4_6', 'pixel_4_7', 'pixel_5_0', 'pixel_5_1', 'pixel_5_2', 'pixel_5_3', 'pixel_5_4', 'pixel_5_5', 'pixel_5_6', 'pixel_5_7', 'pixel_6_0', 'pixel_6_1', 'pixel_6_2', 'pixel_6_3', 'pixel_6_4', 'pixel_6_5', 'pixel_6_6', 'pixel_6_7', 'pixel_7_0', 'pixel_7_1', 'pixel_7_2', 'pixel_7_3', 'pixel_7_4', 'pixel_7_5', 'pixel_7_6', 'pixel_7_7']
[0 1 2 3 4 5 6 7 8 9]
[[[ 0. 0. 5. 13. 9. 1. 0. 0.]
[ 0. 0. 13. 15. 10. 15. 5. 0.]
[ 0. 3. 15. 2. 0. 11. 8. 0.]
[ 0. 4. 12. 0. 0. 8. 8. 0.]
[ 0. 5. 8. 0. 0. 9. 8. 0.]
[ 0. 4. 11. 0. 1. 12. 7. 0.]
[ 0. 2. 14. 5. 10. 12. 0. 0.]
[ 0. 0. 6. 13. 10. 0. 0. 0.]]]
(1797, 64)
(1797,)
'''
不妨绘制一下此数据集
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt
import numpy as np
digits = load_digits()
plt.gray() # 灰度显示
plt.matshow(digits.images[0]) # 在一个图形窗口中将数组作为矩阵展示
plt.show()
n_samples,n_features=digits.data.shape
fig = plt.figure(figsize=(6,6))
fig.subplots_adjust(left=0,right=1,bottom=0,top=1,hspace=0.05,wspace=0.05)
#绘制数字:每张图像8*8像素点
for i in range(64):
ax = fig.add_subplot(8,8,i+1,xticks=[],yticks=[])
ax.imshow(digits.images[i],cmap=plt.cm.binary,interpolation='nearest')
#用目标值标记图像
ax.text(0,7,str(digits.target[i]))
plt.show()
简单的用于多分类任务的数据集
著名的统计学家Fisher在研究判别分析问题时收集了关于鸢尾花的一些数据,这是个非常经典的数据集,datasets中自然也带有这个数据集;这个数据集包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本(target),以及它们各自对应的4种关于花外形的数据(自变量);这里我们使用.load_iris(return_X_y)
来导出数据
from sklearn import datasets
iris_data = datasets.load_iris()
#print(iris_data.DESCR) # 描述
print(dir(iris_data),'\n') # 数据集对象所含的成员
print(iris_data.data.shape,'\n') # 样本集形状
print(iris_data.target.shape,'\n') # 标签集形状
print(iris_data.data[:1],'\n') # 第一个样本
print(iris_data.target[:1],'\n') # 第一个标签
print(iris_data.feature_names,'\n') # 特征名
print(iris_data.target_names,'\n') # 标签名
print(iris_data.filename,'\n') # 标签文件路径
'''
['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']
(150, 4)
(150,)
[[5.1 3.5 1.4 0.2]]
[0]
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']
D:\Programmer\python\anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data\iris.csv
'''
不妨绘制一下此数据集
from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt
plt.figure(figsize=(12,6))
iris = load_iris()
# 绘制第3维数据直方图
plt.subplot(121)
x_index = 3 # x轴为 feature_names[3]
color=['blue','red','green']
for label,color in zip(range(len(iris.target_names)),color):
plt.hist(iris.data[iris.target==label,x_index],label=iris.target_names[label],color=color)
plt.xlabel(iris.feature_names[x_index])
plt.legend(loc="upper right")
#画散点图,第一维的数据作为x轴和第二维的数据作为y轴
plt.subplot(122)
x_index=0 # x轴为 feature_names[0]
y_index=1 # y轴为 feature_names[1]
colors=['blue','red','green']
for label,color in zip(range(len(iris.target_names)),colors):
plt.scatter(iris.data[iris.target==label,x_index],
iris.data[iris.target==label,y_index],
label=iris.target_names[label],
c=color)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index])
plt.legend(loc='upper right')
plt.show()
用于多分类问题
这是一个共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,非常适合用来练习各种分类算法;在这里我们使用.load_wine(return_X_y)
来导出数据
from sklearn import datasets
wine_data = datasets.load_wine()
#print(wine_data.DESCR) # 描述
print(dir(wine_data),'\n') # 数据集对象所含的成员
print(wine_data.data.shape,'\n') # 样本集形状
print(wine_data.target.shape,'\n') # 标签集形状
print(wine_data.data[:1],'\n') # 第一个样本
print(wine_data.target[:1],'\n') # 第一个标签
print(wine_data.feature_names,'\n') # 特征名
print(wine_data.target_names,'\n') # 标签名
'''
['DESCR', 'data', 'feature_names', 'frame', 'target', 'target_names']
(178, 13)
(178,)
[[1.423e+01 1.710e+00 2.430e+00 1.560e+01 1.270e+02 2.800e+00 3.060e+00
2.800e-01 2.290e+00 5.640e+00 1.040e+00 3.920e+00 1.065e+03]]
[0]
['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
['class_0' 'class_1' 'class_2']
'''
用于回归
Linnerud数据集是一个多输出回归数据集。它包括三个运动数据(样本)和三个生理指标变量(标签),收集自20名中年男性在健身俱乐部
from sklearn import datasets
linnerud_data = datasets.load_linnerud()
#print(linnerud_data.DESCR) # 描述
print(dir(linnerud_data),'\n') # 数据集对象所含的成员
print(linnerud_data.data.shape,'\n') # 样本集形状
print(linnerud_data.target.shape,'\n') # 标签集形状
print(linnerud_data.data[:1],'\n') # 第一个样本
print(linnerud_data.target[:1],'\n') # 第一个标签
print(linnerud_data.feature_names,'\n') # 特征名
print(linnerud_data.target_names,'\n') # 标签名
print(linnerud_data.data_filename,'\n') # 样本文件路径
print(linnerud_data.target_filename,'\n') # 标签文件路径
'''
['DESCR', 'data', 'data_filename', 'feature_names', 'frame', 'target', 'target_filename', 'target_names']
(20, 3)
(20, 3)
[[ 5. 162. 60.]]
[[191. 36. 50.]]
['Chins', 'Situps', 'Jumps']
['Weight', 'Waist', 'Pulse']
D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_exercise.csv
D:\programmer\Anaconda3\envs\sklearn36\lib\site-packages\sklearn\datasets\data/linnerud_physiological.csv
'''
Downloaded Dataset 都是比较大的数据集,主要用于测试解决实际问题,支持在线下载,下载数据集默认保存在当前文件夹的~/scikit_learn_data
路径下,可以通过两种方式进行配置
SCIKIT_LEARN_DATA
指定下载路径.fetch_*?
方法的第一个参数是data_home
,可以设置下载位置通过datasets.get_data_home()
获取下载路径。
全部加载方法
datasets.fetch_20newsgroups
datasets.fetch_20newsgroups_vectorized
datasets.fetch_california_housing
datasets.fetch_covtype
datasets.fetch_kddcup99
datasets.fetch_lfw_pairs
datasets.fetch_lfw_people
datasets.fetch_mldata
datasets.fetch_olivetti_faces
datasets.fetch_rcv1
datasets.fetch_species_distributions