sklearn.datasets--学习笔记

  1. 自带的经典小数据集
    1. 波士顿房价数据:
      1. 适用于回归任务
      2. 包含了506处波士顿不同地理位置的房产的房价数据(因变量),和与之对应的包含房屋以及房屋周围的详细信息(自量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等13个维度的数据。
      3. 使用
        load_boston(return_X_y=False)
        方法来导出数据,其中参数return_X_y控制输出数据的结构,若选为True,则将因变量和自变量独立导出;
    2. 威斯康辛州乳腺癌数据:
      1. 适用于分类问题
      2. 包含了威斯康辛州记录的569个病人的乳腺癌恶性/良性(1/0)类别型数据(训练目标),以及与之对应的30个维度的生理指标数据;因此这是个非常标准的二类判别数据集,使用
        load_breast_cancer(return_X_y)
        来导出数据:
    3. 糖尿病数据:
      1. 适用于回归任务
      2. 包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标,因此适合与回归任务;使用
        load_diabetes(return_X_y)
        来导出数据。
    4. 手写数字数据集:
      1. 适用于分类任务
      2. 是结构化数据的经典数据,共有1797个样本,每个样本有64的元素,对应到一个8x8像素点组成的矩阵,每一个值是其灰度值(控制每一个像素的黑白浓淡)
      3. 每个样本还原到矩阵后代表一个手写体数字
      4. 使用
        load_digits(return_X_y)
        来导出数据
    5. Fisher的鸢尾花数据:
      1. 适用于分类问题
      2. 包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本(target),以及它们各自对应的4种关于花外形的数据(自变量)
      3. 使用
        load_iris(return_X_y)
        来导出数据
    6. 红酒数据:
      1. 适用于分类问题
      2. 共178个样本,代表了红酒的三个档次(分别有59,71,48个样本),以及与之对应的13维的属性数据,非常适合用来练习各种分类算法;
      3. 使用
        load_wine(return_X_y)
        来导出数据
    7. 以上还可以在sklearn\datasets_base.py文件中查看信息:种类数目,每类的数量,维度
  2. 自定义的数据集:
    1. 产生服从正态分布的聚类用数据
    2. 产生同心圆样本点    
    3. 生成模拟分类数据集(wsy:应该和层次聚类有关)
    4. 生成太极型非凸集样本点
  3. 较大的需要下载的数据集:
    1. 用datasets.fetch_xx()加载。
    2. openml.org 是一个用于机器学习数据和实验的公共存储库,它允许每个人上传开放的数据集,可以通过sklearn.datasets.fetch_openml()函数来从openml.org下载数据集。

你可能感兴趣的:(dataset,sklearn,学习,python)