机器学习自学笔记(1)sklearn数据集的简单使用

sklearn简介

Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:

简单高效的数据挖掘和数据分析工具
让每个人能够在复杂环境中重复使用
建立NumPy、Scipy、MatPlotLib之上

安装

pip install sklearn

数据集简单使用

导入数据集

一般使用load_*l来导入小规模的数据集,使用fetch_*导入大规模数据集。
示例:

#导入小规模数据集---iris(鸢尾花数据集)
from sklearn.datasets import load_iris

数据集返回内容

database.base.Bunch(一个继承自字典的格式)
机器学习自学笔记(1)sklearn数据集的简单使用_第1张图片
获取相应数据的方法:

	#方法一
    print("查看数据集描述:\n",iris["DESCR"])
    #方法二
    print("查看特征值的名字\n",iris.feature_names)

数据集的划分

通常我们获取到一整个数据集之后,不能全部都用来训练。我们通常使用其中的20%左右来进行模型效果的测试。
使用sklearn.model_selection.train_test_split可以进行划分
机器学习自学笔记(1)sklearn数据集的简单使用_第2张图片
示例:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
    """
    sklean数据集使用
    :return:
    """
    #获取数据集
    iris= load_iris()
    print("鸢尾花数据集:\n",iris)
    print("查看数据集描述:\n",iris["DESCR"])
    print("查看特征值的名字\n",iris.feature_names)
    print("查看特征值\n",iris.data,iris.data.shape)

    #数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print("训练集的特征值:\n",x_train,x_train.shape)

    return None

if __name__ == '__main__':
    #sklean数据集使用
    datasets_demo();

你可能感兴趣的:(机器学习自学笔记,机器学习)