08机器学习——sklearn数据集

08机器学习——sklearn数据集

1.数据集的划分
数据分为训练集和测试集,一般训练集占大部分
08机器学习——sklearn数据集_第1张图片训练集的目的就是为了建立模型,测试集用来评估模型,针对不同的算法评估的标准是不一样的
08机器学习——sklearn数据集_第2张图片
08机器学习——sklearn数据集_第3张图片

2.sklearn数据集接口介绍
08机器学习——sklearn数据集_第4张图片
08机器学习——sklearn数据集_第5张图片

3.sklearn分类数据集
08机器学习——sklearn数据集_第6张图片

from sklearn.datasets import load_iris
li=load_iris()
print('获取特征值')
print(li.data)
print('目标值')
print(li.target)

结果:
08机器学习——sklearn数据集_第7张图片

08机器学习——sklearn数据集_第8张图片

四列特征值,每一个值代表一个样本
目标值中,前面50个都是0这个类别,中间50个都是1这个类别,最后50个都是2这个类别

打印它的描述

print(li.DESCR)

其中:
08机器学习——sklearn数据集_第9张图片
Attribute Information里面的内容表示,四个特征的含义是什么(这里就是花的一些特征)

在这里插入图片描述
class表示花的类别,这里有三种花的类别
08机器学习——sklearn数据集_第10张图片

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
li=load_iris()
#注意返回值,训练集 train, x_train(训练集里面的特征值) y_train(训练集里面的目标值),测试集 test, x_test(测试集里面的特征值),y_test(测试集里面的目标值)
#先都是特征值,再都是目标值(固定顺序)
x_train,x_test,y_train,y_test=train_test_split(li.data,li.target,test_size=0.25)
print('训练集特征值和目标值:',x_train,y_train)
print('测试集特征值和目标值:',x_test,y_test)

结果:
08机器学习——sklearn数据集_第11张图片
08机器学习——sklearn数据集_第12张图片
08机器学习——sklearn数据集_第13张图片
08机器学习——sklearn数据集_第14张图片

其实就是把样本的一部分当作测试集,并且是乱序的

获取新闻数据集

08机器学习——sklearn数据集_第15张图片

from sklearn.datasets import load_iris,fetch_20newsgroups
li=load_iris()
news=fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)

4.sklearn回归数据集

08机器学习——sklearn数据集_第16张图片

from sklearn.datasets import load_iris,fetch_20newsgroups,load_boston
lb=load_boston()
print('获取特征值')
print(lb.data)
print('目标值')
print(lb.target)
print(lb.DESCR)

结果:
08机器学习——sklearn数据集_第17张图片
08机器学习——sklearn数据集_第18张图片
目标值是一个个连续型的值
08机器学习——sklearn数据集_第19张图片
还有许多属性等等

你可能感兴趣的:(机器学习,机器学习,python,大数据)