sklearn中数据集与xlsx文件的互转

没用过pandas库的直接用sklearn库想必会一脸懵逼:训练的数据明明保存在xlsx文件当中,该如何变成sklearn可用的数据集呢?于是针对y在最后一列的情况,写了下面两个通用模板……

(以玩具数据集iris为例,实际运用中只需修改lst1和lst2,兼容方便)

将数据集转存为xlsx文件:

import pandas as pd
import numpy as np
from sklearn import datasets
iris = datasets.load_iris()

lst1, lst2 = iris.data, iris.target#lst1是训练集中的x,lst2是训练集中的y
xi = ['x'+str(i+1) for i in range(len(lst1[0]))]
df = pd.DataFrame(lst1, columns=xi)
df['y'] = lst2
df.to_excel("try2.xlsx", index=False)

将xlsx文件读取成需要的数据集:

df = pd.read_excel('try2.xlsx')
# 行列互换
df2 = df.stack()
df3 = df2.unstack(0)
#
lst = df3.values.tolist()  # 转列表
lst1, lst2 = lst[:-1], lst[-1]
data, target = lst1, lst2
print(data)
print(target)

你可能感兴趣的:(sklearn库)