部分UCI数据集分享

UCI数据集官网链接 https://archive.ics.uci.edu/ml/datasets.php
下面是部分UCI数据集包括 “Breastcancer”,“BreastEW”,“Exactly”,“HeartEW”,“Hillvalley”,“Libras”,“LVST”,“Musk1”,“Parkinsons”,“Sonarall”,“Spectf”,“Tic-tac-toe”,“Vote”,“WDBC”,"Wine"等
数据集均为.csv格式 其中第一列为样本属性。
百度网盘链接链接:https://pan.baidu.com/s/1kLXFKBFHGJpeNQWYDF7IFw
提取码:2mun
部分UCI数据集分享_第1张图片

import pandas as pd
import numpy as np
def dataset_load(dataset):
    data = pd.read_csv(dataset,header = None)
    data = np.array(data)
    n, m = data.shape
    #数据预处理,将离散变量转变为数字量
    for one in range(m):
        col=data[:,one]
        #是数字类型
        if (str(list(col)[0]).split(".")[0]).isdigit() or str(list(col)[0]).isdigit() or ((str(list(col)[0]).split('-')[-1]).split(".")[-1].isdigit()and(str(list(col)[0]).split('-')[0]).isdigit()):
            data[:,one]=data[:,one]
        #是字符类型
        else:
            data[:,one]=pd.factorize(data[:,one])[0].astype(np.uint16)
    x = data[:,1:] #x为特征
    y = data[:,0]  #y为标签
    return x,y
if __name__=='__main__':
    dataset='Wine.csv' #这里注意将数据集和程序放在同一路径
    x,y=dataset_load(dataset)         #读入数据 
    print(x)

如有问题欢迎大家讨论。

你可能感兴趣的:(python)