机器学习数据读取

不同来源的数据集的读取方式不同
批量读取数据或者分批次读取数据

遇到大的文件,需要分块读取的方式
机器学习数据读取_第1张图片

import pandas as pd

# 读取前1000行数据
data = pd.read_csv('data.csv',nrows =1000)
#只读第一列,想读哪一列就在后面写哪一列 
df=pd.read_csv("data.csv",usecols=colums_label)

#设置chunksize参数,来控制每次迭代数据的大小,分块读取
chunker = pd.read_csv("./train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #
    print(len(item))
    #5

# 读取数据
csv_data = pd.read_csv('file1.csv')  

#取一半行的数据,并存储到新的文件
df=data[0:(int)(data.shape[0]/2)]
df.to_csv(path_or_buf='file2.csv',index=False)

#取某些列,按照新的顺序排列,并存储到新的文件
df = pd.DataFrame()
df=(csv_data.loc[:,['workclass', 'education',  'capital_loss', 'hours_per_week']])
df.to_csv(path_or_buf='file2.csv',index=False)

# 数据分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)

# 这是经常的情况,最终的target在最后一列
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

你可能感兴趣的:(Python,python,机器学习)