pandas数据预处理时的一些坑

1) 在使用pd.concat([df1,df2],axis=1)对数据进行纵向合并时,要注意默认是对应行索引进行合并。如果之前对数据进行过类似于去除样本的操作,要注意对两个数据集的行索引进行重复定义,否则会合并错位。

df1.index = range(len(df1))
df2.index = range(len(df2))
df = pd.concat([df1,df2],axis=1)

2) 做数据的时候使用了shuffle这个函数,它的作用是将数据随机打乱。如果有些数据集的Y值或特征值等随着行索引表现出明显的规律性变化,则要小心。因为这个会影响交叉严重的结果。所以要注意对数据进行随机化打乱,还要注意记住random_state的值,以使结果可重复

from sklearn.utils import shuffle #utils在英语中是跑龙套/小工具的意思
df1 = shuffle(df1,random_state=33)

你可能感兴趣的:(python数据清洗)