pandas dataframe 如何打乱数据

pandas dataframe 如何打乱数据

背景

主要是我们在进行机器学习训练过程中,我们经常拿到的数据是有序,但是为了取得的数据能够覆盖每一个分布,需要对数据进行重新洗牌。

三种方法

1.df.sample()

df.sample(frac=0.5)

frac表示数据集中挑选出数据的比例
如上述代码,df是你的数据集,frac=0.5,表示随机挑选50%的数据。

2.应用sklearn中shuffle方法

from sklearn.utils import shuffle
df = shuffle(df,n_samples=1)

df表示原来的数据集
n_sample:打乱挑选的数据个数

3.通过index进行选择

dataframe索引默认是int,可以通过生成某一范围内的随机数按照index值进行索引

shuffle_index = np.random.permutation(len(df))
df.iloc[shuffle_index]

你可能感兴趣的:(python,大数据)