主要是我们在进行机器学习训练过程中,我们经常拿到的数据是有序,但是为了取得的数据能够覆盖每一个分布,需要对数据进行重新洗牌。
df.sample(frac=0.5)
frac表示数据集中挑选出数据的比例
如上述代码,df是你的数据集,frac=0.5,表示随机挑选50%的数据。
from sklearn.utils import shuffle
df = shuffle(df,n_samples=1)
df表示原来的数据集
n_sample:打乱挑选的数据个数
dataframe索引默认是int,可以通过生成某一范围内的随机数按照index值进行索引
shuffle_index = np.random.permutation(len(df))
df.iloc[shuffle_index]