Python简单随机抽样之choice的replace参数解释

数据集有时候很大,通过程序对所有的数据都进行处理可能成本太高,于是我看到了choice函数,通过这个函数我们可以产生一些随机的序列,以便对数据集中的数据进行随机采样。之前没有细细考虑其中每一个参数的含义,今天看到教材中解释replace参数,突然想到前段时间写的代码里出现了这个参数,当时设置为了False,并不理解是什么意思,今日仔细看了一下,以此记录。

no_record = 10
x_sample_index = np.random.choice(range(20), no_record)
print(x_sample_index)
x_sample_index = np.random.choice(range(20), no_record, replace=False)
print(x_sample_index)

上述代码运行结果如下:

[ 6 11 11  2  1  5 14  7  4 12]
[14  7 19 18  3 13 10  1 11  8]

replace参数默认为True,即产生的随机序列里可能有重复值,我们可以看到第一行运行结果出现了两个11;将replace参数设置为False,即不允许产生重复的数值,我们可以看到第二行没有重复值。

以上仅为个人理解,若有理解不当之处,欢迎批评指正!!!

你可能感兴趣的:(python,数据分析)