数据集有时候很大,通过程序对所有的数据都进行处理可能成本太高,于是我看到了choice函数,通过这个函数我们可以产生一些随机的序列,以便对数据集中的数据进行随机采样。之前没有细细考虑其中每一个参数的含义,今天看到教材中解释replace参数,突然想到前段时间写的代码里出现了这个参数,当时设置为了False,并不理解是什么意思,今日仔细看了一下,以此记录。
no_record = 10
x_sample_index = np.random.choice(range(20), no_record)
print(x_sample_index)
x_sample_index = np.random.choice(range(20), no_record, replace=False)
print(x_sample_index)
上述代码运行结果如下:
[ 6 11 11 2 1 5 14 7 4 12]
[14 7 19 18 3 13 10 1 11 8]
replace参数默认为True,即产生的随机序列里可能有重复值,我们可以看到第一行运行结果出现了两个11;将replace参数设置为False,即不允许产生重复的数值,我们可以看到第二行没有重复值。
以上仅为个人理解,若有理解不当之处,欢迎批评指正!!!