我在实践 MindSpore 官方教程 数据采样部分 数据采样 — MindSpore master documentation
我在尝试dataset的add_sampler方法时,遇到了一些问题: 请看如下代码:
import mindspore.dataset as ds
# 自定义采样器
class MySampler(ds.Sampler):
def __iter__(self):
for i in range(0, 10, 2):
yield i
# 自定义数据集
np_data = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l']
# 加载数据
def work():
dataset = ds.NumpySlicesDataset(np_data, column_names=["data"],shuffle=False)
sampler = ds.IterSampler(sampler=MySampler())
dataset.add_sampler(sampler)
for data in dataset.create_tuple_iterator():
print(data[0], end=' ')
def work2():
sampler = ds.IterSampler(sampler=MySampler())
dataset = ds.NumpySlicesDataset(np_data, column_names=["data"],sampler=sampler)
for data in dataset.create_tuple_iterator():
print(data[0], end=' ')
work()
print()
work2()
work函数 和work2函数中,使用了与官方教程(自定义采样器部分)相同的数据集与Sampler,并打印dataset的内容。
在work函数中,我先创建了dataset 再创建Sampler 并使用add_sampler方法为dataset添加Sampler
在work2函数中,我在创建dataset的同时指定了Sampler。
两种方法的输出不相同:work2方法的输出符合预期,而work方法的输出 全部输出了数据集的第一项:
[root@localhost zyb_work]# python work.py
a a a a a
a c e g i
想咨询一下,这是正确的现象吗?如何使得work方法输出也同样符合预期?
****************************************************解答*****************************************************
经定位,自定义Sampler使用`add_sampler`方法时存在bug,返回结果将全部变为父采样器首个索引对应的值,我们将尽快修复此问题,预计在下个版本中体现。
现阶段请您使用work2中的方式调用自定义Sampler,避免使用自定义Sampler构建采样器链。
修复PR:https://gitee.com/mindspore/mindspore/pulls/44012
只需要一个Sampler的话,应该用use_sampler接口,add_sampler是添加多个Sampler时用的