DateSet 使用 app_sampler 方法 添加自定义Sampler 打印结果不符合预期

我在实践 MindSpore 官方教程 数据采样部分 数据采样 — MindSpore master documentation

我在尝试dataset的add_sampler方法时,遇到了一些问题: 请看如下代码:

import mindspore.dataset as ds
# 自定义采样器
class MySampler(ds.Sampler):
    def __iter__(self):
        for i in range(0, 10, 2):
            yield i

# 自定义数据集
np_data = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l']

# 加载数据
def work():
    dataset = ds.NumpySlicesDataset(np_data, column_names=["data"],shuffle=False)
    sampler = ds.IterSampler(sampler=MySampler())
    dataset.add_sampler(sampler)

    for data in dataset.create_tuple_iterator():
        print(data[0], end=' ')

def work2():
    sampler = ds.IterSampler(sampler=MySampler())
    dataset = ds.NumpySlicesDataset(np_data, column_names=["data"],sampler=sampler)
    for data in dataset.create_tuple_iterator():
        print(data[0], end=' ')

work()
print()
work2()

work函数 和work2函数中,使用了与官方教程(自定义采样器部分)相同的数据集与Sampler,并打印dataset的内容。

在work函数中,我先创建了dataset 再创建Sampler 并使用add_sampler方法为dataset添加Sampler

在work2函数中,我在创建dataset的同时指定了Sampler。

两种方法的输出不相同:work2方法的输出符合预期,而work方法的输出 全部输出了数据集的第一项:

 [root@localhost zyb_work]# python work.py
a a a a a
a c e g i

想咨询一下,这是正确的现象吗?如何使得work方法输出也同样符合预期?

****************************************************解答*****************************************************

经定位,自定义Sampler使用`add_sampler`方法时存在bug,返回结果将全部变为父采样器首个索引对应的值,我们将尽快修复此问题,预计在下个版本中体现。

现阶段请您使用work2中的方式调用自定义Sampler,避免使用自定义Sampler构建采样器链。

修复PR:https://gitee.com/mindspore/mindspore/pulls/44012

只需要一个Sampler的话,应该用use_sampler接口,add_sampler是添加多个Sampler时用的

你可能感兴趣的:(深度学习,python,开发语言)