Pytorch中DataLoader类的多线程实现方法分析

之前在改自定义的DataSet的时候，由于在getitem()里面写了太多操作，导致训练过程贼慢，于是考虑用多线程优化一下。查阅一些资料发现pytorch在DataLoader里面就有多线程的实现，只要在定义的时候将num_worker设置成大于0就可以了。遂想要探索一下pytorch具体的实现方法。

首先找到迭代器：

def __iter__(self):
    return _DataLoaderIter(self)

初始化：

def __init__(self, loader):
    self.dataset = loader.dataset
    self.collate_fn = loader.collate_fn
    self.batch_sampler = loader.batch_sampler
    self.num_workers = loader.num_workers
    self.pin_memory = loader.pin_memory and torch.cuda.is_available()
    self.timeout = loader.timeout
    self.done_event = threading.Event()

    self.sample_iter = iter(self.batch_sampler)

    base_seed = torch.LongTensor(1).random_().item()

collate_fn：将数据整合成一个batch返回的方法，用户可以自定义
batch_sampler：自定义如何取样
pin_menory：是否将数据集拷贝到显卡上
done_event：事件管理标志
sample_iter：迭代器，所以batch_sampler应该类似于用户自定义的一个数据的列表，用来生成可迭代对象sample_iter。

下面是与多线程有关的一些定义：

if self.num_workers > 0:
    self.worker_init_fn = loader.worker_init_fn
    self.index_queues = [multiprocessing.Queue() for _ in range(self.num_workers)]
    self.worker_queue_idx = 0
    self.worker_result_queue = multiprocessing.SimpleQueue()
    self.batches_outstanding = 0
    self.worker_pids_set = False
    self.shutdown = False
    self.send_idx = 0
    self.rcvd_idx = 0
    self.reorder_dict = {}

    self.workers = [
         multiprocessing.Process(
            target=_worker_loop,
            args=(self.dataset, self.index_queues[i],
                  self.worker_result_queue, self.collate_fn, base_seed + i,
                  self.worker_init_fn, i))
            for i in range(self.num_workers)]

worker_init_fn：用户定义的每个worker初始化的时候需要执行的函数。
index_queues：这里用到了multiprocessing，pytorch的multiprocessing是对python原生的multiprocessing的一个封装，不过好像基本没什么变化。这里定义一个队列，multiprocessing的Queue类（这个Queue的父类）提供了put()和get()方法，用来向队列中增加线程和移除线程并返回结果。Pytorch的封装另外提供了send()和recv()方法，用来接收和读取缓存，具体实现和作用这里暂且按下不表。通过阅读后面的代码发现，这个队列里面返回的是当前数据在数据集中的位置。

workers：创建用户定义数量的线程，首先来看这个_worker_loop

def _worker_loop(dataset, index_queue, data_queue, collate_fn, seed, init_fn, worker_id):
    global _use_shared_memory
    _use_shared_memory = True

    # Intialize C side signal handlers for SIGBUS and SIGSEGV. Python signal
    # module's handlers are executed after Python returns from C low-level
    # handlers, likely when the same fatal signal happened again already.
    # https://docs.python.org/3/library/signal.html Sec. 18.8.1.1
    _set_worker_signal_handlers()

    torch.set_num_threads(1)
    random.seed(seed)
    torch.manual_seed(seed)

    if init_fn is not None:
        init_fn(worker_id)

    watchdog = ManagerWatchdog()

    while True:
        try:
            r = index_queue.get(timeout=MANAGER_STATUS_CHECK_INTERVAL)
        except queue.Empty:
            if watchdog.is_alive():
                continue
            else:
                break
        if r is None:
            break
        idx, batch_indices = r
        try:
            samples = collate_fn([dataset[i] for i in batch_indices])
        except Exception:
            data_queue.put((idx, ExceptionWrapper(sys.exc_info())))
        else:
            data_queue.put((idx, samples))
            del samples

_set_worker_signal_handlers()：是一个C函数，作用可以通过字面理解。
torch.set_num_threads(1)：设置线程数为1
下面两句固定了python和pytorch产生的随机数。
watchdog：查看管理进程状态是否改变

接下来的代码就可以理解了：每个worker的工作其实就是从index序列中读取当前数据在数据集中的序号，然后将对应的数据从数据集中取出来，扔到collate_fn中形成一个batch，再把batch扔到数据序列中，完成一次工作循环。

一直都没有接触多线程，正好这次了解一下多线程的基本写法以及思想，且作为第一篇文章更出来吧。
后面还有一些代码，坑想起来再填~

Pytorch中DataLoader类的多线程实现方法分析

你可能感兴趣的:(Pytorch中DataLoader类的多线程实现方法分析)