PyTorch多卡/多GPU/分布式DPP的基本概念(node&rank&local_rank&nnodes&node_rank&nproc_per_node&world_size)
node物理节点,就是一台机器,节点内部可以有多个GPU(一台机器有多卡)。rank&local_rank用于表示进程的序号,用于进程间通信。每一个进程对应了一个rank。rank=0的进程就是master进程。local_rank:rank是指在整个分布式任务中进程的序号;local_rank是指在一台机器上(一个node上)进程的相对序号,例如机器一上有0,1,2,3,4,5,6,7,机器二上