nccl cudaLaunch kernel

这次希望看一下,ncclAllReduce(  )中的 ncclSum 是如何转换成 对应的 cuda Kernel来被执行到的。

其中,cudaLaunchKernel的参数的数据流如下图所示:

nccl cudaLaunch kernel_第1张图片

我们需要弄清楚,其中的变量 __thread struct ncclComm* ncclGroupCommHead = nullptr;

是如何关联到fn上的。

你可能感兴趣的:(NCCL)