torch.cuda.synchronize()同步统计pytorch调用cuda运行时间

之前发现算法处理完的tensor从gpu转到cpu很耗时,一直找不到解决方法,后面看到有人说测试时间要先同步

torch.cuda.synchronize()
start = time.time()
result = model(input)
torch.cuda.synchronize()
end = time.time()

才发现耗时的不是这个转换过程
这是因为CUDA kernel函数是异步的,所以不能直接在CUDA函数两端加上time.time()测试时间,这样测出来的只是调用CUDA api的时间,不包括GPU端运行的时间。
我们需要要加上线程同步函数,等待kernel中所有线程全部执行完毕再执行CPU端后续指令。上面代码我们将同步指令加在了python端,用的是torch.cuda.synchronize函数。
其中第一次同步是为了防止前面的代码中有未同步还在GPU端运行的指令,第二次同步就是为了等result = model(input)所有线程执行完毕后再统计时间。
关于同步和异步的区别,参考下面两图
torch.cuda.synchronize()同步统计pytorch调用cuda运行时间_第1张图片
torch.cuda.synchronize()同步统计pytorch调用cuda运行时间_第2张图片

Ref:
pytorch 正确的测试时间的代码 torch.cuda.synchronize()
PyTorch自定义CUDA算子教程与运行时间分析
同步(Synchronous)和异步(Asynchronous)

你可能感兴趣的:(深度学习,python,深度学习,人工智能,pytorch,机器学习)