12 GPU加速

本文主要讲述了,如何使用GPU加速矩阵乘法。

![[Pasted image 20230718164359.png]]12 GPU加速_第1张图片

上图显示了GPU的架构。

如果能将数据从global memory 预取到shared memory,将能加快矩阵乘法计算。

12 GPU加速_第2张图片
12 GPU加速_第3张图片

上图中的预取部分,还可以细化到每隔线程去一部分数据到 shared memory

我们将 S ∗ L S*L SL大小的数据取到 sA sB中。

每个线程负责计算一小块区域 V ∗ V V*V VV大小的区域

你可能感兴趣的:(deep,learning,system,矩阵)