CUDA编程

银河系CUDA编程指南(3)——矩阵乘法的分块实现

银河系CUDA编程指南(3)——矩阵乘法的分块实现 - 知乎0 写在前面前面一节实现了一个朴素的GPU矩阵乘法,效果和使用cublas库差距极大。其中一个原因就是因为对全局存储器 ( global memory) 的访问。全局内存通常使用DRAM(动态随机访问存储器)实现,在访问时可能出现长…https://zhuanlan.zhihu.com/p/434513198

你可能感兴趣的:(cuda)