CUDA——wmma Tensor Core编程

  1. share memory空间的申请
__shared__ int smem[1024]
  1. load_matrix_sync 从share memory load一个matrix到fragment中
wmma::load_matrix_sync(fragment<matrix_a/matrix_b, M, N, K, DType, row_major/col_major>& frag,
const DType* p, unsigned ldm)

该接口是一个warp级别的操作, 不需要指定每个thread load的memory地址。
在load过程中如果不同线程访问同一个bank的不同地址,可能会有bank conflict存在。

你可能感兴趣的:(cuda,cuda)