cudaMallocManaged

该函数分配的内存,所有设备与主机均可访问(与统一内存管理有关);

核函数调用之后必须调用下列函数等待设备完成访问,CPU才能进行访问;

cudaDeviceSynchronize()

CUDA8.0,SM6.x之后,使用cudaMalloc默认使用同一内存管理。

注:windows,mac Os 目前只支持基本的统一内存管理属性,不支持SM6.x之后的统一内存管理属性。

可以使用cudaStreamAttachMemAsync(),将内存与流绑定,则能够并发访问。

统一内存管理:

基本属性:并不减少运行时间,只是将内存与设备内存之间的拷贝透明化,使得编程更清晰;GPU优先独占所有统一管理的内存,即,GPU在使用的任意内存时,CPU都不能访问;

高级属性:当访问设备访问内存时,细粒度的按需复制,或更换页指向,保证能够访问到;49位内存寻址,CPU与GPU可以同时访问不同的内存。

基本属性,并不减少运行时间,只是将内存与设备内存之间的拷贝透明化,使得编程更清晰;

 

使用cudaMallocManaged()函数分配内存时,如果核函数调用之后不使用cudaDeviceSynchronize()同步,而在主机端直接访问内存可能产生异常,报“代码地址访问该内存地址失败”

你可能感兴趣的:(CUDA)