序言:从上一篇《 CUDA编程接口(二)------一十八般武器》到现在,差不多有三个月了,不知道大家在“暑假”里面过得怎么样,又经历了什么?花了两个星期的睡觉前的时间,看完了《明朝那些事儿》的第五本,看看明朝的兵器,再想想自己学习的飞行器设计专业,感慨万千。明朝的兵器已经是当时世界最先进的水平了,可是现在的情况,飞行器设计专业出来的我,看到国外飞机的发展,只是感觉脸庞发热,泱泱大国,经历了几个世纪的创伤,到什么时候才能恢复当年盛世,万国朝拜。看到奥运中国的金牌数飞速的上升,当人们还在关注金牌数的时候,却又多少人真正理解体育的意义?体育精神不只是金牌,看看中国的金牌数和奖牌总数,再看看美国的奖牌总数,或许也只能说,改革开放让一部分人先富起来,体育也不例外。看崔永元主持的奥运节目,更多的关注的都是没拿到金牌的运动员,值得反思……从初中校足球队一员,到高中校田径队一员,大学参加过很多运动会;从小学的每次运动会倒数第一,到高中平校记录,到大学,破学院的记录,又有多少人明白期间多少年的锻炼的过程?又有多少人明白其中坚持的意义?或许只有运动员自己明白。参与、感受、坚持,每一次起跑背后是多少次的磨炼;每次终点过后,还会有多少人关注?用心去体会,用心去感受,用更包容的心去对待别人,也会得到别人更宽容的心。或许是这三个月又经历了一些,感情,金钱,事业……每一个过程,每一个心态,坚持下来,跨过去一个事情的时候,就是一个小case了,坚持~go on!

言归正传:谈到内存的访问,其实也就是几个API函数的调用,感觉也没什么好讲的,知道cudaMalloc,知道cudaMemcpy,还有cudaFree,就应该可以对device上的内存进行分配,然后就可以在device上使用内存。但是就像我们看运动会一样,只看100米的那不到10秒的时间,也许你只会说,他跑得真快。又有多少人能清楚其过程中的磨炼啦?要真正理解device上内存的调度访问,让我们的程序达到更快的速度,就得对内存访问的情况做更深入的了解,明白其中的过程。

我记得大学刚开始上编程语言的课程的时候,都会讲到内存的分配和内存的释放,但是一般都是在书的最后面才会讲内存的对齐,内存的空间布局。就像C++一样,或许你学习了好几年,用了它好多年,但是你是否清楚class的内存布局?知道虚表是怎么一个内存访问过程?就像做网络,当做到一定地步的时候,才会发现数据从一段传递到另一段的时候数据发生了变化,内容不对了,定义的结构体传递到另一边的时候就错位了。当在使用SSE对数据处理加速的时候,是否为内存对齐的问题头疼?说了这么多,或许有人在烦了~~~讲正题吧,这些部分或许只有自己真正在实际运用中遇到问题,才会去考虑的,不过还是希望大家能在遇到问题之前,就能掌握解决问题的能力。不是在遇到美女的时候才开始刮胡子,平时的习惯就要养好。

前面这一段话或许只是生活的一些经历,其实可以跳过,当遇到的时候再回来看看:)我们还是按部就班的来讲解device上内存的访问吧。这么多年的发展,内存的价格是越来越便宜,但是有谁知道当你做编织内存的时候,很多人的眼睛都被弄瞎过啦,为她们当年为计算机作出的贡献bless一下。

还记得小时候经常看枪战片,看到小马哥端着枪一个劲的扫射,哪个帅啊~~不过后来稍微大一些以后,心理面一直有一个疑问,×××用不完?一次能装多少×××啊~就那么小的弹夹。8发×××的×××在帅哥哥手里可以搞定十几个人~还不装弹- 囧!一般的自动×××一般都是8发,14发,最多的驳壳枪(毛瑟枪)也才能装20发×××。你要说人家是《第一滴血4》里面的史泰龙可以开着战车上面的M2HB12.7mm重机枪,×××不用弹夹,一次可以装几千发的弹;对,人家是DMA直接内存访问,不是通过弹夹访问的,不需要处理器来中转数据。G80支持的内存访问的能力是一次访问4bytes,8byets或者16bytes,G80有三种弹夹,一种可以一次装4发×××,一种是8发×××,还有16发的。

Global Memory 在访问过程中没有Cache,就像以前的×××一样,打一枪以后,装药,然后才能打下一枪。每次的访问时间是400-600个clock(core 跑的时钟)延迟。所以在CUDA编程中,其中一个瓶颈就是内存访问。利用SDK提供的bandwidthTest可以测试到host到device,device到host,device到device的传输性能。虽然PCIE有3.2G/s的理论值,但实际达不到这么多。Device to Device的传输能达到89G/s(GTX260)左右,理论值是90G/s(GTX260)也达到差不多了。这个地方每个人显卡不一样,主板不一样,设置环境不同,也不一定一样。

Device上active的一个warp有32个线程,但是实际是16个thread同时在运行,就是half warp。当half warp的16个threads访问内存的时候,最好让16个thread依次对着相对应的内存地址,这样的时候才能保证Coalesced Access。如下图[url]http://www.isi.edu/~ddavis/GPU/Course/Slides/GPU+CUDA.pdf[/url]:

7. CUDA内存访问(一)提高篇------按部就班 ------GPU的革命_第1张图片如果还没明白,看解释,每一个thread一次访问对应的内存地址,不互相交错,这样就不会卡壳了~。如果有交错了,就会出现下面的情况 Uncoalesced Access,

7. CUDA内存访问(一)提高篇------按部就班 ------GPU的革命_第2张图片小时候玩过仿照×××的,自动的转动肯定会很快把×××打完,没看到谁打完第1颗,再去打第3颗,再回来打第2颗×××的~……这里也不多做解释了~

下面是一个例子,也是刚才那个连接上的:

把一个Uncoalesced float3 Code的代码优化为Coalesced的代码的过程:

7. CUDA内存访问(一)提高篇------按部就班 ------GPU的革命_第3张图片Float3是12bytes,每一个thread就会读取3个float。还记得我们前面说过的每次换一个弹夹是4,8,或者16,但是明显float3不等于这些。还记得active thread是怎么工作的吧?如果不记得了最好参看前面的thread工作的章节。Warp工作的时候是16个threads一起运作的,所以同时就有16个threads访问内存,加起来就是16*3*4(16个threds,float3是3个float,每个float有4个byte), 192个bytes。所以就造成了Uncoalesced Access。

下面怎么来解决这个问题,一个图:

7. CUDA内存访问(一)提高篇------按部就班 ------GPU的革命_第4张图片看看这个图,然后再看一段代码:

7. CUDA内存访问(一)提高篇------按部就班 ------GPU的革命_第5张图片自己先算一下,这里是怎么一个访问过程。

下面解释:我们设置block的thread为256,然后当大家都执行第一条存储命令s_data[threadIdx.x] = g_in[index],还记得block内的thread的执行模型吗?SIMP,一条指令,同时256个threads都要执行完,才会执行下一个指令。

这里其实用到了shared memory来作为中转,避免了global内存访问的Uncoalesced。如果结构体不是size(4,8,16)还有内存强制对齐的方式来使得global访问的coalesced。例如用__align(x)来强制对齐内存,但是这里就会浪费一些空间,如果float3,的结构体,用__align(16),对齐,就会有一个float的空白空间用来做对齐了~。

总结一下,就讲了一个global内存访问对齐的东东,如果访问不能连续,就采用两种方法来使得其对齐~其实看完前面的,理解到最后就这一句管用~

下一章节应该会讲到shared memory里面访问的bank conflict的部分,其实也很简单,画一个图就出来解决了~~

Ps:多画图,不明白的时候就画图出来:)