What is Fermi?(11)

 

支持32xCSAA的ROP单元

在GT200当中,虽然开启4x抗锯齿后仍然能够获得不错的性能表现,不过在8x抗锯齿下,由于ROP单元设计因素,在一些最新游戏当中会出现较为明显的性能下降。因此,NVIDIA在GF100当中重新对ROP单元进行了优化,不仅8x抗锯齿获得较大的性能提升,同时还加入了最新的32x覆盖采样抗锯齿模式。

 

抗锯齿效能提升

GF100为了提升8x抗锯齿下的性能表现,重新设计了ROP子系统,大幅提升数据吞吐量以及执行效率。在GF100架构当中,包含了6组ROP单元,每组包含8个ROP单元,并且每组ROP单元均由一个64bit的显存控制器来进行控制。实际上,每组ROP单元都与一个64bit显存控制器、一组L2缓存关联起来,如果增加或删减一组ROP单元,那么其他被关联的两个部件也将会相应的增加或删减。

在GF100当中,每组ROP当中的ROP单元数量也比上一代架构翻了一番,并且每个ROP单元在一个时钟周期内均能够输出一个32位整数像素,一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期。原子指令性能也得到了大幅提升,相同地址的原子操作执行速度最高可达GT200的20倍,邻近存储区的操作执行速度最高可达7.5倍。

What is Fermi?(11)_第1张图片

那么,能够让8x多重采样抗锯齿(MSAA)的性能大幅提升原因在哪里?其实从前面的介绍当中各位已经能够了解到,NVIDIA在ROP子系统上做出了重大的改进,因此在压缩效率方面有了很大的提升,让更多的ROP单元能够更有效的渲染那些未经过压缩的小基元。

举例来说,在《鹰击长空》游戏当中,NVIDIA上一代顶级产品GeForce GTX 285在分别开启4x抗锯齿以及8x抗锯齿对比下,性能下降幅度大约在50%以上,而在最新的GF100产品上,同样开启4x反锯齿和8x反锯齿进行对比,两者性能差距仅为9%。

 

全新32x覆盖采样抗锯齿

ROP单元的改进不仅为我们带来了更好的8x抗锯齿性能,同时还为我们带来了全新的32x覆盖采样抗锯齿(CSAA)模式,全新的32x CSAA能够为我们带来更加顶级的画面效果。全新的32x覆盖采样抗锯齿(CSAA)不仅仅是因为显卡性能提升而增加,同时也要受益于最新的DirectX 11 API。在DX11当中,新增了“透明覆盖(Alpha-to-Coverage)”功能,让抗锯齿在一些非常细致的表现当中更加真实。下面两张草叶的截图就是很好的证明:

What is Fermi?(11)_第2张图片

覆盖采样的数量决定了边缘的画质。如果只有四个覆盖或八个采样,那么将会出现非常糟糕的锯齿以及镶边现象,尤其是在纹理靠近屏幕的时候(例如上图左半部分的画面表现)。采用32x CSAA后,GPU将会提供32个覆盖采样,从而最大限度减少了毛边效果。

另外,由于“透明覆盖”不支持DX9,因此在DX9游戏当中无法实现32xCSAA效果。不过NVIDIA为此推出了一种“透明测试(alpha test)”技术,使得TMAA能够转换DirectX 9应用程序中旧的着色器代码,让透明纹理的边缘硬化,从而加入“透明覆盖”,同样达到了不错的抗锯齿效果。

What is Fermi?(11)_第3张图片

32x CSAA的效能也要比我们想象当中的快很多,在实际测试当中,如果8x MSAA性能为100%,那么32x CSAA的效能大约为8x MSAA的90%以上,甚至接近95%。从而为玩家开启32x CSAA提供了极大的可行性。

你可能感兴趣的:(rmi)