【转】阴影锥(shadow volume)原理与展望---真实的游戏效果的实现

Shadow volume 的算法优化（一）

Shadow volume 的基本算法讲到这里就基本完成了，下面说一下现在比较常用的一些优化算法。

（一）Z-Pass .VS. Z-Fail

前面提到过，Z-Pass 比 Z-Fail 速度要快，因此我们可以在不会产生问题的场合下适当使用 Z-Pass 来提高性能，但是如何确定何时 Z-Pass 不会带来问题呢？ Z-Pass 失效主要是由于两种原因 :

原因一：视点进入 shadow volume 内，比如下图：

只要能探测出这两种情况，就能在需要的时候切换到 Z-Fail 算法。条件 A 的判定可以参照下图，在视点和光源之间做一条连线，如果这条线和遮蔽物相交，那么可以肯定视点在 shadow volume 内，将切换到 Z-Fail 算法。

原因二：shadow volume 与近剪裁面相交

至于情况 B 的判定可以利用光源和近剪裁面形成的light-pyramid( 红色阴影部分 ) 与遮蔽物的交汇关系。如果遮蔽物完全在 light-pyramid 之外，则由它生成的shadow volume 不会和近剪裁面相交，可以使用 Z-Pass 算法，否则将只能使用 Z-Fail 算法。

Shadow volume 的算法优化（二）

（二）tricks to save fillrate :

前面提到过，shadow volume算法里面两个最耗时的步骤就是 silhouette edge determination 和 shadow volume rendering。其中 shadow volume rendering 是完全考验 GPU 填充率的步骤，虽然现在的显卡动辄就有几十 G fragment/s的填充率能力，但是遇到复杂的场景，流水线也不免不堪重负。此外，频繁的 stencil buffer操作也会占据一部分显存带宽，如果能够找出一些办法尽量减小 shadow volume 的尺寸，将会是效果很明显的一种优化方法：

限定光照的范围（Attenuated Light Bounds）：

如果所用的光源有衰减效应，则可以利用 scissortest 将渲染的范围限定在光源的作用范围之内，因为超出了这个范围就不会有阴影存在，自然用不着去渲染那部分的 shadow volume了。所谓 scissor test 就是人为地在屏幕坐标系下面定义一个矩形，只有坐标处在这个矩形范围内的 fragment才能够通过测试，其内容才能被写入帧缓存。

NVIDIA的阴影加速技术（ultra shadow）：

ultra shadow这项技术是随着NV35 的发布而浮出水面的，进而在 NV36/38 中得到了继承，我们基本上可以在 NVIDIA 今后的产品中，这项技术会得到持续的应用。

id software 的当家程序员 JohnCarmack 曾经说过 NV35 是为 DOOM3 量身打造的 GPU ，我们在这里有理由怀疑 Carmack说这番话的原因很有可能就是由于 NV35 中集成了 ultra shadow 阴影加速技术（近日GeForceFX系列已经成为DOOM3的推荐GPU），那么 ultra shadow 究竟是什么，它如何加速阴影的渲染速度呢？

其实 ultra shadow 技术仅仅利用了一个 NVIDIA 新近提交的 OpenGL 扩展—— EXT_depth_bounds_test，我们先来看一下 NVIDIA 官方在 GDC2003 上对这个扩展的介绍：

首先注意一下名称的问题，GDC2003在三月举行，那时这个扩展还只是 NVIDIA 独家的东西，到了 4 月这个扩展更名为 EXT_depth_bounds_test 。 EXT开头的扩展表示有多家厂商在开发这项技术，也许不久以后我们就会看到 ultra shadow 在 ATI 的 GPU 上面实现。

Depth bounds test 的作用是比较由当前 fragment 的屏幕坐标（ xw ， yw ）指定的 depth buffer 中的 z 值与用户通过 glDepthBoundsNV（GLclampd zmin , GLclampd zmax )所指定的 [ zmin,zmax ], 如果 z 值在次范围之外，则将当前的 fragment 从流水线中剔除掉，不进行此处的 stencilbuffer 操作。注意这里比较的并不是 fragment(shadow volume) 的 z 值，而是前一个 path 中已经渲染过的shadow receiver 的 z 值。具体情况请看下图：

可以看到，由于 A 点的 z 值在 [ zmin,zmax ] 范围之外，此点没有可能被阴影遮住，因此 A1/A2 点处的 fragment 就可以被丢弃。而 B 点的 z 值在 [ zmin,zmax ] 之外，所以 B1 点处的 fragment 就必须进行 stencil buffer 操作。

（详细的技术介绍请看：《NVIDIA的复仇计划 GF FX 5900 Ultra》）

阴影渲染实现技术的展望

shadow volume是近阶段实现统一光照模型比较好的一种技术，现在主要的问题是基于 CPU 的方法对处理器依赖比较重，在 AI/ 物理运算较多的场景中 CPU的运算能力可能不足，而基于 GPU 的方法效率太低，会产生大量的冗余顶点，其原因还是由于现在的 GPU( 包括即将发布的 NV40/R420)都不具备在芯片内部产生新顶点的能力。 Microsoft 意识到了这一点，在 DirectX Next的发展规划中将这种能力列为了要实现的目标之一：

从更长远的角度来说，基于真实物理模型的光照模型（比如spherical harmoniclighting、ray-tracing、radiosity）才是发展的方向，那时我们没有必要设计单独的算法来实现阴影，所有的光照/阴影效果都被包扩在了一个统一的光照模型之中，任何效果实现起来都是自然而然的，就像它们在真实世界中的情况一样。当然，所有这些设想都要基于半导体生产技术的支持才行，我们在近期（5-10年）将不会看到它们在硬件上的实现。

【转】阴影锥(shadow volume)原理与展望---真实的游戏效果的实现

你可能感兴趣的:(游戏,算法,Microsoft,buffer,扩展,shader)