(对tangent frame的压缩,其实在2008年做All-frequency rendering of dynamic, spatially-varying reflectance这篇paper的过程中,就曾在茶余饭后讨论过这个事情。这其实是个很trivial的问题,但看到Crytek和Avalanche分别在两年的SIGGRAPH talk上都煞有介事的提到这个问题,才想写这篇blog介绍一下。)
Avalanche Studios的Emil Persson,也就是Humus,在SIGGRAPH 2012上的talk Creating Vast Game Worlds中提到了他们在游戏中如何压缩顶点数据,其中对于tangent frame的压缩与去年Crytek的Spherical Skinning with Dual-Quaternions and QTangents的压缩方法极其相似。但在两者的介绍中,由于某些原因,总有一些细节的陷阱没有提到。然而,在实际使用中,对付这些陷阱上所花的时间往往会超过实现方法本身。所以,本文试图通过对整个方法以及细节陷阱的描述,集中地把这个问题阐释清楚,希望对有兴趣的读者有所帮助。
在现代游戏中,要做per-pixel lighting少不了用到tangent frame。完整的tangent frame由tangent、binormal和normal三个向量来表示。如果每一个向量都用保存,并且每个分量都用float的话,就需要3*3*4=36字节。对于vertex来说,这个消耗是巨大的。
最直接的想法就是,因为tangent、binormal和normal是正交的,所以只要保存其中2个,另一个在runtime通过cross计算出来就行了。(至于要省略哪个其实都一样,但由于KlayGE里省略的是binormal,本文就按照这一点来描述。)这样就压缩到了2*3*4=24字节,但是要注意一个大陷阱。
很多artist在做对称物体的纹理坐标时,都是只做了一半的纹理坐标,然后通过max或者maya的镜像方式布上另一半。在这种情况下,cross(normal, tangent)的结果是-binormal,而不是binormal。如果不注意这点,镜像部分的normal map就会得到相反的结果,如Crytek的这张图所示,左边的考虑了镜像,右边的没考虑:
所以除了tangent和normal,还需要多保留一个称为reflection的值,取-1或+1。在计算binormal的时候,也就成了binormal = cross(normal, tangent) * reflection。所以为了和原始的tangent frame达到一样的表达能力,最终需要(2*3+1)*4=28个字节。Avalanche Studios的方法完全忽略了这个问题,他们估计只能通过限制artist的操作来回避了。
28字节对于vertex来说仍然太大,而且很明显可以对其做进一步压缩。因为tangent和normal都是单位向量,而且精度要求没那么高,每个分量都用float来保存实属浪费。最贴近的格式是A2BGR10。这种格式的BGR都是10-bit,A是2-bit,对于tangent来说,RGB分别存xyz,A存reflection。对于normal来说,舍弃A也只是浪费2-bit。如果硬件不支持A2BGR10,用ARGB8也可以,肉眼基本看不出区别。通过这种方式,tangent frame被压缩到了8个字节。这也是KlayGE 4.1之前使用的存储方法。
8字节已经比一开始少得多了,还能做进一步压缩吗?能,我们的目标是4字节!tangent和normal的方法,在8字节已经走到头了,我们需要回到原点,回到原始的tangent frame表达。从本质来说,tangent frame表示的是一个局部坐标系的旋转(当然,还有可能有镜像),和原点本身的位置无关,很自然可以想到用quaternion来表示tangent frame。一个正交的3×3的matrix,可以通过quaternion用4个分量无损地表达出来。这正好适合我们的要求,但也需要注意几个大陷阱。
把matrix转成quaternion的时候,默认的假设是matrix是正交的。也就是说,你的tangent frame必须正交。但因为在建立tangent frame的时候,往往是先单独算normal,在生成tangent和binormal,正交并不一定能直接得到完全的保证。所以在计算出tangent的时候需要额外做一次正交化:
tangent = normalize(tangent - normal * dot(tangent, normal));
经过这步操作,tangent和normal就互相垂直了,符合quaternion的条件。注意上式的normal需要事先normalize过。
这里仍然有个镜像的问题。送去生成quaternion的matrix必须去掉reflection,在得到quaternion之后再把reflection加回去。注意到quaternion有个很好的性质,就是q = -q(q的类型是quaternion),所以我们就可以开始打.w分量的主意了:
if (q.w < 0) q = -q; if (reflection < 0) q = -q;
经过这两个if,reflection就保存到了q.w的符号位上,而q本身表示的旋转没有改变。在shader中,只需要简单地:
reflection = q.w < 0 ? -1 : +1
就可以恢复出reflection。
如何把quaternion保存到4字节?做法之一是和前面一样,用A2BGR10的格式,RGB分别保存xyz,A保存符号。因为quaternion是归一化的,所以可以在vertex shader中通过计算来恢复w。这么做的优点是精度较高,缺点是计算量增加了。
能不能就把quaternion保存到ARGB8?很可惜,还是有个陷阱。如果完全按照IEEE的浮点规范,0也是有+0和-0的区别的,所以即便q.w == 0,q.w的符号照样可以用来保存reflection。但如果保存到8-bit的通道,就已经不再是浮点数,所以不会在遵循那个规则,+0和-0都会变成+0。为了保住q.w的符号,这里必须保证q.w不等于0,但也不能大到影响q本身。(Crytek认为这是因为GPU不完全遵守IEEE浮点规范造成的,但很显然,保存到8-bit之后就和浮点规范无关了。)对于需要量化到8-bit的情况下,最小的值就等于1/127。同时,为了保证q仍然是归一化的,需要把xyz三个分量都乘上一个系数:
float bias = 1.0f / ((1UL << (8 - 1)) - 1); if (q.w < bias) { q.xyz *= sqrt(1 - bias * bias); q.w = bias; }
最终,我们得到了一个既不浪费计算量,又能把tangent frame压缩到4字节的方法。
用quaternion来表示tangent frame,除了能压缩数据之外,还有一些额外的红利。如果用了dual quaternion形式的骨骼动画,可以在带权累积DQ之后,直接乘上tangent frame的quaternion,而不必把quaternion解出tangent、binormal和normal后分别计算骨骼变换。
在Crytek的ppt里,还提到了一些未来可能能做的事情。包括了quaternion的传递和把quaternion保存在G-Buffer。这两者其实都涉及到插值的问题。目前硬件在VS/GS->PS的时候,可以分属性选择线性插值、不插值、不透视矫正,但quaternion的插值是圆周插值,硬做线性插值会导致错误的结果。所以如果在未来的硬件中,或者像salvia这样的软件光栅化渲染器中,提供了slerp这样的插值方式,就能顺利地把tangent frame的quaternion传递到PS,并且能保存到G-Buffer中。如果G-Buffer保存的是完整的tangent frame,而不光只有normal,就可以在计算lighting的时候使用更为复杂的各向异性BRDF。