对Shader中浮点数的思考

本文分为以下几个部分

IEEE754标准
Unity ShaderLab 中 float half fixed 的精度范围
精度转换

引言：

对于精度敏感，对GPU编程是很有帮助的，在你的Shader中使用什么样的精度类型，效率会高，这个是很重要的一点。之前写过一个bug，超出half的精度了，Android手机上测试，高通的GPU效果是对的，但华为的麒麟GPU，就有问题了，所以精度溢出处理细节上应该是有区别的。

1.IEEE754标准

面试官：float类型在c++中是怎么存储的呢？
小明： ……

wiki上的解释很好这里摘抄截取一下：

官方的术语可能还是有点官方，后面我会详细解释一下

IEEE二进制浮点数算术标准（IEEE 754）是20世纪80年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number），一些特殊数值（（无穷（Inf）与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。
IEEE 754规定了四种表示浮点数值的方式：单精确度（32位）、双精确度（64位）、延伸单精确度（43比特以上，很少使用）与延伸双精确度（79比特以上，通常以80位实现）。

小端序表示

一个浮点数 (Value) 的表示其实可以这样表示：

也就是浮点数的实际值，等于符号位乘以指数偏移值(exponent bias)再乘以分数值(fraction)。

类型	符号位(bit)	指数偏移值(bit)	分数值(bit)
float(32bit)	1	8	23
double(64bit)	1	11	52

符号位：表示正负
指数偏移值：为了方便比较浮点数大小，移码表示浮点数的指数部分，也叫阶码。以单精度浮点数（float）为例，它的指数域是8个比特，固定偏移值是2^(e-1) -1 也就是 2^7 - 1 = 127
分数值：通俗理解，就是所谓的1.11111 * e^10 前面的1.11111。

举个例子：

3.25 用二进制表示
3 => 101
0.25 => 0.01
101.01 => 1.0101 * 2^2
那么在float中
符号位是 0
指数偏移值是 2 + 127 => 10000001
分数值： 1.0101 => 0101（去掉1） + 19个0 （达到23位）

**********划重点*********

敲黑板！！单精度float类型为例，指数表示的范围是多少呢？

来算一下，正常8 bit表示的十进制数字范围是 0~256，那么对于实际意义的指数来说就是 0 ~256 - 127 即 [-127 ,128]，但是标准规定啦，指数为0和指数为2^8 -1 (即最大) 有其他作用，所以实际有效的指数范围为 [-126, 127]。那么其实float的最大最小值就是 ±(2 - 2^-23) * 2^127。
那么前后两个边界值有啥特殊意义呢？？
**********划完了*********顺着读***************
两种浮点数类型:

规约形式的浮点数：浮点数中的指数部分编码值在 [0, 2^e - 1] 之间，并且科学计数法分数部分最高有效位是1。
非规约形式的浮点数：浮点数的指数部分的编码是0，分数部分非零。一般只有数字相当接近0的时候才会这么表示（为了解决填补绝对值意义下最小规格数与0的距离，大概解释一下比如（2^-20 * 2^-120） - (2^-21 * 2^-120)，这个精度已经超出了float类型规约数的2^-126，其精度表示不了了下溢为0了。所以最高位设置为0之后，又会有23为分数值的精度去表示小数）

这个地方蛮绕的，大概理解一下就好，最高位设置为0是针对突然式下溢出的解决办法，即渐进式下溢出。使用分数值（也就是尾数）的精度去补充表示指数位表示不了的精度！差不多差不多就是这个意思。

特殊的规约（划黑板抛出的两个问题，指数为0和指数为2^e - 1）

2.float half fix （unity文档上所述）

float 32位单精度浮点数，遵守IEEE754标准
范围 : ±(2−2^−23) × 2^127 ≈ ±3.4×10^38
精度： 2^-126 * 2^-23
half 16位中精度浮点数，结构未知
范围： [-6万， +6万]，
精度：十进制小数点后3.3位
fixed 11位低精度浮点数，结构未知
范围：[-2,2]
精度：1/256

3.精度转换

一直在想，对于GPU来讲精度转换是不是一件昂贵的事情。对于Unity ShaderLab来说，片元函数中采样的tex2D函数返回的是float4，片元函数返回的精度是fixed4，所以无论如何一定会有精度转换的操作，所以我个人认为降低精度越早越好，以提高数学运算的效率，fixed的小数部分足够进行点乘或者其他数学运算。

最后用Unity官方对于如何使用精度的推荐为结尾：

Use lowest precision that is possible; this is especially important on mobile platforms like iOS and Android. Good rules of thumb are:
1.For colors and unit length vectors, use fixed.
2.For others, use half if range and precision is fine; otherwise use float.

参考 IEEE 754 wiki链接