对Shader中浮点数的思考


本文分为以下几个部分

  • IEEE754标准
  • Unity ShaderLab 中 float half fixed 的精度范围
  • 精度转换

引言:

  对于精度敏感,对GPU编程是很有帮助的,在你的Shader中使用什么样的精度类型,效率会高,这个是很重要的一点。之前写过一个bug,超出half的精度了,Android手机上测试,高通的GPU效果是对的,但华为的麒麟GPU,就有问题了,所以精度溢出处理细节上应该是有区别的。


1.IEEE754标准

面试官:float类型在c++中是怎么存储的呢?
小明 : ……

wiki上的解释很好 这里摘抄截取一下:

官方的术语可能还是有点官方,后面我会详细解释一下

  • IEEE二进制浮点数算术标准IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number),一些特殊数值((无穷(Inf)与非数值(NaN)),以及这些数值的“浮点数运算符”;它也指明了四种数值舍入规则和五种例外状况(包括例外发生的时机与处理方式)。
  • IEEE 754规定了四种表示浮点数值的方式:单精确度(32位)、双精确度(64位)、延伸单精确度(43比特以上,很少使用)与延伸双精确度(79比特以上,通常以80位实现)。

小端序表示
一个浮点数 (Value) 的表示其实可以这样表示:
也就是浮点数的实际值,等于符号位乘以指数偏移值(exponent bias)再乘以分数值(fraction)。

类型 符号位(bit) 指数偏移值(bit) 分数值(bit)
float(32bit) 1 8 23
double(64bit) 1 11 52
  • 符号位:表示正负
  • 指数偏移值:为了方便比较浮点数大小,移码表示浮点数的指数部分,也叫阶码。以单精度浮点数(float)为例,它的指数域是8个比特,固定偏移值是2^(e-1) -1 也就是 2^7 - 1 = 127
  • 分数值:通俗理解,就是所谓的1.11111 * e^10 前面的1.11111。

举个例子

  • 3.25 用二进制表示
    3 => 101
    0.25 => 0.01
    101.01 => 1.0101 * 2^2
    那么在float中
    符号位 是 0
    指数偏移值是 2 + 127 => 10000001
    分数值: 1.0101 => 0101(去掉1) + 19个0 (达到23位)

**********划重点*********

  敲黑板!!单精度float类型为例,指数表示的范围是多少呢?

  来算一下,正常8 bit表示的十进制数字范围是 0~256,那么对于实际意义的指数来说就是 0 ~256 - 127 即 [-127 ,128],但是标准规定啦,指数为0和指数为2^8 -1 (即最大) 有其他作用,所以实际有效的指数范围为 [-126, 127]。那么其实float的最大最小值就是 ±(2 - 2^-23) * 2^127。
那么前后两个边界值有啥特殊意义呢??
**********划完了*********顺着读***************
两种浮点数类型:

  • 规约形式的浮点数:浮点数中的指数部分编码值在 [0, 2^e - 1] 之间,并且科学计数法分数部分最高有效位是1。
  • 非规约形式的浮点数:浮点数的指数部分的编码是0,分数部分非零。一般只有数字相当接近0的时候才会这么表示(为了解决填补绝对值意义下最小规格数与0的距离,大概解释一下 比如 (2^-20 * 2^-120) - (2^-21 * 2^-120), 这个精度已经超出了float类型规约数的2^-126,其精度表示不了了 下溢为0了。所以最高位设置为0之后,又会有23为分数值的精度去表示小数)
这个地方蛮绕的,大概理解一下就好,最高位设置为0是针对突然式下溢出的解决办法,即渐进式下溢出。使用分数值(也就是尾数)的精度去补充表示指数位表示不了的精度!差不多差不多就是这个意思。
特殊的规约 (划黑板抛出的两个问题,指数为0和指数为2^e - 1)

2.float half fix (unity文档上所述)

  • float 32位单精度浮点数,遵守IEEE754标准
    范围 : ±(2−2^−23) × 2^127 ≈ ±3.4×10^38
    精度 : 2^-126 * 2^-23
  • half 16位中精度浮点数,结构未知
    范围 : [-6万, +6万],
    精度 :十进制小数点后3.3位
  • fixed 11位低精度浮点数,结构未知
    范围 :[-2,2]
    精度 :1/256

3.精度转换

  一直在想,对于GPU来讲精度转换是不是一件昂贵的事情。对于Unity ShaderLab来说,片元函数中采样的tex2D函数返回的是float4,片元函数返回的精度是fixed4,所以无论如何一定会有精度转换的操作,所以我个人认为降低精度越早越好,以提高数学运算的效率,fixed的小数部分足够进行点乘或者其他数学运算。

最后 用Unity官方对于如何使用精度的推荐为结尾:

Use lowest precision that is possible; this is especially important on mobile platforms like iOS and Android. Good rules of thumb are:
1.For colors and unit length vectors, use fixed.
2.For others, use half if range and precision is fine; otherwise use float.

  • 参考 IEEE 754 wiki链接

你可能感兴趣的:(对Shader中浮点数的思考)