16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?

一、浮点数的二进制转化

9.1“符号位 s+ 指数位 e+ 有效位数 f”变成二进制。

9 :1001

小数二进制和整数相反,小数点后每一位,对应的 2  -N 次方。 0.1001,转化十进制:

小数部分转二进制乘以 2超过 1记1,结果减 1,0.1 变成了无限循环的二进制小数0.000110011

9.1:1001.000110011

浮点数是用二进制计数法表示,小数点左移三位:

 s = 0, f=00100011001100110011 001。e= 3。指数位127 之前代表负数,之后代表正数,3 其实对应的是加上 127 的偏移量 130,10000010

“s+e+f”浮点数 9.1 二进制表示  0 10000010  00100011001100110011 001。再换算成十进制,准确值9.09999942779541015625

https://www.h-schmidt.net/FloatConverter/IEEE754.html 提供了直接交互式地设置符号位、指数位和有效位数的操作。直观地看到,32 位浮点数每一个 bit 的变化,对应的有效位数、指数会变成什么样子以及最后的十进制的计算结果。

二、浮点数的加法和精度损失

浮点数加法:先对齐、再计算

两个浮点数的指数位可能不一样,变成一样:计算有效位加法

0.5浮点数对应的指数位 -1,有效位是 00…(后面全是 0,f 前默认一个 1)。0.125 指数位 -3,有效位 00…(后面全是 0,f 前默认一个 1)。

0.5+0.125 指数位对齐,统一成较大的 -1。对应的有效位 1.00对应右移两位,f 前有默认 1,变成 0.01。相加有效位 1.f,= 1.01,指数位是 -1。

位移实现加法,半加器和全加器就ok

指数位较小数在有效位进行右移,右侧有效位丢掉,相差越大,丢失精度越多:

32 位浮点数有效位 23 位,两个数指数位差出 23 位,所有的有效位就都丢失了。

对应的输出结果就是:

三、Kahan

Summation 算法

循环相加 2000 万个 1.0f,结果是 1600 万左右,不是 2000 万。加到 1600 万之后的加法因为精度丢失

对应的输出结果是:sum is  1.6777216E7

Kahan Summation算法来解决

对应的输出结果就是:sum is 2.0E7

每次计算都用一次减法,把损失的精度记下,再加上去。避免大数吃小数

总结延伸

浮点表示范围大,但精度损失,结果和预期不同,乃至于完全没有加上。

需要精确数值,比如银行存款、电商交易,使用定点数、整数类型。

对于精度损失,用 Kahan Summation 软件层面的算法解决。

课后思考

浮点数加法讲完了。了解乘、除法《计算机组成与设计 硬件 / 软件接口》 3.5.2 和 3.5.3。

两节都是 32 位浮点数, 64 位浮点数加法,两个数相差多少,较小的哪个数在加法过程中会完全丢失呢?

52位

你可能感兴趣的:(16 | 浮点数和定点数(下):深入理解浮点数到底有什么用?)