一、浮点数的二进制转化

9.1“符号位 s+ 指数位 e+ 有效位数 f”变成二进制。

9 ：1001

小数二进制和整数相反，小数点后每一位，对应的 2 -N 次方。 0.1001，转化十进制：

小数部分转二进制乘以 2，超过 1记1，结果减 1，0.1 变成了无限循环的二进制小数0.000110011

9.1：1001.000110011

浮点数是用二进制计数法表示，小数点左移三位：

s = 0， f=00100011001100110011 001。e= 3。指数位127 之前代表负数，之后代表正数，3 其实对应的是加上 127 的偏移量 130，10000010。

“s+e+f”浮点数 9.1 二进制表示 0 10000010 00100011001100110011 001。再换算成十进制，准确值9.09999942779541015625

https://www.h-schmidt.net/FloatConverter/IEEE754.html 提供了直接交互式地设置符号位、指数位和有效位数的操作。直观地看到，32 位浮点数每一个 bit 的变化，对应的有效位数、指数会变成什么样子以及最后的十进制的计算结果。

二、浮点数的加法和精度损失

浮点数加法：先对齐、再计算。

两个浮点数的指数位可能不一样，变成一样：计算有效位加法。

0.5浮点数对应的指数位是 -1，有效位是 00…（后面全是 0，f 前默认一个 1）。0.125 指数位是 -3，有效位 00…（后面全是 0，f 前默认一个 1）。

0.5+0.125 指数位对齐，统一成较大的 -1。对应的有效位 1.00对应右移两位，f 前有默认 1，变成 0.01。相加有效位 1.f，= 1.01，指数位是 -1。

位移实现加法，半加器和全加器就ok

指数位较小数在有效位进行右移，右侧有效位丢掉，相差越大，丢失精度越多：

32 位浮点数有效位 23 位，两个数指数位差出 23 位，所有的有效位就都丢失了。

对应的输出结果就是：

用循环相加 2000 万个 1.0f，结果是 1600 万左右，不是 2000 万。加到 1600 万之后的加法因为精度丢失

对应的输出结果是：sum is 1.6777216E7

Kahan Summation算法来解决

对应的输出结果就是：sum is 2.0E7

每次计算都用一次减法，把损失的精度记下，再加上去。避免大数吃小数

浮点表示范围大，但精度损失，结果和预期不同，乃至于完全没有加上。

需要精确数值，比如银行存款、电商交易，使用定点数、整数类型。

对于精度损失，用 Kahan Summation 软件层面的算法解决。

浮点数加法讲完了。了解乘、除法《计算机组成与设计硬件 / 软件接口》 3.5.2 和 3.5.3。

两节都是 32 位浮点数， 64 位浮点数加法，两个数相差多少，较小的哪个数在加法过程中会完全丢失呢？

52位