为什么这么设计(Why’s THE Design)是一系列关于计算机领域中程序设计决策的文章,我们在这个系列的每一篇文章中都会提出一个具体的问题并从不同的角度讨论这种设计的优缺点、对具体实现造成的影响。
JavaScript 作为一门诞生自上个世纪 90 年代的编程语言1,从诞生之初就因为诡异的隐式类型转换等原因被黑,很多 JavaScript 的开发者还会吐槽浮点数加法的『奇葩』问题 — 为什么 0.1 + 0.2 在 JavaScript 中不等于 0.3,相信很多人都对这个问题的答案有一个大概的认识,但是都没有深入研究过,这个问题的答案让 William Kahan 在 1989 年获得图灵奖2。
> 0.1 + 0.2
0.30000000000000004
其实有上述问题的不止 JavaScript 一门编程语言,几乎所有现代的编程语言都会遇到上述问题,包括 Java、Ruby、Python、Swift 和 Go 等等,你可以在 https://0.30000000000000004.com/ 中找到常见的编程语言在计算上述表达式的结果3。这不是因为它们在计算时出现了错误,而是因为浮点数计算标准的要求。
图 1 - 常见的浮点数『错误』
从最开始接触 C 语言编程,作者就接触到了浮点数 float,然而在很长一段时间中,作者都将编程中的浮点数和数学中的小数看做同一个东西,不过当我们重新审视它们时,会发现这两个概念的不同之处。
- 编程中的浮点数的精度往往都是有限的,单精度的浮点数使用 32 位表示,而双精度的浮点数使用 64 位表示;
- 数学中的小数系统可以通过引入无限序列 ... 可以任意的实数4;
在数学上我们总有办法通过额外的符号表示更复杂的数字,但是从工程的角度来看,表示无限精度的数字是不经济的,我们期望通过更小和更快的系统表示范围更大和精度更高的实数。浮点数系统是在工程上面做的权衡,IEEE 754 就是在 1985 年建立的浮点数计算标准,它定义了浮点数的算术格式、交换格式、舍入规则、操作和异常处理5。讨论浮点数也无法脱离该标准,为了回答今天的问题,我们将从以下的两个角度触发:
- 二进制无法在有限地长度中精确地表示十进制中 0.1 和 0.2;
- 单精度浮点数、双精度浮点数的位数决定了它们能够表示的精度上限;
二进制与十进制
我们日常生活中使用的数字基本都是 10 进制的,然而计算机使用二进制的 0 和 1 表示整数和小数,所有有限的十进制整数都可以无损的转换成有限长度的二进制数字,但是要在二进制的计算机中表示十进制的小数相对就很麻烦了,我们以 0.375 为例介绍它在二进制下的表示6:
(0.375)10=(0.011)2
小数点后面的位数依次表示十进制中的 0.5、0.25、0.125 和 0.0625 等等,这个表示方法非常好理解,每一位都是前一位的一半。0.375 在二进制表示看来确实是『整数』。然而如下图所示,想要使用二进制表示十进制中的 0.1 和 0.2 是比较复杂的:
图 2 - 二进制表示的十进制小数
无论是 0.1 还是 0.2,这两个数字都不是二进制中的『整数』,我们没有办法精确地表示它们,只能通过无限循环小数尝试接近它们的真实值;与之相似的是,它们相加的结果 0.3 也无法用有限长度的二进制表示:
图 3 - 二进制表示的 0.3
这三个不同的数字都会在最后的小数部分无限循环 1100 来趋近于真实值,如果计算机中的浮点数可以表示无限循环小数就有可能解决这个问题,但是事实的真相是浮点数只会表示有限小数,所有超过特定精度的数字都会做舍入处理。
精度上限
编程语言中的浮点数一般都是 32 位的单精度浮点数 float 和 64 位的双精度浮点数 double,部分语言会使用 float32 或者 float64 区分这两种不同精度的浮点数。想要使用有限的位数表示全部的实数是不可能的,不用说无限长度的小数和无理数,因为长度的限制,有限小数在浮点数中都无法精确的表示。
图 4 - 单精度与双精度浮点数
- 单精度浮点数 float 总共包含 32 位,其中 1 位表示符号、8 位表示指数,最后 23 位表示小数;
- 双精度浮点数 double 总共包含 64 位,其中 1 位表示符号,11 位表示指数,最后 52 位表示小数;
我们以单精度浮点数 0.15625 为例,介绍该浮点数在计算机二进制中的表示方法,如下图所示,符号位 0 表示该浮点数为正数,中间的 8 位指数总共可以表示 256 个数字,其中从 [0, 126] 表示 [-127, -1],而 [127, 255] 表示 [0, 128],二进制的 01111100 是十进制的 124,表示 2−3,最后的 23 位是二进制的小数 0.25:
图 5 - 0.15625 的单精度浮点数表示
通过上图中的公式 sign×2exp×(1+fraction) 可以将浮点数的二进制表示转换成十进制的小数。0.15625 虽然还可以用单精度的浮点数精确表示,但是 0.1 和 0.2 只能使用浮点数表示近似的值:
图 6 - 0.1 和 0.2 的单精度浮点数表示
因为 0.2 和 0.1 只是指数稍有不同,所以上图中只展示了 0.1 对应的单精度浮点数,从上图的结果我们可以看出,0.1 和 0.2 在浮点数中只能用近似值来代替,精度十分有限,因为单精度浮点数的小数位为 23,双精度的小数位为 52,同时都隐式地包含首位的 1,所以它们的精度在十进制中分别是 log10(224)≈7.22 和 log10(253)≈15.95 位。
因为 0.1 和 0.2 使用单精度浮点数表示的实际值为
0.100000001490116119384765625 和
- 0.200000002980232238769531257,所以它们在相加后就得到的结果与我们在一开始看到的非常相似:
图 7 - 0.1 加 0.2 的结果
上图只是使用单精度浮点数表示的数字,如果使用双精度浮点数,最终结果中的 3 和 4 之间会有更多的 0,但是小数出现的顺序是非常相似的。浮点数的运算法则相对来说比较复杂,感兴趣的读者可以自行搜索相关的资料,我们在这里不展开介绍了。
总结
当我们在不同编程语言中看到 0.300000004 或者 0.30000000000000004 时不应该感到惊讶,这其实说明编程语言正确实现了 IEEE 754 标准中描述的浮点数系统,在使用单精度和双精度浮点数时也应该牢记它们只有 7 位和 15 位的有效位数。
在交易系统或者科学计算的场景中,如果需要更高的精度小数,可以使用具有 28 个有效位数的 decimal 或者直接使用分数,不过这些表示方法的开销也随着有效位数的增加而提高,我们应该按照需要选择最合适的方法。重新回到今天的问题 — 0.1 和 0.2 相加不等于 0.3 的原因包括以下两个:
- 使用二进制表达十进制的小数时,某些数字无法被有限位的二进制小数表示;
- 单精度和双精度的浮点数只包括 7 位或者 15 位的有效小数位,存储需要无限位表示的小数时只能存储近似值;
浮点数系统的设计是一个比较有趣的工程问题,因为操作系统一般都是 32 位或者 64 位的,浮点数充分利用了 32/64 位的比特,将每一位的作用都发挥到极致,使用最紧凑和简洁的方式实现了尽可能高的精度。到最后,我们还是来看一些比较开放的相关问题,有兴趣的读者可以仔细思考一下下面的问题:
- 有哪些编程语言内置了高精度的浮点数或者小数?
- 如何实现一个可以精确表示所有实数(包括有理数和无理数)的系统?
如果对文章中的内容有疑问或者想要了解更多软件工程上一些设计决策背后的原因,可以在博客下面留言,作者会及时回复本文相关的疑问并选择其中合适的主题作为后续的内容。
推荐阅读
- 为什么 0.1 + 0.2 = 0.300000004
- 为什么 0.1 + 0.2 = 0.3
-
Wikipedia: JavaScript https://en.wikipedia.org/wiki/JavaScript ↩︎
-
Wikipedia: Turing Award https://en.wikipedia.org/wiki/Turing_Award ↩︎
-
Floating Point Math https://0.30000000000000004.com/ ↩︎
-
Wikipedia: Decimal https://en.wikipedia.org/wiki/Decimal ↩︎
-
754-2019 - IEEE Standard for Floating-Point Arithmetic https://standards.ieee.org/content/ieee-standards/en/standard/754-2019.html ↩︎
-
Decimal to Binary converter https://www.rapidtables.com/convert/number/decimal-to-binary.html ↩︎
- IEEE-754 Floating Point Converter https://www.h-schmidt.net/FloatConverter/IEEE754.html ↩︎
转载申请
知识共享许可协议
本作品采用知识共享署名 4.0 国际许可协议进行许可,转载时请注明原文链接,图片在使用时请保留全部内容,可适当缩放并在引用处附上图片所在的文章链接。
文章图片
你可以在 技术文章配图指南 中找到画图的方法和素材。