进位制是一种记数方式,亦称进位计数法或位值计数法,以有限种数字符号来表示无限的数值。使用的数字符号的数目称为这种进位制的基数或底数。
常见的有:二进制,八进制,十进制,十六进制。
先来点基础,十进制的构造可以这样,比如1024,可以使用按权展开法构造:权值为10,指数从0开始
1024 = 1 ∗ 1 0 3 + 2 ∗ 1 0 1 + 4 ∗ 1 0 0 = 1024 1024 = 1*10^3 + 2 * 10^1 + 4 * 10^0 = 1024 1024=1∗103+2∗101+4∗100=1024
虽然看起来没什么软用,但是对于二进制,比如01101,使用按权展开法可以把它转成十进制:权值为2,指数从0开始
( 01101 ) 2 = 0 ∗ 2 4 + 1 ∗ 2 3 + 1 ∗ 2 2 + 0 ∗ 2 1 + 1 ∗ 2 0 = ( 13 ) 10 (01101)_2 = 0 * 2^4 + 1 * 2^3 + 1 * 2^2 + 0 * 2^1 + 1 * 2^0 = (13)_{10} (01101)2=0∗24+1∗23+1∗22+0∗21+1∗20=(13)10
其实如果二进制数中有0的在展开时可以省略。类似的,其实八进制,十六进制都可以使用按权展开法转换成十进制,因为它们的权值:2、8、16及转换方法本身就是转10进制的方法。
只需要将以十进制表示的数不断除以2,直到商为0,得出的余数逆着写就可以得到,称为重复相除法。如下图:
假设十进制为:101,则:
类似的,十进制转八进制只要一直除以8,十进制转十六进制只要一直除以16。
这种方法每次十进制数减去一个与十进制相近的以2为底的指数,能减的记为1,不能减的记为0,并记录相减的结果,然后再把刚刚记录的结果重复以上操作,直到整减。
看图吧:
需要记一下:2^0 到 2^10 的值,不难记。当然如果十进制的数很大,不是很j推荐这种方法,因为自己要直到以2为底的指数的值,一般我只记到2^10。也可以使用这种方式来判断十进制转二进制大概有多少位二进制,因为第一次的相减其实就是再求该二进制的最高位,把指数+1就可以得到。
使用的是重复相乘法,将小数部分乘以2(分数也可以),然后取整数部分,剩下的小数部分继续乘以2,继续取整数部分,剩一直取到小数部分为零为止(或者积为1为止)。如果永远不能为零,就同十进制数的四舍五入一样,按照要求保留多少位小数时,就根据后面一位是0还是1,取舍,如果是零,舍掉,如果是1,向入一位。换句话说就是0舍1入。如下图:
注意:小数点的二进制中的指数是从-1开始的,一直减小。整数的二进制中的指数是从0开始的,一直增大。
针对二进制来说可以分为两种:
假设二进制以8位为例,有符号数得把最高位作为符号位,那么其余7位来表示二进制数,而无符号数8位都可以表示一个二进制数,所以有符号数可表示的最大值比无符号数可表示的最大值小:
有符号数可表示的最大值:01111111 -> 127(最左边,也就是最高位为符号位,所以可表示的范围只有后7位)
无符号数可表示的最大值:11111111 -> 255(没有符号位的概念)
对于有符号数可表示的最小值,比较特殊,通过上面的公式,有符号数可表示的最小值为-128,这里有个问题?为什么是-128而不是-127,不应该是11111111(最高位为符号位)???等学了补码和反码在补充!因为其实-128是用补码表示的。
Java中没有无符号数,C++有。
有符号数可以分为正值,原码、反码、补码四种编码实现。
正值:其实就是求出一个数的绝对值的二进制数,不看符号位。比如-3的正值:0011;4的正值:0100。后面要用该知识。
原码其实就是有符号数:在符号位使用0表示正数、1表示负数。就是为了能够表示负数。
但是可以发现,对于十进制数0,按照原码的表示,可以有00和10,这样就有争议。更重要的是,当两个符号位不同的二进制进行运算时,会出错,例如:1+(-1)=0,在计算机中是使用二进制运算的,假设二进制数有4位,所以变成:0001+1001=1010,换算成十进制为-2,这明显错了。
当然也有另一种运算方式:判断两个操作数绝对值大小,使用绝对值大的数减去绝对值小的数,对于符号值,以绝对值大的为准,但是这样好麻烦啊!!而且计算机规定只会加法操作(因为只有加法器,先不管其他操作怎么处理)。
自从引入原码,那以后给出的二进制转换十进制,最高位究竟是符号位还是数字位?假设题目没有明说,那就是没有符号位的,假设要有说符号位,或者转成原码,那么就肯定有符号位。
像平时的二进制运算,没特殊说明,就直接相加没问题。
用正数的原码进行运算肯定没问题,但用负数的原码进行运算就有问题了,所以为了让原码运算时不出错,并且要消除减法操作,提出了反码。
反码在原码的基础上提出,定义:(别管怎么来)
x = { x , 2 n > x ≥ 0 ( 2 n + 1 − 1 ) + x , 0 > x ≥ − 2 n ( n 为 二 进 制 数 位 数 ) x = \begin{cases} x, \quad\quad 2^n>x\geq0\\ (2^{n+1}-1)+x, \quad 0>x\geq-2^n \end{cases}(n为二进制数位数) x={x,2n>x≥0(2n+1−1)+x,0>x≥−2n(n为二进制数位数)
根据公式,对于正数的原码跟反码一样,而对于负数,来看看下面的例子,假设有4位二进制数:
[-2]_原 = 1010
[-2]_反 = (2^(4+1)-1)+(-2) = (100000-0001)-(0010) = (011111)-(0010) = (1101)
本来按照上面的计算,-2的反码应该是11101,但是现在我们只有4位二进制数,所以自然舍弃最高位。然后剩下的4位中最高位还是表示符号位。
按照上面的例子(下面:2.3 补码 中得出的结论我先拿上来用),我就先直说了原码和反码的关系:对于正数,它的反码和原码是一样的;对于负数,它的反码等于原码除符号位外其余位取反(即0变1,1变0)。可以多用几个数试试。
现在利用反码来计算:1+(-1)=0,假设有4位二进制数:
[1]_原 = 0001,[-1]_原 = 1001
[1]_反 = 0001,[-1]_反 = 1110
[1]_反+[-1]_反=0001+1110=1111
1111是反码,逆向思想转成原码,得:1000,即用十进制表示:-0。这样运算就正确了,虽然对于0还是有+0和-0的争议。
但真的运算就都正确了吗?再来一例子:5+(-3)=2,假设有4位二进制数:
[5]_原 = 0101,[-3]_原 = 1011
[5]_反 = 0101, [-3]_反 = 1100
[5]_反+[-3]_反=0101+1100=10001
10001有5位,但是目前是使用4位二进制数,所以舍弃最高位,即:0001,转为十进制:1。可以看到跟结果还差1。 再来例子:6+(-2)= 4,假设有4位二进制数:
[6]_原 = 0110, [-2]_原 = 1010
[6]_反 = 0110, [-2]_反 = 1101
[6]_反+[-2]_反=0110+1101=10011
还是跟上面一样,结果舍弃最高位得:0011,转为十进制:3。还是跟结果相差1。有两个例子那么就可以得到:反码虽然在运算时没有使用减法,但是再求反码时使用了减法,并且还是不能运算正确,而且对于0还是有歧义,究竟是-0还是+0。
因此,提出了补码。
补码是按照下面的公式定义的:
x = { x , 2 n > x ≥ 0 2 n + 1 + x , 0 > x ≥ − 2 n ( n 为 二 进 制 数 位 数 ) x = \begin{cases} x, \quad\quad 2^n>x\geq0\\ 2^{n+1}+x, \quad 0>x\geq-2^n \end{cases} (n为二进制数位数) x={x,2n>x≥02n+1+x,0>x≥−2n(n为二进制数位数)
可以看到,对于正数,它的补码跟原码一样,对于负数,涉及到了减法操作。
此时利用补码来运算刚刚的例子:1+(-1)=0,假设二进制数有8位,现在使用补码来表示:
通过上面的运算,发现对于0的歧义也解决了,补码就是用00000000来表示0的。
记住,计算机如果要判断符号位开销比较大,所以在补码中干脆把符号位一起运算。
想必还是有很多问号???这样还是有减法操作啊!!!画张表来看看有没有规律,一个数的原码和补码、反码的联系:
解释:
所以,计算机中二进制的运算是以补码来进行运算(当然也有说:计算机对正数是以原码来进行运算,对负数是以补码来进行运算,其实都可以,但一条句子是不是更方便记住),反码的提出是为了让计算机求出补码。在计算机中很容易实现,因为有:非门,所以计算机的计算是:先求出正值,再全部用非门取反,得出反码,再加1,就得出补码,比如-3的补码:
我们人工就不必使用减法(公式)去求什么补码,反码,直接套用该规律,而计算机也巧妙地避开减法操作,把减法转换成加法。
关于0的特殊性:
[+0]原 = 00000000, [-0]原 = 10000000
[+0]补 = 00000000, [-0]补 = 00000000
[+0]反 = 00000000, [-0]反 = 11111111
想到要是两个负数转成补码相加的话,符号位产生进位,如果自然舍去,结果却变成正数,是不是有很多问号啊???
到此,会对上面的进位(自然舍去),进位(自然舍去)是属于正常的运算范围,而还有一种就是溢出,溢出的话是属于不正常的运算范围。
谈谈溢出,加法运算时有以下情况:
减法有以下情况:有了补码,用加法来替换
所以只看加法来判断溢出:使用双高位来判断溢出,即用C1表示符号位是否进位,C2表示数值部分最高位记是否进位,假设有4位二进制数,有以下的情况:
还有其他判断方法,比如变形补码。也就是双符号位的形式(把原来单符号位变双)去运算,当运算结果的符号位出现“01”或者“10”时,则表示产生溢出。 很简单,可以试试。
总结:
而计算机是怎么处理溢出的,参考高级语言的基本数据类型,当两个数相加后超过了基本数据类型能表示的范围时发生了什么?其实还跟下面的原理有点关系,就是使用同余定理。
参考:原码、反码、补码知识详细讲解
补码的原理是利用模运算和同余定理。
模是指一个计量系统的计数范围。如时钟的计量范围是0~11,模 = 12。“模”实质上是计量器产生“溢出”的量,它的值在计量器上表示不出来,计量器上只能表示出模的余数。
模运算:比如 5 Mod 1 = 1,如果按照高级语言的写法:5 % 1 = 1。这里说个技巧:整数要是小于模的,直接输出整数,要是等于模输出0,要是大于模,则输出:整数-模的结果。
同余定理是模运算中的重要定理(要看证明的,点击百度百科):**两个整数除以同一个整数,若得相同余数,则二整数同余。**记作 a ≡ b (mod m),读作 a 与 b 关于模 m 同余。比如:1 mod 4 = 1,5 mod 4 = 1,所以1与5关于模4同余。
找个例子并结合计算机来理解,时钟就是天生的使用同余定理的物品,时钟可以显示112(或者011)的数字,说明模为12,假设现在指向6点,我们要调到4点,那么按照公式:6-2=4,即回调到4点,这里需要用到减法,想想有没有另一种方法把减法替换成加法。
可能想到了,就是让指针前调,即:(6+10)Mod 12 = 4。这里就把减法转变成加法,即可以把减2当成加10来看待,以下是证明:
⌊⌋:该符号表示向下取整,即比自己小的最大整数,比如 1.7,那么向下取整后为1
⌈⌉:该符号表示向上取整,即比自己大的最小整数,比如 1.7,那么向上取整后为2
跟二叉树中的floor和ceil一样。
来试试负数求余的公式:
(-2) MOD 4 = -2 - 4 * (⌊⌋(-2/4))= -2 - 4 * (-1) = -2 + 4 = 2
再来一条:
(-3) MOD 2 = -3 - 2 * (⌊⌋(-3/2))= -3 - 2 * (-2) = -3 + 4 = 1
现在回到时钟去,刚刚说减2当成加10来看待,那么来看看
(-2)MOD 12 = -2 - 12 * (⌊⌋(-2/12))= -2 - 12 * (-1)= - 2 + 12 = 10
看到了吧,而:
10 MOD 12 = 10
所以-2和10是同余的或者称为互为补数,所以在12为模的系统中,-2可以看成是+10。其实可以看成是-2加上一个12的周期,得出10。那么把6记为a,-2记为b,12记为mod,则用公式来表达:a - b = a - b + mod = a + (mod - b)。
总结一句话:在有模的系统中,减去一个数可变成加上它的补数。
现在回到计算机来,假设有4位的二进制数,除符号位外,其范围为-8~7,一共有16个数,那么模为2^3=16,能够表示的最大二进制为0111,那么此时加1,得:1000,而1000其实是-8(对于有符号数来说,不懂看下面的对于-128的解释),这也就跟时钟一样,形成一个环。
所以假设当前的数为6,想要变成2的话,那么我们就得减掉4,但是减法计算机不能运算啊,所以可对减4再加上一个16的周期(模),得出12,所以减4和加12其实是一样的。你可以画条水平线,然后把-8~7填上,然后在6的位置加12试试。此时按照8位的表示范围,纳闷12怎么求,其实计算机只是学了思想,并不一定像它那样操作,可看看下面的运算过程:参考:补码原理——负数为什么要用补码表示,补码的推导
# 按以上理论,减一个数等于加上它的补数,所以
6 - 2
# 等价于 其实 16 - 2 不就是上面补码定义的公式求负数给出的 2^n + x 吗?回去看看
6 + (16 - 2) // 算术运算单元将减法转化为加法
# 用二进制表示则为:
0110 + (10000 - 0010)
# 等价于 10000 确实可转为 1 + 1111
0110 + ((1 + 1111) - 0010)
# 等价于
0110 + (1 + (1111 - 0010))
# 等价于 其实下面是求出反码了,计算机是直接到这一步,因为有非门的存在,根据正值直接全部按位取反。可能有人要说了,要是正数怎么办,最高位不是也变了吗?:不对!正数求反码不变啊。
0110 + (1 + 1101) // -2的正值(0010)的反码(1101),然后+1,正是补码的定义
// 其实不说正值,说出-2是由2(0010)的补码(0010)全部包括符号位按位取反(1101)后+1得出的。
# 等价于
0110 + 1110
# 所以从这里可以得到-2的补码
-2 = [1110]补
# 即 `-2` 在计算机中的二进制表示为 `1010`,正是“ -2 的正值 2(0010)的补码(1110)”。这就是补码的推导
# 最后一步 0110 + 1110 等于
10100 而只有4位,舍去最高位得:0100,转为十进制:4,正确!!
对于8位的二进制,-128用补码1000 0000表示的解释:其实是取消了原码和反码对于0的歧义问题,在补码中就直接用1000 0000来表示-128。计算机就固定用1000 0000来表示-128,并且是不能转换的,比如有人要把-128转为原码和补码,这是错误的。这也解释了为什么最小值还会多出一位,因为多出的一位用来消除0的歧义。
(看看计算机自带的计算器)
可能你会问那如何表示128,那么128肯定是要数据能够表示的范围啊!!对于8位表示不了128。我废话了。。
补码原理花了我好长时间,今天终于搞完了,虽然可不知道原理,但是现在复习阶段碰到了就搞搞吧。
定义:
x = { x , 1 > x ≥ 0 2 + x , 0 > x ≥ − 1 x = \begin{cases} x, \quad\quad 1 >x\geq0\\ 2+x, \quad 0>x\geq-1 \end{cases} x={x,1>x≥02+x,0>x≥−1
前面在进制转换中已经有说了小数的转换,那么求小数的原码也很简单。
更重要的是,小数的原码,反码,补码怎么求是跟整数的求法一样的。
对于小数的符号位放哪?有些书放在小数点之前,比如:1.0101,0.10,也有额外再开个空间存储符号位,比如:10.0101,00.10。这些都可以。
我直接拿老师的例子:他是额外开空间存储符号位的
计算机中处理的数据经常带有小数点,而小数点在计算机中有两种表示方式,一种就是定点数,另一种就是浮点数。
定点数:小数点固定在某个位置的数称为定点数。按照位置的不同,可分为两种:
(网上还有老师都是上图,但是我百度纯小数时,比如百度百科中说:整数部分为零的小数叫做纯小数,其实它表示的是十进制,符号位是’+‘或’-’,比如:0.12,-0.2333等。)
百度百科,一般来说,如果最末位 1,前面各位都为0,则数的绝对值最小,即|x|min= 2^(-n)。 如果各位均为1,则数的绝对值最大,即|x|max=1-2^(-n)。所以定点小数的表示范围是:(其中n为二进制数的位数)
2 − n ≤ ∣ x ∣ ≤ 1 − 2 − n 2^{-n}≤|x|≤1 -2^{-n} 2−n≤∣x∣≤1−2−n
但计算机通常遇到既不是纯整数又不是纯小数。比如:10.2,3.53等。
对于计算机来说,需要把它统一称纯小数或纯整数,怎么搞??数据按比例因子缩小成纯小数或扩大成纯整数再参加运算,结果输出时再按比例折算成实际值。不过有点麻烦,所以提出浮点数。
浮点数:是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学计数法。
科学计数法:
123450000 = 1.2345 ∗ 1 0 8 123450000 = 1.2345 * 10^8 123450000=1.2345∗108
而对于浮点数的表示格式跟科学计数法一样,前两个数的称呼也跟上面一样。而指数在这里称为阶码。
浮点数的例子,都是以二进制表示的:
11.0101 = 0.0110101 ∗ 2 3 = 0.00110101 ∗ 2 4 = 0.110101 ∗ 2 2 11.0101 = 0.0110101 * 2^{3} = 0.00110101 * 2^{4} = 0.110101 * 2^{2} 11.0101=0.0110101∗23=0.00110101∗24=0.110101∗22
对于原先的二进制科学计数法,因为早期不同机器上的默认的阶码位数和尾数长度可能不一样,所以对浮点数的表示有点差异。所以就要统一浮点数的表示,提出IEEE754标准。
IEEE754根据阶码和尾数还可以再分类。
所谓规格化,就是要求尾数最高位为1,这可以通过阶码调整。所以在IEEE754中可以把最高位的1省略掉,因为规格化浮点数默认最高位肯定是1啊。所以有了以下的公式:
拿个例子:假设把-5.125转成规格化的单精度浮点数。(单精度浮点数为4个字节,IEEE754规定1位为尾数符号位,8位为阶码,23位为尾数,这里用原码表示)
(我看百度百科写得很好,就直接拿过来这两段)
如果浮点数的指数部分是0,尾数部分非规格化,那么这个浮点数将被称为非规格化的浮点数。在这样情况下,阶码=1-偏移值,尾数就是原先的尾数,即不隐含尾数开头的1。
一般是某个数字相当接近零时才会使用非规格化浮点数来表示,其实可以把表示0归类在非规格化浮点数。(重要)
IEEE 754标准规定:非规约的浮点数的指数偏移值比规格化的浮点数的指数偏移值小1。例如,最小的规格化的单精度浮点数的指数部分编码值为1,指数的实际值为-126;而非规格化的单精度浮点数的指数域编码值为0,对应的指数实际值也是-126而不是-127。实际上非规格化的浮点数仍然是有效可以使用的,只是它们的绝对值已经小于所有的规格化浮点数的绝对值;即所有的非规格化浮点数比规约浮点数更接近0。
为什么要让非规格化浮点数的指数偏移值比规格化浮点数的指数偏移值小1?为了补偿非规格化数的尾数没有隐含开头1,其实非规格化浮点数经常性的与规格化浮点数互相转换,所以这是为了让非规格化浮点数能够平滑转换到规格化浮点数,减少误差。虽然可能还是有误差。
来看看《深入了解计算机系统》的浮点数中讲的:解释为什么阶码要用1-偏移值表示。
如果指数是0并且尾数的小数部分是0,这个数±0(和符号位相关)。假设为单精度:
如果指数= ( 2 e ) − 1 (2^e)-1 (2e)−1(转为二进制就是阶码全为1)并且尾数的小数部分是0,这个数是±∞(同样和符号位相关)。假设为单精度:
如果指数= ( 2 e ) − 1 (2^e)-1 (2e)−1(转为二进制就是阶码全为1)并且尾数的小数部分非0,这个数表示为不是一个数(NaN)。比如:Math.sqrt(-1)。假设位单精度:
0 11111111 00000000000000000000001:NaN
…
0 11111111 11111111111111111111111:NaN
一共有: 2 23 − 1 2^{23}-1 223−1个表示NaN。
双精度的也可以求,根据尾数位数,所以一共有 2 52 − 1 2^{52}-1 252−1个表示NaN。
一些运算结果不能是实数或者无穷,就会返回NaN,比如:Math.sqrt(-1)。
假设阶码位数为m位,尾数位数为n位,先按非零浮点数来说,它可以表示上面三类数。跟高级语言联系,按照java中的浮点数最小值是非规格化数,最大值是规格化数。
对于正数的阶码:用移码表示。
正数阶码最大值(规格化的阶码的最大值,减去偏移值): ( 2 m − 2 ) − ( 2 m − 1 − 1 ) (2^m - 2)- (2^{m-1} - 1) (2m−2)−(2m−1−1)
正数阶码最小值(非规格化数的阶码的最小值) : ( 1 − 2 m − 1 ) (1 - 2^{m-1}) (1−2m−1)
对于正数的尾数:
尾数最大值(规格化数,比如:1.1111… 后都是1,规格化尾数小于2,最大值离2有2^{-n}的距离): 2 − 2 − n 2-2^{-n} 2−2−n
尾数最小值(非规格化数,距离0的距离就是2^{-n}): 2 − n 2^{-n} 2−n
根据上面尾数的范围和阶码的范围,可得出浮点数的表示范围:其中有三块是不能表示的(上溢,下溢),按照Java,对于浮点数,如果产生下溢,一律按0.0处理,如果右上溢则按正无穷处理,如果左上溢则按负无穷处理。
上面浮点数的表示范围可能有时会不同,不要照搬,看阶码用什么表示,还有表示的范围是否有包含特殊值,是否还分规格化和非规格化等等。
任何有效数上的运算结果,通常都存放在较长的寄存器中,当结果被放回浮点格式时,必须将多出来的比特丢弃。IEEE754定义了浮点数四种舍入格式:
这里是有符号位的。如果从计算机取出数据时,
需要5步:对阶-》尾数求和-》尾数规格化-》舍入-》溢出判断
例1:x = 0.1101 * 2 01 2^{01} 201 , y = (-0.1010) * 2 11 2^{11} 211,求x+y。(都是用二进制表示的,假设阶码和尾数都是4位)
例2:x = 0.11010011 * 2 1101 2^{1101} 21101 , y =0.11101110 * 2 1100 2^{1100} 21100,求x+y。(都是用二进制表示的,假设阶码是4位,尾数是8位)
都是以IEEE754为标准的。
有效数字是指在一个数中,从该数的第一个非零数字起,直到末尾数字止的数字称为有效数字。
我们以单精度浮点数为例,跟高级语言联系起来,我用Java的float联系。Java的float的组成跟上面一样。而我们知道float中有规格化浮点数、非规格化浮点数和特殊值三种。
public final class Float extends Number implements Comparable<Float> {
/**
* 表示正无穷,但输出:Infinity
*/
public static final float POSITIVE_INFINITY = 1.0f / 0.0f;
/**
* 表示负无穷,但输出:-Infinity
*/
public static final float NEGATIVE_INFINITY = -1.0f / 0.0f;
/**
* 表示为不是一个数
* NaN规定用0x7fc00000来表示
*/
public static final float NaN = 0.0f / 0.0f;
/**
* 正数浮点数的最大规格化数
* (1.11111111111111111111111)×2^127 ≈ (2 - 2^(-23))×2^127 ≈ 3.402823e+38f
*/
public static final float MAX_VALUE = 0x1.fffffeP+127f; // 3.4028235e+38f
/**
* 正数浮点数的最小规格化数
* (1.0)×2^(-126) ≈ 1.17549435E-38f
*/
public static final float MIN_NORMAL = 0x1.0p-126f; // 1.17549435E-38f
/**
* 正数浮点数的最小非规格化数,非规格化浮点数的指数为0,按照公式:阶码=1-偏移值,得:阶码=1 - *(2^(8-1)-1) = -126,而非规格化浮点数最小值是距离0最近的,那么尾数为00...01(22个0,一共23 * 位)= 2^{-23},所以正数的非规格化浮点数最小值 = 2^{-23} * 2^{-126} = 2^{-149} ≈
* 1.4e-45f
*/
public static final float MIN_VALUE = 0x0.000002P-126f; // 1.4e-45f
/**
* 最大实际指数
*/
public static final int MAX_EXPONENT = 127;
/**
* 最小实际指数
*/
public static final int MIN_EXPONENT = -126;
/**
* 位
*/
public static final int SIZE = 32;
/**
* 字节
*/
public static final int BYTES = SIZE / Byte.SIZE;
/*
* 可以接收 float,double,String
*/
public Float(float value) {
this.value = value;
}
public Float(double value) {
this.value = (float)value;
}
public Float(String s) throws NumberFormatException {
valueparseFloat(s);
}
/*
*native关键字:方法对应的实习并不在当前文件
* 方法作用:将一个浮点数转成二进制,然后转成成在内存中的表示形式(这里是float,那么1位符号位,8位阶码,23位尾数),再输出时转成十进制输出。
*
*/
public static native int floatToRawIntBits(float value);
/*
* 功能跟上面方法一样,但是这里做了NaN检查
* 在浮点数比较时(equals)会使用到这个方法,如果浮点数相等那么转换的二进制一定相等。
* 我们也可以用它来把一个浮点数转成二进制数,因为它是先转成十进制数,那么需要借助Integer.toBinaryString()方法,把十进制转成二进制,如果输出的二进制不满32位则前面补0,那么对于float,第1位是符号位,8位阶码,23位尾数。
* 如果是double型也一样,但使用Long.toBinaryString()。
*/
public static int floatToIntBits(float value) {
int result = floatToRawIntBits(value);
// Check for NaN based on values of bit fields, maximum
// exponent and nonzero significand.
if ( ((result & FloatConsts.EXP_BIT_MASK) ==
FloatConsts.EXP_BIT_MASK) &&
(result & FloatConsts.SIGNIF_BIT_MASK) != 0)
result = 0x7fc00000;
return result;
}
/*其他的源码,比如parseFloat方法的源码前部分看得懂,但后部分看不懂,以后再补*/
}
最后,学习了浮点数,如果这样完事了就学了没用啊,那么在Java中试试:0.1+0.2的结果是什么?我的结果是:0.30000000000000004。意不意外!!按照上面学的,我们自己来模仿计算机运算一下:注意,计算机如果没有在浮点数后加上f,那默认就得double类型的,这应该不用我废话了。
0.1 转: 0.00011001100110011...(后面无限循环0011)
0.2 转: 0.0011001100110011...(后面无限循环0011)
发现0.1和0.2转成二进制是一个无限循环的二进制小数,这也说明double并没有能够准确表达0.1和0.2的浮点数,只能找到一个无限逼近0.1和0.2的浮点数。这需要跟对阶和0舍1入联系。
System.out.println(Double.MIN_NORMAL > 0.1);
output:false
说明0.1和0.2是规格化数,是规格化浮点数,所以尾数有隐藏位
0.1:0.00011001100110011...(后面无限循环0011)
二进制科学计数法:(-1)^0 * 1.1001100110011001100110011001100110011001100110011010 * 2^(-4)
解释:尾数截取了52个,第53个是1,按照0舍1入,需要对尾数加1
0.2:0.0011001100110011...(后面无限循环0011)
二进制科学计数法:(-1)^0 * 1.1001100110011001100110011001100110011001100110011010 * 2^(-3)
解释:尾数截取了52个,第53个是1,按照0舍1入,需要对尾数加1
0.1100110011001100110011001100110011001100110011001101 * 2^(-3)
后面舍去一位0
0.1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1100 1101
+ 1.1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1010
----------------------------------------------------------------------
10.0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0111
10.0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0110 0111:
(-1)^0 * 1.0011001100110011001100110011001100110011001100110100 * 2^(-2)
解释:尾数截取了52个,第53个是1,按照0舍1入,需要对尾数加1
0.010011001100110011001100110011001100110011001100110100:0.30000000000000004
这里就不使用双符号位了,可以知道不会溢出。所以答案就是:以前学过有限小数和无限小数,浮点数在运算时转成二进制时,也是有这样的概念,所以某些数并不能精确的表示,而且可能经过了0舍1入和对阶,所以某些浮点数只能找到无限接近于它的数。
那0.1f+0.2f怎么不会?再试试:
System.out.println(Float.MIN_NORMAL > 0.1);
output:false
说明0.1和0.2是规格化数,是规格化浮点数,所以尾数有隐藏位
0.1:0.00011001100110011...(后面无限循环0011)
二进制科学计数法:(-1)^0 * 1.10011001100110011001101 * 2^(-4)
解释:尾数截取了23个,第24个是1,按照0舍1入,需要对尾数加1
0.2:0.0011001100110011...(后面无限循环0011)
二进制科学计数法:(-1)^0 * 1.10011001100110011001101 * 2^(-3)
解释:尾数截取了52个,第53个是1,按照0舍1入,需要对尾数加1
(-1)^0 * 0.11001100110011001100111 * 2^(-3)
舍去最后一位,最后一位是1,需要对尾数加1
0.11001100110011001100111
+ 1.10011001100110011001101
-----------------------------
10.01100110011001100110100
(-1)^0 * 1.00110011001100110011010 * 2^(-2)
0.0100110011001100110011010:0.30000001192092896
这里的结果就疑问了?为什么结果跟java输出的结果不同,你可以试试下面这条语句:
System.out.printf("%.30f\n", (0.1f+0.2f));
它输出的结果:0.300000011920928960000000000000000000000000000000000000000
你看这不是跟我们计算的一样吗,只不过对于float来说,它最多能表示8位有效数字,即0.3000000,而3后面的0是不显示的,所以就变成了输出0.3
浮点数的运算造成的误差其中的原理都是一样的,而且还要看是float和double类型。
自从了解了上面,那我自己就突然跳出一个想法,那为什么打印0.1结果还是输出0.1呢?我也很纳闷,卡了2天,找了资料,看了源码,提到跟Double/Float的toString有关,主要是toString调用的FloatingDecimal.toJavaFormatString(f),对于现阶段的我难以理解,这个问题十分底层。我给个链接:点我跳转,如果看得懂可以在评论区给我留言,谢谢。
目前结合我自己的理解来解释为什么在java打印0.1结果还是输出0.1?
System.out.printf("float: %.50f\n", (0.1f));
System.out.printf("double: %.53f\n", (0.1));
对于float的0.1:0.000110011001100110011001101
对于double的0.1:0.00011001100110011001100110011001100110011001100110011010
你有没有疑问是不是我算错了?那我们来使用java逆推一下:
// 把0.1在内存中的表示形式(1位符号位,11位阶码(移码表示),52位尾数)转成十进制
System.out.println(Double.doubleToRawLongBits(0.1));
// output:4591870180066957722l
// 把输出结果转成二进制:
System.out.println(Long.toBinaryString(4591870180066957722l));
// output:11111110111001100110011001100110011001100110011001100110011010
// 一共才62位,我们需要64位,一定是在前面补0,因为java输出的数会去除前导0(比如00002,输出2),
// 所以:0011111110111001100110011001100110011001100110011001100110011010
// 按照double:1位符号位,11位阶码(移码表示),52位尾数
// 得 0 01111111011 1001100110011001100110011001100110011001100110011010
// 阶码转成十进制:01111111011-》1019,这是移码,而double的偏移值是1023,所以实际的指数为-4
// 尾数需要+1,得:1.1001100110011001100110011001100110011001100110011010
// 所以得:0.00011001100110011001100110011001100110011001100110011010
// 这个二进制数不就是我们上面求的二进制数吗,我拿去转成十进制结果就是0.1
那既然这样,发展这么久,那肯定有解决办法,这些误差主要产生在运算中,所以在java中使用java.math.BigDecimal来做浮点数的运算。
java.math.BigDecimal中的构造函数可以接收double,float,String类型的参数,也可以接收int、long类型,因为BigDecimal的实习是利用BigInteger,但是在BigDecimal加入了浮点数的表示。
你试试看0.1:
BigDecimal bigDecimal1 = new BigDecimal(0.1);
BigDecimal bigDecimal2 = new BigDecimal("0.1");
BigDecimal bigDecimal3 = new BigDecimal(0.1f);
System.out.println(bigDecimal1);
System.out.println(bigDecimal2);
System.out.println(bigDecimal3);
结果居然是这样的:
很疑惑,点开BigDecimal的构造函数看看源码,看到注释有这一句:我拿去翻译了
参数类型为double的构造方法的结果有一定的不可预知性。有人可能认为在Java中写入newBigDecimal(0.1)所创建的BigDecimal正好等于 0.1(非标度值 1,其标度为 1),但是它实际上等于0.1000000000000000055511151231257827021181583404541015625。这是因为0.1无法准确地表示为 double(或者说对于该情况,不能表示为任何有限长度的二进制小数)。这样,传入到构造方法的值不会正好等于 0.1(虽然表面上等于该值)。所以最好使用String传入。
BigDecimal中带有加减乘除,得出的结果需要存储或者覆盖给某个值。
BigDecimal中带有方法可以把BigDecimal转成double:doubleValue()。
拿上面的0.1+0.2来试试:
BigDecimal bigDecimal1 = new BigDecimal("0.1");
BigDecimal bigDecimal2 = new BigDecimal("0.2");
System.out.println(bigDecimal1.add(bigDecimal2));
System.out.println(bigDecimal1.add(bigDecimal2).doubleValue()); // 可以转成double,结果都是一样的,但是使用doubleValue()可以把结果赋给double类型的变量
对于BigDecimal的其他方法就不一一说了。
百度百科:IEEE754
摘自百度百科:浮点数
《深入了解计算机系统》第三版
慕课网咚咚呛老师(很不错)