浮点数的表示方法
IEEE754浮点数的表示方法:N = (-1)^s x m x 2^e
,其中s为符号位,m是尾数位,e是指数位。
种类 | 符号位 | 指数位 | 尾数位 |
---|---|---|---|
float | 第31位(占1bit) | 第30-23位(占8bit) | 第22-0位(占23bit) |
double | 第63位(占1bit) | 第62-52位(占11bit) | 第51-0位(占52bit) |
对于单精度浮点数(float)来说,符号位一位,指数位8位,尾数23位。指数能够表示的指数范围为-128~127,尾数为23位。
float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
- float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字;
- double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。
其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。(指数二进制转换为十进制)
- float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38.
- double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~+1.79E+308.
具体计算公式N = (-1)^s x m x 2^e
,以float为栗子,但s=0,m=23,e=8时:
+1.1111111111111111111111 x 2^127(小数点后面23个1,由于尾数的范围1~2,其最高位总为1,故只需存取小数部分,所以小数为是23位1),约等于2 x 2^127=3.4 x 10^38。负数亦然。
long和double的区别
long表示的是一个整型的数据,在不同系统或语言定义可能不同,在内存32位或64位,即表示的是一个有32/64位二进制数表示的一个整数,最大为 2^63-1.
但double不一样,表示的是浮点数,以EEE754浮点数表示方法为:N = (-1)^s x m x 2^e
,其范围和精度是由其指数和位数决定的。所说的32位或64位是指该浮点数的符号位+指数位+尾数位
.
两者在表示形式就不一样,而不能简单地根据数据所占位数去比较它们的大小。
补充:理解32位系统和64位系统
32位系统CPU一次可处理32位数据,即一次处理4个字节;64位系统CPU一次可处理64位数据,即一次处理8个字节。
x86与x86-64有什么区别呢?x86指的是一般意义上的32位Intel处理器;而x86_64 则是一般意义上的64位Intel处理器。