【C语言进阶篇】数据在内存中的那些事,你需要知道这些

【C语言进阶篇】数据在内存中的那些事,你需要知道这些

    • 1.数据类型介绍
      • 1.1类型的基本归类:
    • 2.整形在内存中的存储
      • 2.1 原码、反码、补码
      • 2.2 大小端介绍
        • 2.2.1 什么是大端小端:
        • 2.2.2 为什么有大端和小端:
        • 2.2.3 如何设计一段程序来判断机器的字节序?
    • 3.浮点型在内存中的存储
      • 3.1 一个例子
      • 3.2 浮点数存储规则
      • 3.3 解释例子

1.数据类型介绍

既然你点开了这篇文章,说明你对C语言已经有了一定的了解,那就回顾一下基本的内置类型:

char        //字符数据类型
short       //短整型
int         //整型
long        //长整型
long long   //更长的整型
float       //单精度浮点数
double      //双精度浮点数

我们也都知道这些类型所占存储空间的大小。
而细分这些类型也是有意义的,因为类型决定了开辟内存空间的大小以及看待内存空间的视角
下面我们对这些类型进行大致的分类。

1.1类型的基本归类:

整型家族

char
 unsigned char
 signed char
short
 unsigned short [int]
 signed short [int]
int
 unsigned int
 signed int
long
 unsigned long [int]
 signed long [int]
long long
 unsigned long long [int]
 signed long long [int]

下面四个归为整型是没有任何疑问的。
char字符型由于在内存中存储时是以字符对应的ASCII值存储的,所以也算是整型大类。

浮点数家族

float
double
long double

浮点数家族成员就相对少了。

构造类型:

> 数组类型 arr[]
> 结构体类型 struct
> 枚举类型 enum
> 联合类型 union

对于下三个是没有什么疑问的。但数组为什么属于构造类型呢。
首先,数组不能简单的定义为整型浮点型,数组是用来存放一组相同类型的集合。就好比int arr1[5]int arr2[6],二者都是数组, 但就不是同一类型,因为二者在内存中占的空间就不一样。

指针类型:

int *pi;
char *pc;
float* pf;
void* pv;

不同类型的指针所占用的内存空间相同,所访问空间的大小是不同的。

空类型:

void 表示空类型(无类型)
通常应用于函数的返回类型、函数的参数、指针类型。
就比如我们经常写的void test()

2.整形在内存中的存储

一个变量的创建是要在内存中开辟空间的。空间的大小是根据不同的类型而决定的。
但数据在开辟的内存中是如何存储的呢?
例如我定义了两个变量:

int a = 20;
int b = -10;

我只知道ab在内存中各自开辟了四个字节的空间,但它们是如何利用这八个字节的空间存储 20-10 的呢?
我们先来了解一下计算机中的整数的三种表示方法。

2.1 原码、反码、补码

计算机中的整数有三种表示方法,即原码、反码和补码。
三种表示方法均有符号位和数值位两部分,符号位都是用0表示“正”,用1表示“负”,而数值位都是进制转换后的二进制数。

原码
直接将二进制按照正负数的形式翻译成二进制就可以。
反码
将原码的符号位不变,其他位依次按位取反就可以得到了。
补码
反码+1就得到补码。

负整数的三种表示方法各不相同。
正数的原、反、补码都相同。
对于整形来说:数据存放内存中其实存放的是补码。 为什么呢?

在计算机系统中,数值一律用补码来表示和存储。原因在于,使用补码,可以将符号位和数值域统一处理;同时,加法和减法也可以统一处理(CPU只有加法器)此外,补码与原码相互转换,其运算过程是相同的,不需要额外的硬件电路。
如何理解补码和原码相互转换的运算过程相同呢?举个简单的例子就明白了,我们用 -1 举例:
原码 > 10000000000000000000000000000001
反码 > 1111111111111111111111111111111111110
补码 > 1111111111111111111111111111111111111
下面以补码为原码进行相同的操作:
原码 > 1111111111111111111111111111111111111
反码 > 10000000000000000000000000000000
补码 > 10000000000000000000000000000001
可以看到,补码经过取反+1就得到了之前的原码。

现在我创建两个局部变量:

int a = 20;
int b = -10;

对于a来说,它的原反补码相同,所以他在内存中存储的二进制序列为
00000000 00000000 00000000 00010100
转换为十六进制为“00 00 00 14
对于b来说,他的原反补需要进行计算:
原码 > 10000000 00000000 00000000 00001010
反码 > 111111111 111111111 111111111 111110101
补码 > 111111111 111111111 111111111 111110110

转换为十六进制为“ff ff ff f6

内存是以十六进制存储的,我们来验证一下ab是不是按转换后的十六进制数存储的:
【C语言进阶篇】数据在内存中的那些事,你需要知道这些_第1张图片
是,但不完全是。因为顺序和我们想的好像不太一样。
所以这就引出了另一个问题 —— 大小端。

2.2 大小端介绍

2.2.1 什么是大端小端:

大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;
小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,保存在内存的高地址中。
很显然,根据介绍,上面ab的存储方式就是小端存储。

2.2.2 为什么有大端和小端:

为什么会有大小端模式之分呢?
这是因为在计算机系统中,我们是以字节为单位的,每个地址单元都对应着一个字节,一个字节为8 bit。但是在C语言中除了8 bitchar之外,还有16 bitshort型,32 bitlong型(要看具体的编译器),另外,对于位数大于8位的处理器,例如16位或者32位的处理器,由于寄存器宽度大于一个字节,那么必然存在着一个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。
例如:一个 16bitshortx ,在内存中的地址为 0x0010x 的值为 0x1122 ,那么 0x11 为高字节, 0x22 为低字节。
对于大端模式,就将 0x11 放在低地址中,即 0x0010 中, 0x22 放在高地址中,即 0x0011 中。
对于小端模式,刚好相反。我们常用的 X86 结构是小端模式,而 KEIL C51 则为大端模式。很多的ARMDSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

2.2.3 如何设计一段程序来判断机器的字节序?

理解了上面的概念之后其实很简单。
我们设置一个变量 a = 1
它进行十六进制转换后为“00 00 00 01”,
如果是大端存储,那由低地址到高地址存储顺序就是“00 00 00 01”,
如果是小端存储,则恰好相反,为“01 00 00 00”。
若恰好能直接访问它的首地址,首地址存放的是0,就可以判断为大端存储;存放的是1, 则可以判断为小端存储。
char* 指针恰好有只能访问一个地址的权限,所以很容易就能写出来这段代码。

int main()
{
	int a = 1;
	char* p = (char*)&a;
	if (*p == 1)
		printf("小端存储\n");
	else
		printf("大端存储\n");
	return 0;
}

3.浮点型在内存中的存储

浮点数一般有两种表现形式:小数形式科学计数法,有floatdoublelong double三种类型。
下面通过一个例子来引出浮点型数据在内存中的存储。

3.1 一个例子

int main()
{
	int n = 9;	
	float *pFloat = (float *)&n;
	printf("n的值为:%d\n",n);1printf("*pFloat的值为:%f\n",*pFloat);2*pFloat = 9.0;
	printf("num的值为:%d\n",n);3printf("*pFloat的值为:%f\n",*pFloat);4return 0;
}

这段代码的输出结果会是什么呢?
【C语言进阶篇】数据在内存中的那些事,你需要知道这些_第2张图片
其中(1)处和(4)处的输出结果与预想一致,而(2)(3)两处则出现了较大的差别。其原因就在于浮点型和整型数据存储与读取方式存在差别。

起初n是以整型类型声明的,所以它的存储方式是按照整型的存储方式来的。
(1)处是以 %d 即整型类型打印,故访问n的内存也是以访问整型数据的内存方式来的。
(2)处由于是以 %f 即浮点型类型打印,故访问n的内存时是以访问浮点型数据的方式来的。
之后通过指针解引用对n以浮点型类型赋值。这时它的存储方式就按照浮点型的存储方式来了。
(3)处是以 %d 的形式打印,是以访问整型数据内存的方式访问n的内存。
(4)处是以 %f 的形式打印,所以是以访问浮点型数据内存的方式来访问n
由此可知,(2)(3)处打印出来异常数据的原因就在于浮点型和整形数据的存储与访问方式不同。

3.2 浮点数存储规则

根据国际标准IEEE(电气和电子工程协会)754,任意一个二进制浮点数V可以表示成下面的形式:

V = (-1)S * M * 2E
(-1)S 表示符号位,当S=0V为正数;当s=1V为负数。
M表示有效数字,大于等于1,小于2
2E 表示指数位。

怎么理解这段话呢?

首先我们要了解怎样用二进制表示小数。
我们知道,二进制每一位都有对应的十进制表示。
比如二进制的第一位对应 20 ,第二位对应 21 ,以此类推…
如果二进制数也加个小数点,那小数点后一位就对应 2-1 ,小数点后两位就对应 2-2 ,以此类推…
举个例子,十进制数5.5用二进制数表示就是101.1,十进制数5.25用二进制数表示就是101.01
所以5.5如果写成上面那种形式就是1.01×22 ,那么,按照上面V的格式,可以得出S=0M=1.01E=2
十进制的 -5.0,写成二进制是 -101.0 ,相当于 -1.01×22 。那么,S=1M=1.01E=2

IEEE 754规定:

对于32位的浮点数,最高的1位是符号位S,接着的8位是指数E,剩下的23位为有效数字M
【C语言进阶篇】数据在内存中的那些事,你需要知道这些_第3张图片 对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M
【C语言进阶篇】数据在内存中的那些事,你需要知道这些_第4张图片

IEEE 754对有效数字M和指数E,还有一些特别规定:

前面说过, 1≤M<2 ,也就是说,M可以写成 1.xxxxxx 的形式,其中xxxxxx表示小数部分。
IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分。
比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。
以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。

至于指数E,情况就比较复杂。

首先,E为一个无符号整数 (unsigned int) 这意味着,如果E为8位,它的取值范围为0 ~255;如果E为11位,它的取值范围为0 ~2047。但是,我们知道,科学计数法中的E是可以出现负数的。为了保证E在取值范围内,IEEE754规定:存入内存时E的真实值必须再加上一个中间数。
对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023
比如,210E10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001

然后,指数E从内存中取出还可以再分成三种情况:

E不全为0或不全为1

这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1
比如:0.5 的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位,则为1.0 * 2(-1) ,其阶码为 -1+ 127 = 126 ,表示为01111110,而尾数1.0去掉整数部分为0,补齐02300000000000000000000000,则其二进制表示形式为:0 01111110 00000000000000000000000

E全为0

这时,浮点数的指数 E 等于 1-127(或者1-1023) 即为真实值,有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字。
简单点说就是,指数太小了,转换成对应的十进制数就是无穷小。

E全为1

这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位S

3.3 解释例子

下面,让我们回到一开始的问题:为什么 0x00000009 还原成浮点数,就成了 0.000000
先看第一部分:

第一部分的n是以整型声明的,所以它在存储时是以整型方式存储的,即以补码的形式存储的,即00000000 00000000 00000000 00001001
而如果以 %f 的形式打印,就意味着读取它时要以访问浮点型数据的方式访问它,即0 00000000 00000000000000000001001
拆分得到第一位符号位S=0,后面8位的指数E=00000000 ,最后23位的有效数字M=00000000000000000001001
由于指数E全为0,所以符合上面的第二种情况。因此,浮点数V就写成:
V=(-1)0 × 0.00000000000000000001001×2(-126)=1.001×2(-126)
显然,V是一个很小的接近于0的正数,所以用十进制小数表示就是0.000000

再看第二部分:

第二部分的n是以浮点型赋值的,所以它在存储时是以浮点型方式存储的。
9.0用二进制表示为1001.0,即1.001×23 ,那么,第一位的符号位S=0,有效数字M等于001后面再加20个0,凑满23位,指数E等于3+127=130, 即10000010
所以,写成二进制形式,应该是S+E+M
0 10000010 001 0000 0000 0000 0000 0000
这个32位的二进制数,还原成十进制,正是 1091567616 ,与打印结果一致。

你可能感兴趣的:(c语言,开发语言,后端,经验分享)