C语言的位域虽然很多人强烈建议不要使用,但现有系统里还广泛存在位域的使用,所以还是很有必要理清楚的。
对big-endian和little-endian的区别,很多人认为是对多字节数据类型而言。其实,问题的本质不在这里。
两种endian区别的本质是由于CPU的数据引脚和系统地址总线的连接方向的不同。也就是说,高地址,低地址的区别不仅体现在“字节序”上,还体现在“比特序”上,只不过因为系统屏蔽了“比特序”的一些细节,所以看起来问题仅仅是字节之间的顺序问题了。
所以,对字节序相关的问题,如果能从两个角度来看问题,就很直接明了了。
先从系统地址总线的角度来分析数据的存放,然后从CPU的数据引脚的角度来解析数据…(对网络字节,可从网络数据传送地址的角度分析数据的存放,思想类同)。
如果将一个32位的整数0x12345678存放到一个整型变量(int) 中,这个整型变量采用大端或者小端模式在内存中的存储由下表所示。为简单起见,本文使用OP0表示一个32位数据的最高字节MSB(Most Significant Byte),使用OP3表示一个32位数据最低字节LSB(Least Significant Byte)。
地址偏移 | 大端模式 | 小端模式 |
---|---|---|
0x00 | 12(OP0) | 78 (OP3) |
0x01 | 34(OP1) | 56 (OP2) |
0x02 | 56(OP2) | 34(OP1) |
0x03 | 78(OP3) | 12 (OP0) |
由上表所知,采用大小模式对数据进行存放的主要区别在于在存放的字节顺序,大端方式将高位存放在低地址,小端方式将高位存 放在高地址。采用大端方式进行数据存放符合人类的正常思维,而采用小端方式进行数据存放利于计算机处理。到目前为止,采用大端或者小端进行数据存放,其孰 优孰劣也没有定论。
有的处理器系统采用了小端方式进行数据存放,如Intel的奔腾。有的处理器系统采用了大端方式进行数据存放,如IBM半导体和Freescale的PowerPC处理器。不仅对于处理器,一些外设的设计中也存在着使用大端或者小端进行数据存放的选择。
因此在一个处理器系统中,有可能存在大端和小端模式同时存在的现象。这一现象为系统的软硬件设计带来了不小的麻烦,这要求系统设计工程师,必须深入理解大端和小端模式的差别。大端与小端模式的差别体现在一个处理器的寄存器,指令集,系统总线等各个层次中。
大小端的分度值是 byte,即每一个byte都是按照正常顺序,但是byte组装成一个int 或者是 long等时每个byte的摆放位置不同。
如何判别系统的大小端:
//如果字节序为big-endian,返回true;
//反之为 little-endian,返回false
bool IsBig_Endian()
{
unsigned short test = 0x1234;
if(*( (unsigned char*) &test ) == 0x12)
return TRUE;
else
return FALSE;
}//IsBig_Endian()
struct kk
{
unsigned char a:2;
unsigned char b:3;
unsigned char c:2;
unsigned char d:1;
}
上方代码中,a,b,c,d称为位域或者段,各位域或段相互之间按数据结构中的顺序在存储器中按从低到高的顺序存储,与CPU的大小端无关。所以 a,b,c,d的地址是从低到高的。
地址总线 低 》----》----》----》 高
a b c d
int main()
{
kk stuData;
char cSrc=6;
memcpy(&stuData, &cSrc, sizeof(stuData));
printf("%d, %d, %d, %d\n", stuData.a, stuData.b, stuData.c, stuData.d);
return 0;
}
在little-endian机器上,一个位域或段内部的低bit 放在内存的低bit地址处。
在big-endian机器上,一个位域或段内部的高bit 放在内存的低bit地址处
cSrc的二进制表示为0b00000110
在little-endian机器上cSrc字节中各个比特的存放排列如下所示
地址总线 低 》----》----》----》 高
01100000
解析得到:
stuData.a = 0b10 = 2
stuData.b = 0b001 =1
stuData.c = 0b00 = 0
stuData.d = 0b0 = 0
在big-endian机器上,cSrc字节中各个比特的存放排列如下所示
地址总线 低 》----》----》----》 高
00000110
解析得到:
stuData.a = 0b00 = 0
stuData.b = 0b000 = 0
stuData.c = 0b11 = 3
stuData.d = 0b0 = 0
struct kk
{
unsigned short a:2;
unsigned short b:9;
unsigned short c:4;
unsigned short d:1;
}
int main()
{
kk stuData;
unsigned short usSrc=0x1234;
memcpy(&stuData, &cSrc, sizeof(stuData));
printf("%d, %d, %d, %d\n", stuData.a, stuData.b, stuData.c, stuData.d);
return 0;
}
cSrc的二进制表示为0b 0001 0010 0011 0100
在little-endian机器上cSrc字节中各个比特的存放排列如下所示
地址总线 低 》----》 ---- 》 ---- 》 高
bit位 低bit位 bit0 bit1 ... bit14 bit5 高bit位
00|10 1100 010|0 100|0
a b c d
解析得到:
stuData.a = 0b00 = 0
stuData.b = 0b010 0011 01 = 141
stuData.c = 0b0010= 4
stuData.d = 0b0 = 0
在big-endian机器上,cSrc字节中各个比特的存放排列如下所示
地址总线 低 》 ----》 ----》 ----》 高
bit位 高bit位 bit15 bit4 ... bit1 bit0 低bit位
00|01 0010 001|1 010|0
a b c d
解析得到:
stuData.a = 0b00 = 0
stuData.b = 0b01 0010 001 = 145
stuData.c = 0b1010 = 10
stuData.d = 0b0 = 0