大端小端 -- 各系统及机器的信息表示
因为现行的计算机都是以八位一个字节为存储单位,那么一个16位的整数,也就是C语言中的short,在内存中可能有两种存储顺序big-
endian和litte-endian.考虑一个short整数0x3132(0x32是低位,0x31是高位),把它赋值给一个short变量,那么它在内存中的存储可
能有如下两种情况:
大端字节(Big-endian):
short变量地址
0x1000 0x1001
___________________________________
| |
| 0x31 | 0x32
|________________ | ________________
高位字节在低位字节的前面,也就是高位在内存地址低的一端.可以这样记住(大端->高位->在前->正常的逻辑顺序)
小端字节(little-endian):
short变量地址
0x1000 0x1001
_____________________________________
| |
| 0x32 | 0x31
|________________ | __________________
低位字节在高位字节的前面,也就是低位在内存地址低的一端.可以这样记住(小端->低位->在前->与正常逻辑顺序相反)
可以做个实验
在windows上下如下程序
然后在C盘下打开test.txt文件,可以看见内容是21,而test等于0x3132,可以明显的看出来x86的字节顺序是低位在前.如果我们
把这段同样的代码放到(big-endian)的机器上执行,那么打出来的文件就是12.这在本机中使用是没有问题的.但当你把这个文件从一
个big- endian机器复制到一个little-endian机器上时就出现问题了.
如上述例子,我们在big-endian的机器上创建了这个test文件,把其复制到little-endian的机器上再用fread读到一个 short里
面,我们得到的就不再是0x3132而是0x3231了,这样读到的数据就是错误的,所以在两个字节顺序不一样的机器上传输数据时需要特别
小心字节顺序,理解了字节顺序在可以帮助我们写出移植行更高的代码.
正因为有字节顺序的差别,所以在网络传输的时候定义了所有字节顺序相关的数据都使用big-endian,BSD的代码中定义了四个宏来处
理:
举例说明下这其中一个宏的实现:
这里实现的是一个交换两个字节顺序.其他几个宏类似.
我们改写一下上面的程序
如果在高字节在前的机器上,由于与网络字节顺序一致,所以我们什么都不干就可以了,只需要把#define htons(x) sw16(x)宏替
换为 #define htons(x) (x).
一开始我在理解这个问题时,总在想为什么其他数据不用交换字节顺序?比如说我们write一块buffer到文件,最后终于想明白了,
因为都是unsigned char类型一个字节一个字节的写进去,这个顺序是固定的,不存在字节顺序的问题.
【打印程序对象的字节表示】
---------------------------------------------
对于如数值12345在int型和float型时的编码表示
endian和litte-endian.考虑一个short整数0x3132(0x32是低位,0x31是高位),把它赋值给一个short变量,那么它在内存中的存储可
能有如下两种情况:
大端字节(Big-endian):
short变量地址
0x1000 0x1001
___________________________________
| |
| 0x31 | 0x32
|________________ | ________________
高位字节在低位字节的前面,也就是高位在内存地址低的一端.可以这样记住(大端->高位->在前->正常的逻辑顺序)
小端字节(little-endian):
short变量地址
0x1000 0x1001
_____________________________________
| |
| 0x32 | 0x31
|________________ | __________________
低位字节在高位字节的前面,也就是低位在内存地址低的一端.可以这样记住(小端->低位->在前->与正常逻辑顺序相反)
可以做个实验
在windows上下如下程序
#include
<
stdio.h
>
#include < assert.h >
void main( void )
{
short test;
FILE * fp;
test = 0x3132 ; // (31ASIIC码的’1’,32ASIIC码的’2’)
if ((fp = fopen ( " c: "" test.txt " , " wb " )) == NULL)
assert( 0 );
fwrite( & test, sizeof ( short ), 1 , fp);
fclose(fp);
}
#include < assert.h >
void main( void )
{
short test;
FILE * fp;
test = 0x3132 ; // (31ASIIC码的’1’,32ASIIC码的’2’)
if ((fp = fopen ( " c: "" test.txt " , " wb " )) == NULL)
assert( 0 );
fwrite( & test, sizeof ( short ), 1 , fp);
fclose(fp);
}
然后在C盘下打开test.txt文件,可以看见内容是21,而test等于0x3132,可以明显的看出来x86的字节顺序是低位在前.如果我们
把这段同样的代码放到(big-endian)的机器上执行,那么打出来的文件就是12.这在本机中使用是没有问题的.但当你把这个文件从一
个big- endian机器复制到一个little-endian机器上时就出现问题了.
如上述例子,我们在big-endian的机器上创建了这个test文件,把其复制到little-endian的机器上再用fread读到一个 short里
面,我们得到的就不再是0x3132而是0x3231了,这样读到的数据就是错误的,所以在两个字节顺序不一样的机器上传输数据时需要特别
小心字节顺序,理解了字节顺序在可以帮助我们写出移植行更高的代码.
正因为有字节顺序的差别,所以在网络传输的时候定义了所有字节顺序相关的数据都使用big-endian,BSD的代码中定义了四个宏来处
理:
#define
ntohs(n)
//
网络字节顺序到主机字节顺序 n代表net, h代表host, s代表short
#define htons(n) // 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表short
#define ntohl(n) // 网络字节顺序到主机字节顺序 n代表net, h代表host, s代表 long
#define htonl(n) // 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表 long
#define htons(n) // 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表short
#define ntohl(n) // 网络字节顺序到主机字节顺序 n代表net, h代表host, s代表 long
#define htonl(n) // 主机字节顺序到网络字节顺序 n代表net, h代表host, s代表 long
举例说明下这其中一个宏的实现:
#define
sw16(x) "
(( short )( "
((( short )(x) & ( short ) 0x00ffU ) << 8 ) | "
((( short )(x) & ( short ) 0xff00U ) >> 8 ) ))
(( short )( "
((( short )(x) & ( short ) 0x00ffU ) << 8 ) | "
((( short )(x) & ( short ) 0xff00U ) >> 8 ) ))
这里实现的是一个交换两个字节顺序.其他几个宏类似.
我们改写一下上面的程序
#include
<
stdio.h
>
#include < assert.h >
#define sw16(x) "
(( short )( "
((( short )(x) & ( short ) 0x00ffU ) << 8 ) | "
((( short )(x) & ( short ) 0xff00U ) >> 8 ) ))
// 因为x86下面是低位在前,需要交换一下变成网络字节顺序
#define htons(x) sw16(x)
void main( void )
{
short test;
FILE * fp;
test = htons( 0x3132 ); // (31ASIIC码的’1’,32ASIIC码的’2’)
if ((fp = fopen ( " c: "" test.txt " , " wb " )) == NULL)
assert( 0 );
fwrite( & test, sizeof ( short ), 1 , fp);
fclose(fp);
}
#include < assert.h >
#define sw16(x) "
(( short )( "
((( short )(x) & ( short ) 0x00ffU ) << 8 ) | "
((( short )(x) & ( short ) 0xff00U ) >> 8 ) ))
// 因为x86下面是低位在前,需要交换一下变成网络字节顺序
#define htons(x) sw16(x)
void main( void )
{
short test;
FILE * fp;
test = htons( 0x3132 ); // (31ASIIC码的’1’,32ASIIC码的’2’)
if ((fp = fopen ( " c: "" test.txt " , " wb " )) == NULL)
assert( 0 );
fwrite( & test, sizeof ( short ), 1 , fp);
fclose(fp);
}
如果在高字节在前的机器上,由于与网络字节顺序一致,所以我们什么都不干就可以了,只需要把#define htons(x) sw16(x)宏替
换为 #define htons(x) (x).
一开始我在理解这个问题时,总在想为什么其他数据不用交换字节顺序?比如说我们write一块buffer到文件,最后终于想明白了,
因为都是unsigned char类型一个字节一个字节的写进去,这个顺序是固定的,不存在字节顺序的问题.
【用函数判断系统是Big Endian还是Little Endian】
bool
IsBig_Endian()
// 如果字节序为big-endian,返回true;
// 反之为 little-endian,返回false
{
unsigned short test = 0x1122 ;
if ( * ( (unsigned char * ) & test ) == 0x11 )
return TRUE;
else
return FALSE;
} // IsBig_Endian()
// 如果字节序为big-endian,返回true;
// 反之为 little-endian,返回false
{
unsigned short test = 0x1122 ;
if ( * ( (unsigned char * ) & test ) == 0x11 )
return TRUE;
else
return FALSE;
} // IsBig_Endian()
【打印程序对象的字节表示】
//
可在不同平台与硬件架构的机器中测试运行这段代码,理解大端表示和小端表示的不同.
// 这段代码使用强制类型转换规避类型系统
#incluede < stdio.h >
// 假设每个字节都是非负整数
typedef unsigned char * byte_pointer;
void show_bytes(byte_pointer start, int len)
{
for ( int i = 0 ; i < len; i ++ )
printf( " %.2x " , start[i]);
printf( " \n " );
}
void show_int( int x)
{
show_bytes((byte_pointer) & x, sizeof ( int ));
}
void show_float( float x)
{
show_bytes((byte_pointer) & x, sizeof ( float ));
}
// 在使用相同编码(如ASCII编码)的系统中,字符串字节表示得到的结果一般是相同的.所以文本数据比二进制数据具有更强的平台无关性
void show_string( char * x)
{
show_bytes((byte_pointer) x, strlen(x));
}
void show_pointer( void * x)
{
show_bytes((byte_pointer) & x, sizeof ( void * ));
}
void test_show_bytes( int val)
{
int ival = val;
float fval = ( float )ival;
int * pval = & ival;
show_int(ival); // 各个机器因为大端表示和小端表示的不同,从而只是字节顺序不同
show_float(fval); // 各个机器因为大端表示和小端表示的不同,从而只是字节顺序不同
show_pointer(pval); // 指针值是与机器相关的(linux,sun使用4字节地址, 而alpha使用八字节地址)
}
// 这段代码使用强制类型转换规避类型系统
#incluede < stdio.h >
// 假设每个字节都是非负整数
typedef unsigned char * byte_pointer;
void show_bytes(byte_pointer start, int len)
{
for ( int i = 0 ; i < len; i ++ )
printf( " %.2x " , start[i]);
printf( " \n " );
}
void show_int( int x)
{
show_bytes((byte_pointer) & x, sizeof ( int ));
}
void show_float( float x)
{
show_bytes((byte_pointer) & x, sizeof ( float ));
}
// 在使用相同编码(如ASCII编码)的系统中,字符串字节表示得到的结果一般是相同的.所以文本数据比二进制数据具有更强的平台无关性
void show_string( char * x)
{
show_bytes((byte_pointer) x, strlen(x));
}
void show_pointer( void * x)
{
show_bytes((byte_pointer) & x, sizeof ( void * ));
}
void test_show_bytes( int val)
{
int ival = val;
float fval = ( float )ival;
int * pval = & ival;
show_int(ival); // 各个机器因为大端表示和小端表示的不同,从而只是字节顺序不同
show_float(fval); // 各个机器因为大端表示和小端表示的不同,从而只是字节顺序不同
show_pointer(pval); // 指针值是与机器相关的(linux,sun使用4字节地址, 而alpha使用八字节地址)
}
---------------------------------------------
对于如数值12345在int型和float型时的编码表示