大小端问题

什么是大小端?

大端模式,是指数据的高字节保存在内存的低地址中,而数据的低字节保存在内存的高地址中,这样的存储模式有点儿类似于把数据当作字符串顺序处理:地址由小向大增加,而数据从高位往低位放;这和我们的阅读习惯一致。

小端模式,是指数据的高字节保存在内存的高地址中,而数据的低字节保存在内存的低地址中,这种存储模式将地址的高低和数据位权有效地结合起来,高地址部分权值高,低地址部分权值低。

要注意一点,也就是,这里的高字节和低字节与高地址和低地址是两个截然不同的概念。习惯上,将一个数字按位写到纸上时,我们会从左至右,从高位到低位一位一位地写,这是一种具体的行为。在谈到一个多字节整型数据的高低字节时,我们并没有考虑它如何进行存储,而是按照人类的习惯,将权值高的字节称作高字节,权值地的称作低字节。

大小端模式的判断

Linux 源码中判断大小端模式的方法

static union {
    int i;
    char c[4];
} endian_test = {{'l', '?', '?', 'b'}};

#define ENDIANNESS ((char)endian_test.i)

理解上面的代码的关键是,

int -> char 的转换要截断到int的最后一个字节(只保留低8位)。
字符串不用考虑大小端模式的问题,从左至右内存地址依次增高

+---+---+---+---+
| l | ? | ? | b +
+---+---+---+---+
  • 如果是小端模式,那么低字节保留在低地址,而这里如果按char来寻址,低地址也即是最左边的那个字节,其中存储了'l'

  • 如果是大端模式,那么低字节保留在高地址,而这里如果按char来寻址,高地址也即是最右边的那个字节,其中存储了'b'

什么时候需要判断大小端模式?
一般情况下,只有需要跟硬件直接打交道的地方才需要自己去判断大小端,其余的地方编译器和操作系统会帮你搞定,比如对多字节数据类型进行按位运算。另外,网络传输数据的时候是按照字节传输的,这时候就需要考虑字节序。

一个简单的例子

#include 
#include 

static union {
    int i;
    char c[4];
} endian_test = {{'l', '?', '?', 'b'}};

#define ENDIANNESS ((char)endian_test.i)


void printbyte(char byte)
{
    for (int i = 0; i < 8; ++i)
        putchar('0' + ((byte >> (7 - i)) & 0x1));
}

// 从高字节到低字节,高位到低位
void print_int4b(int x)
{
    const char *s = (char *)&x;
    if (ENDIANNESS == 'l') {
        for (int i = 3; i >= 0; --i)
            printbyte(s[i]);
    }
    else if (ENDIANNESS == 'b') {
        for (int i = 0; i <= 3; ++i)
            printbyte(s[i]);
    }
    else {
        fprintf(stderr, "%s\n", "unknown endianness");
        exit(1);
    }
    putchar('\n');
}

void print_int32(int x)
{
    for (int i = 0; i < 32; ++i)
        putchar('0' + ((x >> (31 - i)) & 0x1));
    putchar('\n');
}


int main()
{
    int i = 100;
    print_int4b(i);
    print_int32(i);

    return 0;
}

你可能感兴趣的:(大小端问题)