register、volatile、restrict与编译优化

register

使用修饰符register声明的变量属于寄存器存储类型。该类型与自动存储类型相似，具有自动存储时期、代码块作用域和内连接。声明为register仅仅是一个请求，因此该变量仍然可能是普通的自动变量。无论哪种情况，用register修饰的变量都无法获取地址。如果没有被初始化，它的值是未定的。

#include 
int main(int argc, char** argv) {
    register int a = 1;
    printf("%lld", &a);
    return 0;
}

如上代码编译使用GCC不通过gcc main.c -o main：

image.png

我们换一种方式g++ main.c -o main：

image.png

编译通过且输出了数值，看起来像是内存地址。原来 C++中寄存器变量在内存中存在副本，这里打印副本的地址。

volatile

volatile告诉编译器该被变量除了可被程序修改外，还可能被其他代理、线程修改。因此，当使用volatile声明的变量的值的时候，系统总是重新从它所在的内存读取数据，而不使用寄存器中的缓存的值。

#include 
int main(int argc, char** argv) {
    volatile int a = 1;
    printf("%llu", &a);
    return 0;
}

结果输出地址：

image.png

volatile总是与优化有关，编译器有一种技术叫做 数据流分析，分析程序中的变量在哪里赋值、在哪里使用、在哪里失效，分析结果可以用于常量合并，常量传播等优化，进一步可以死代码消除。但有时这些优化不是程序所需要的，这时可以用 volatile关键字禁止做这些优化，volatile的字面含义是易变，作用在三个方面：

不会在两个操作之间把volatile变量缓存在寄存器中。在多任务、中断、甚至setjmp环境下，变量可能被其他的程序改变，编译器自己无法知道，volatile就是告诉编译器这种情况
不做常量合并、常量传播等优化
对volatile变量的读写不会被优化掉。如果你对一个变量赋值但后面没用到，编译器常常可以省略那个赋值操作，然而对Memory Mapped IO的处理是不能这样优化

应该使用volatile的地房

中断服务程序中修改的供其它程序检测的变量需要加volatile
多任务环境下各任务间共享的标志应该加volatile
存储器映射的硬件寄存器通常也要加voliate，因为每次对它的读写都可能有不同意义

volatile的配合使用

可以和const配合使用，例如只读的状态寄存器，它是volatile因为它可能被意想不到地改变，它是const因为程序不应该试图去修改它
指针也可以是volatile，当一个服务中子程序修该一个指向一个buffer的指针时

restrict

restrict是C99引入的，它只可以用于限定指针，并表明指针是访问一个数据对象的唯一且初始的方式。这个关键字据说来源于古老的FORTRAN，主要用来修饰指针指向的内存不能被别的指针引用。所有修改该指针所指向内存中内容的操作都必须通过该指针来修改,而不能通过其它途径(其它变量或指针)来修改。这样做的好处是，能帮助编译器进行更好的优化代码,生成更有效率的汇编代码。如 int *restrict ptr, ptr 指向的内存单元只能被ptr访问到，任何同样指向这个内存单元的其他指针都是未定义的，直白点就是无效指针。restrict的出现是因为C语言本身固有的缺陷，C程序员应当主动地规避这个缺陷，而编译器也会很配合地优化你的代码。如下代码示例：

#include 
int main(int argc, char** argv) {
    int a[5];
　　int * restrict ra = (int*) malloc(5 * sizeof(int));
　　int * pa = a;
    for(int n = 0; n < 10; n++) {
　　    pa[n] += 5;
　　    ra[n] += 5;
　　    a[n] *= 2;
　　    pa[n] += 3;
　　    ra[n] += 3;
　　}
}

分析面的代码，因为ra是访问分配的内存的唯一且初始的方式，那么编译器可以将上述对ra的操作进行优化：
　　ra[n] += 8;
而pa并不是访问数组a的唯一方式，因此并不能进行下面的优化：
　　pa[n] +=8;
因为在pa[n] += 3;前，a[n]* = 2;进行了改变。使用了关键字restrict，编译器就可以放心地进行优化。

内存拷贝函数

C库中有两个函数可以从一个位置把字节复制到另一个位置。在C99标准下，它们的原型如下：
　　void * memcpy（void * restrict s1, const void * restrict s2, size_t n);
　　void * memove(void * s1, const void * s2, size_t n);
这两个函数均从s2指向的位置复制n字节数据到s1指向的位置，且均返回s1的值。两者之间的差别由关键字restrict造成，即memcpy()可以假定两个内存区域没有重叠，memmove()函数则不做这个假。因此，复制过程类似于首先将所有字节复制到一个临时缓冲区，然后再复制到最终目的地。如果两个区域存在重叠时使用 memcpy()会怎样？其行为是不可预知的，既可以正常工作，也可能失败。在不应该使用memcpy()时，编译器不会禁止使用memcpy()。因此，使用memcpy()时，您必须确保没有重叠区域。这是程序员的任务的一部分，验证结果如下代码：

编译优化

硬件优化

内存访问速度远不及CPU处理速度，为提高机器整体性能，在硬件上引入硬件高速缓存Cache，加速对内存的访问。另外在现代CPU中指令的执行并不一定严格按照顺序执行，没有相关性的指令可以乱序执行，以充分利用CPU的指令流水线，提高执行速度。以上是硬件级别的优化。

软件优化

一种是在编写代码时由程序员优化，另一种是由编译器进行优化。编译器优化常用的方法有：将内存变量缓存到寄存器；调整指令顺序充分利用CPU指令流水线，常见的是重新排序读写指令。对常规内存进行优化的时候，这些优化是透明的，而且效率很好。由编译器优化或者硬件重新排序引起的问题的解决办法是在从硬件（或者其他处理器）的角度看必须以特定顺序执行的操作之间设置内存屏障（memory barrier），linux提供了一个宏解决编译器的执行顺序问题。
void Barrier(void)
这个函数通知编译器插入一个内存屏障，但对硬件无效，编译后的代码会把当前CPU寄存器中的所有修改过的数值存入内存，需要这些数据的时候再重新从内存中读出。

linux中的编译优化

上面我们已经看了一点编译优化的。我们先看如下的代码：

#include 

int thread_func(LPVOID signal) {
    int* intSignal = reinterpret_cast(signal); 
    *intSignal = 2; 
    while(*intSignal != 1) 
        return 0; 
}

int main(int argc, char** argv) {
    thread_func(singal)
    return 0;
}

该线程启动时将intSignal置为2，然后循环等待直到intSignal为1 时退出。显然intSignal的值必须在外部被改变，否则该线程不会退出。但是实际运行的时候该线程却不会退出，即使在外部将它的值改为1。这是一个线程优化的例子，下面看一个简单的赋值优化：

#include 
int main (void) {
    int i = 5;
    int a = i; //优化
    return 0;
}
int main(int argc, char** argv) {
    volatile int i = 5;
    int a = i; //优化
    return 0;
}

两段代码写在一起，自行分开。现在分别编译他们：

有编译的优化，没有volatile关键字

    .section __TEXT,__text_startup,regular,pure_instructions
    .align 4
    .globl _main
_main:
LFB1:
    xorl    %eax, %eax
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .align 3
LEFDE1:
    .subsections_via_symbols

无编译优化，有volatile关键字

    .section __TEXT,__text_startup,regular,pure_instructions
    .align 4
    .globl _main
_main:
LFB1:
    movl    $5, -4(%rsp)
    movl    -4(%rsp), %eax
    xorl    %eax, %eax
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .align 3
LEFDE1:
    .subsections_via_symbols

观察发现在LFB1段是不同的，使用volatile的代码编译未优化，还在访问内存，而优化过的代码，没有访问内存，只有寄存器。

优化的编译参数`-O`

-O设置一共有五种：-O0、-O1、-O2、-O3和-Os，只能设置一种。除了-O0以外，每一个-O设置都会多启用几个选项，请查阅gcc手册的优化选项章节，以便了解每个-O等级启用了哪些选项及它们有何作

-O0: 这个等级（字母“O”后面跟个零）关闭所有优化选项，也是CFLAGS或CXXFLAGS中没有设置-O等级时的默认等级。这样就不会优化代码，这通常不是我们想要的
-O1: 这是最基本的优化等级。编译器会在不花费太多编译时间的同时试图生成更快更小的代码。这些优化是非常基础的，但一般这些任务肯定能顺利完成
-O2: -O1的进阶。这是推荐的优化等级，除非你有特殊的需求。-O2会比-O1启用多一些标记。设置了-O2后，编译器会试图提高代码性能而不会增大体积和大量占用的编译时间
-O3: 这是最高最危险的优化等级。用这个选项会延长编译代码的时间，并且在使用gcc4.x的系统里不应全局启用。自从3.x版本以来gcc的行为已经有了极大地改变。在3.x，-O3生成的代码也只是比-O2快一点点而已，而gcc4.x中还未必更快。用-O3来编译所有的软件包将产生更大体积更耗内存的二进制文件，大大增加编译失败的机会或不可预知的程序行为（包括错误）。这样做将得不偿失，记住过犹不及。在gcc 4.x.中使用-O3是不推荐的
-Os: 这个等级用来优化代码尺寸。其中启用了-O2中不会增加磁盘空间占用的代码生成选项。这对于磁盘空间极其紧张或者CPU缓存较小的机器非常有用。但也可能产生些许问题，因此软件树中的大部分ebuild都过滤掉这个等级的优化。使用-Os是不推荐的

下面是一个示例，编译gcc -O0 -S main.c

#include 
int main (void) {
    int i = 5;
    int a = i; //优化
    return 0;
}

编译出来结果：

    .text
    .globl _main
_main:
LFB1:
    pushq   %rbp
LCFI0:
    movq    %rsp, %rbp
LCFI1:
    movl    %edi, -20(%rbp)
    movq    %rsi, -32(%rbp)
    movl    $5, -4(%rbp)
    movl    -4(%rbp), %eax
    movl    %eax, -8(%rbp)
    movl    $0, %eax
    popq    %rbp
LCFI2:
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .byte   0x4
    .set L$set$3,LCFI0-LFB1
    .long L$set$3
    .byte   0xe
    .byte   0x10
    .byte   0x86
    .byte   0x2
    .byte   0x4
    .set L$set$4,LCFI1-LCFI0
    .long L$set$4
    .byte   0xd
    .byte   0x6
    .byte   0x4
    .set L$set$5,LCFI2-LCFI1
    .long L$set$5
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .align 3
LEFDE1:
    .subsections_via_symbols

观察LCFI1段，发现仍然在访问内存，不像加了编译优化级别-O2时只是访问寄存器。这只是编译优化的一个小例子，实际中还有许多其他的可以优化的内容。

register、volatile、restrict与编译优化

register

volatile

应该使用volatile的地房

volatile的配合使用

restrict

内存拷贝函数

编译优化

硬件优化

软件优化

linux中的编译优化

优化的编译参数-O

你可能感兴趣的:(register、volatile、restrict与编译优化)

优化的编译参数`-O`