register、volatile、restrict与编译优化

register

使用修饰符register声明的变量属于寄存器存储类型。该类型与自动存储类型相似,具有自动存储时期、代码块作用域和内连接。声明为register仅仅是一个请求,因此该变量仍然可能是普通的自动变量。无论哪种情况,用register修饰的变量都无法获取地址。如果没有被初始化,它的值是未定的。

#include 
int main(int argc, char** argv) {
    register int a = 1;
    printf("%lld", &a);
    return 0;
}

如上代码编译使用GCC不通过gcc main.c -o main

register、volatile、restrict与编译优化_第1张图片
image.png

我们换一种方式g++ main.c -o main

register、volatile、restrict与编译优化_第2张图片
image.png

编译通过且输出了数值,看起来像是内存地址。原来 C++中寄存器变量在内存中存在副本,这里打印副本的地址。

volatile

volatile告诉编译器该被变量除了可被程序修改外,还可能被其他代理、线程修改。因此,当使用volatile声明的变量的值的时候,系统总是重新从它所在的内存读取数据,而不使用寄存器中的缓存的值。

#include 
int main(int argc, char** argv) {
    volatile int a = 1;
    printf("%llu", &a);
    return 0;
}

结果输出地址:

image.png

volatile总是与优化有关,编译器有一种技术叫做 数据流分析,分析程序中的变量在哪里赋值、在哪里使用、在哪里失效,分析结果可以用于常量合并,常量传播等优化,进一步可以死代码消除。但有时这些优化不是程序所需要的,这时可以用 volatile关键字禁止做这些优化,volatile的字面含义是易变,作用在三个方面:

  1. 不会在两个操作之间把volatile变量缓存在寄存器中。在多任务、中断、甚至setjmp环境下,变量可能被其他的程序改变,编译器自己无法知道,volatile就是告诉编译器这种情况
  2. 不做常量合并、常量传播等优化
  3. volatile变量的读写不会被优化掉。如果你对一个变量赋值但后面没用到,编译器常常可以省略那个赋值操作,然而对Memory Mapped IO的处理是不能这样优化
应该使用volatile的地房
  1. 中断服务程序中修改的供其它程序检测的变量需要加volatile
  2. 多任务环境下各任务间共享的标志应该加volatile
  3. 存储器映射的硬件寄存器通常也要加voliate,因为每次对它的读写都可能有不同意义
volatile的配合使用
  1. 可以和const配合使用,例如只读的状态寄存器,它是volatile因为它可能被意想不到地改变,它是const因为程序不应该试图去修改它
  2. 指针也可以是volatile,当一个服务中子程序修该一个指向一个buffer的指针时

restrict

restrictC99引入的,它只可以用于限定指针,并表明指针是访问一个数据对象的唯一且初始的方式。这个关键字据说来源于古老的FORTRAN,主要用来修饰指针指向的内存不能被别的指针引用。所有修改该指针所指向内存中内容的操作都必须通过该指针来修改,而不能通过其它途径(其它变量或指针)来修改。这样做的好处是,能帮助编译器进行更好的优化代码,生成更有效率的汇编代码。如 int *restrict ptr, ptr 指向的内存单元只能被ptr访问到,任何同样指向这个内存单元的其他指针都是未定义的,直白点就是无效指针。restrict的出现是因为C语言本身固有的缺陷,C程序员应当主动地规避这个缺陷,而编译器也会很配合地优化你的代码。如下代码示例:

#include 
int main(int argc, char** argv) {
    int a[5];
  int * restrict ra = (int*) malloc(5 * sizeof(int));
  int * pa = a;
    for(int n = 0; n < 10; n++) {
      pa[n] += 5;
      ra[n] += 5;
      a[n] *= 2;
      pa[n] += 3;
      ra[n] += 3;
  }
}

分析面的代码,因为ra是访问分配的内存的唯一且初始的方式,那么编译器可以将上述对ra的操作进行优化:
  ra[n] += 8;
pa并不是访问数组a的唯一方式,因此并不能进行下面的优化:
  pa[n] +=8;
因为在pa[n] += 3;前,a[n]* = 2;进行了改变。使用了关键字restrict,编译器就可以放心地进行优化。

内存拷贝函数

C库中有两个函数可以从一个位置把字节复制到另一个位置。在C99标准下,它们的原型如下:
  void * memcpy(void * restrict s1, const void * restrict s2, size_t n);
  void * memove(void * s1, const void * s2, size_t n);
这两个函数均从s2指向的位置复制n字节数据到s1指向的位置,且均返回s1的值。两者之间的差别由关键字restrict造成,即memcpy()可以假定两个内存区域没有重叠,memmove()函数则不做这个假。因此,复制过程类似于首先将所有字节复制到一个临时缓冲区,然后再复制到最终目的地。如果两个区域存在重叠时使用 memcpy()会怎样?其行为是不可预知的,既可以正常工作,也可能失败。在不应该使用memcpy()时,编译器不会禁止使用memcpy()。因此,使用memcpy()时,您必须确保没有重叠区域。这是程序员的任务的一部分,验证结果如下代码:

编译优化

硬件优化

内存访问速度远不及CPU处理速度,为提高机器整体性能,在硬件上引入硬件高速缓存Cache,加速对内存的访问。另外在现代CPU中指令的执行并不一定严格按照顺序执行,没有相关性的指令可以乱序执行,以充分利用CPU的指令流水线,提高执行速度。以上是硬件级别的优化。

软件优化

一种是在编写代码时由程序员优化,另一种是由编译器进行优化。编译器优化常用的方法有:将内存变量缓存到寄存器;调整指令顺序充分利用CPU指令流水线,常见的是重新排序读写指令。对常规内存进行优化的时候,这些优化是透明的,而且效率很好。由编译器优化或者硬件重新排序引起的问题的解决办法是在从硬件(或者其他处理器)的角度看必须以特定顺序执行的操作之间设置内存屏障(memory barrier)linux提供了一个宏解决编译器的执行顺序问题。
void Barrier(void)
这个函数通知编译器插入一个内存屏障,但对硬件无效,编译后的代码会把当前CPU寄存器中的所有修改过的数值存入内存,需要这些数据的时候再重新从内存中读出。

linux中的编译优化

上面我们已经看了一点编译优化的。我们先看如下的代码:

#include 

int thread_func(LPVOID signal) {
    int* intSignal = reinterpret_cast(signal); 
    *intSignal = 2; 
    while(*intSignal != 1) 
        return 0; 
}

int main(int argc, char** argv) {
    thread_func(singal)
    return 0;
}

该线程启动时将intSignal置为2,然后循环等待直到intSignal为1 时退出。显然intSignal的值必须在外部被改变,否则该线程不会退出。但是实际运行的时候该线程却不会退出,即使在外部将它的值改为1。这是一个线程优化的例子,下面看一个简单的赋值优化:

#include 
int main (void) {
    int i = 5;
    int a = i; //优化
    return 0;
}
int main(int argc, char** argv) {
    volatile int i = 5;
    int a = i; //优化
    return 0;
}

两段代码写在一起,自行分开。现在分别编译他们:

  • 有编译的优化,没有volatile关键字
    .section __TEXT,__text_startup,regular,pure_instructions
    .align 4
    .globl _main
_main:
LFB1:
    xorl    %eax, %eax
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .align 3
LEFDE1:
    .subsections_via_symbols
  • 无编译优化,有volatile关键字
    .section __TEXT,__text_startup,regular,pure_instructions
    .align 4
    .globl _main
_main:
LFB1:
    movl    $5, -4(%rsp)
    movl    -4(%rsp), %eax
    xorl    %eax, %eax
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .align 3
LEFDE1:
    .subsections_via_symbols

观察发现在LFB1段是不同的,使用volatile的代码编译未优化,还在访问内存,而优化过的代码,没有访问内存,只有寄存器。

优化的编译参数-O

-O设置一共有五种:-O0、-O1、-O2、-O3和-Os,只能设置一种。除了-O0以外,每一个-O设置都会多启用几个选项,请查阅gcc手册的优化选项章节,以便了解每个-O等级启用了哪些选项及它们有何作

  • -O0: 这个等级(字母“O”后面跟个零)关闭所有优化选项,也是CFLAGSCXXFLAGS中没有设置-O等级时的默认等级。这样就不会优化代码,这通常不是我们想要的
  • -O1: 这是最基本的优化等级。编译器会在不花费太多编译时间的同时试图生成更快更小的代码。这些优化是非常基础的,但一般这些任务肯定能顺利完成
  • -O2: -O1的进阶。这是推荐的优化等级,除非你有特殊的需求。-O2会比-O1启用多一些标记。设置了-O2后,编译器会试图提高代码性能而不会增大体积和大量占用的编译时间
  • -O3: 这是最高最危险的优化等级。用这个选项会延长编译代码的时间,并且在使用gcc4.x的系统里不应全局启用。自从3.x版本以来gcc的行为已经有了极大地改变。在3.x,-O3生成的代码也只是比-O2快一点点而已,而gcc4.x中还未必更快。用-O3来编译所有的软件包将产生更大体积更耗内存的二进制文件,大大增加编译失败的机会或不可预知的程序行为(包括错误)。这样做将得不偿失,记住过犹不及。在gcc 4.x.中使用-O3是不推荐的
  • -Os: 这个等级用来优化代码尺寸。其中启用了-O2中不会增加磁盘空间占用的代码生成选项。这对于磁盘空间极其紧张或者CPU缓存较小的机器非常有用。但也可能产生些许问题,因此软件树中的大部分ebuild都过滤掉这个等级的优化。使用-Os是不推荐的

下面是一个示例,编译gcc -O0 -S main.c

#include 
int main (void) {
    int i = 5;
    int a = i; //优化
    return 0;
}

编译出来结果:

    .text
    .globl _main
_main:
LFB1:
    pushq   %rbp
LCFI0:
    movq    %rsp, %rbp
LCFI1:
    movl    %edi, -20(%rbp)
    movq    %rsi, -32(%rbp)
    movl    $5, -4(%rbp)
    movl    -4(%rbp), %eax
    movl    %eax, -8(%rbp)
    movl    $0, %eax
    popq    %rbp
LCFI2:
    ret
LFE1:
    .section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
    .set L$set$0,LECIE1-LSCIE1
    .long L$set$0
LSCIE1:
    .long   0
    .byte   0x1
    .ascii "zR\0"
    .byte   0x1
    .byte   0x78
    .byte   0x10
    .byte   0x1
    .byte   0x10
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .byte   0x90
    .byte   0x1
    .align 3
LECIE1:
LSFDE1:
    .set L$set$1,LEFDE1-LASFDE1
    .long L$set$1
LASFDE1:
    .long   LASFDE1-EH_frame1
    .quad   LFB1-.
    .set L$set$2,LFE1-LFB1
    .quad L$set$2
    .byte   0
    .byte   0x4
    .set L$set$3,LCFI0-LFB1
    .long L$set$3
    .byte   0xe
    .byte   0x10
    .byte   0x86
    .byte   0x2
    .byte   0x4
    .set L$set$4,LCFI1-LCFI0
    .long L$set$4
    .byte   0xd
    .byte   0x6
    .byte   0x4
    .set L$set$5,LCFI2-LCFI1
    .long L$set$5
    .byte   0xc
    .byte   0x7
    .byte   0x8
    .align 3
LEFDE1:
    .subsections_via_symbols

观察LCFI1段,发现仍然在访问内存,不像加了编译优化级别-O2时只是访问寄存器。这只是编译优化的一个小例子,实际中还有许多其他的可以优化的内容。

你可能感兴趣的:(register、volatile、restrict与编译优化)