register
使用修饰符register
声明的变量属于寄存器存储类型。该类型与自动存储类型相似,具有自动存储时期、代码块作用域和内连接。声明为register
仅仅是一个请求,因此该变量仍然可能是普通的自动变量。无论哪种情况,用register
修饰的变量都无法获取地址。如果没有被初始化,它的值是未定的。
#include
int main(int argc, char** argv) {
register int a = 1;
printf("%lld", &a);
return 0;
}
如上代码编译使用GCC
不通过gcc main.c -o main
:
我们换一种方式g++ main.c -o main
:
编译通过且输出了数值,看起来像是内存地址。原来
C++
中寄存器变量在内存中存在副本,这里打印副本的地址。
volatile
volatile
告诉编译器该被变量除了可被程序修改外,还可能被其他代理、线程修改。因此,当使用volatile
声明的变量的值的时候,系统总是重新从它所在的内存读取数据,而不使用寄存器中的缓存的值。
#include
int main(int argc, char** argv) {
volatile int a = 1;
printf("%llu", &a);
return 0;
}
结果输出地址:
volatile
总是与优化有关,编译器有一种技术叫做
数据流分析,分析程序中的变量在哪里赋值、在哪里使用、在哪里失效,分析结果可以用于常量合并,常量传播等优化,进一步可以死代码消除。但有时这些优化不是程序所需要的,这时可以用
volatile
关键字禁止做这些优化,volatile的字面含义是易变,作用在三个方面:
- 不会在两个操作之间把
volatile
变量缓存在寄存器中。在多任务、中断、甚至setjmp
环境下,变量可能被其他的程序改变,编译器自己无法知道,volatile
就是告诉编译器这种情况 - 不做常量合并、常量传播等优化
- 对
volatile
变量的读写不会被优化掉。如果你对一个变量赋值但后面没用到,编译器常常可以省略那个赋值操作,然而对Memory Mapped IO
的处理是不能这样优化
应该使用volatile的地房
- 中断服务程序中修改的供其它程序检测的变量需要加volatile
- 多任务环境下各任务间共享的标志应该加volatile
- 存储器映射的硬件寄存器通常也要加voliate,因为每次对它的读写都可能有不同意义
volatile的配合使用
- 可以和
const
配合使用,例如只读的状态寄存器,它是volatile因为它可能被意想不到地改变,它是const因为程序不应该试图去修改它 - 指针也可以是volatile,当一个服务中子程序修该一个指向一个buffer的指针时
restrict
restrict
是C99
引入的,它只可以用于限定指针,并表明指针是访问一个数据对象的唯一且初始的方式。这个关键字据说来源于古老的FORTRAN
,主要用来修饰指针指向的内存不能被别的指针引用。所有修改该指针所指向内存中内容的操作都必须通过该指针来修改,而不能通过其它途径(其它变量或指针)来修改。这样做的好处是,能帮助编译器进行更好的优化代码,生成更有效率的汇编代码。如 int *restrict ptr, ptr
指向的内存单元只能被ptr
访问到,任何同样指向这个内存单元的其他指针都是未定义的,直白点就是无效指针。restrict
的出现是因为C
语言本身固有的缺陷,C
程序员应当主动地规避这个缺陷,而编译器也会很配合地优化你的代码。如下代码示例:
#include
int main(int argc, char** argv) {
int a[5];
int * restrict ra = (int*) malloc(5 * sizeof(int));
int * pa = a;
for(int n = 0; n < 10; n++) {
pa[n] += 5;
ra[n] += 5;
a[n] *= 2;
pa[n] += 3;
ra[n] += 3;
}
}
分析面的代码,因为ra
是访问分配的内存的唯一且初始的方式,那么编译器可以将上述对ra
的操作进行优化:
ra[n] += 8;
而pa
并不是访问数组a
的唯一方式,因此并不能进行下面的优化:
pa[n] +=8;
因为在pa[n] += 3;
前,a[n]* = 2;
进行了改变。使用了关键字restrict
,编译器就可以放心地进行优化。
内存拷贝函数
C
库中有两个函数可以从一个位置把字节复制到另一个位置。在C99
标准下,它们的原型如下:
void * memcpy(void * restrict s1, const void * restrict s2, size_t n);
void * memove(void * s1, const void * s2, size_t n);
这两个函数均从s2
指向的位置复制n
字节数据到s1
指向的位置,且均返回s1
的值。两者之间的差别由关键字restrict
造成,即memcpy()
可以假定两个内存区域没有重叠,memmove()
函数则不做这个假。因此,复制过程类似于首先将所有字节复制到一个临时缓冲区,然后再复制到最终目的地。如果两个区域存在重叠时使用 memcpy()
会怎样?其行为是不可预知的,既可以正常工作,也可能失败。在不应该使用memcpy()
时,编译器不会禁止使用memcpy()
。因此,使用memcpy()
时,您必须确保没有重叠区域。这是程序员的任务的一部分,验证结果如下代码:
编译优化
硬件优化
内存访问速度远不及CPU
处理速度,为提高机器整体性能,在硬件上引入硬件高速缓存Cache
,加速对内存的访问。另外在现代CPU
中指令的执行并不一定严格按照顺序执行,没有相关性的指令可以乱序执行,以充分利用CPU
的指令流水线,提高执行速度。以上是硬件级别的优化。
软件优化
一种是在编写代码时由程序员优化,另一种是由编译器进行优化。编译器优化常用的方法有:将内存变量缓存到寄存器;调整指令顺序充分利用CPU指令流水线,常见的是重新排序读写指令。对常规内存进行优化的时候,这些优化是透明的,而且效率很好。由编译器优化或者硬件重新排序引起的问题的解决办法是在从硬件(或者其他处理器)的角度看必须以特定顺序执行的操作之间设置内存屏障(memory barrier)
,linux
提供了一个宏解决编译器的执行顺序问题。
void Barrier(void)
这个函数通知编译器插入一个内存屏障,但对硬件无效,编译后的代码会把当前CPU
寄存器中的所有修改过的数值存入内存,需要这些数据的时候再重新从内存中读出。
linux中的编译优化
上面我们已经看了一点编译优化的。我们先看如下的代码:
#include
int thread_func(LPVOID signal) {
int* intSignal = reinterpret_cast(signal);
*intSignal = 2;
while(*intSignal != 1)
return 0;
}
int main(int argc, char** argv) {
thread_func(singal)
return 0;
}
该线程启动时将intSignal
置为2,然后循环等待直到intSignal
为1 时退出。显然intSignal
的值必须在外部被改变,否则该线程不会退出。但是实际运行的时候该线程却不会退出,即使在外部将它的值改为1。这是一个线程优化的例子,下面看一个简单的赋值优化:
#include
int main (void) {
int i = 5;
int a = i; //优化
return 0;
}
int main(int argc, char** argv) {
volatile int i = 5;
int a = i; //优化
return 0;
}
两段代码写在一起,自行分开。现在分别编译他们:
- 有编译的优化,没有volatile关键字
.section __TEXT,__text_startup,regular,pure_instructions
.align 4
.globl _main
_main:
LFB1:
xorl %eax, %eax
ret
LFE1:
.section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
.set L$set$0,LECIE1-LSCIE1
.long L$set$0
LSCIE1:
.long 0
.byte 0x1
.ascii "zR\0"
.byte 0x1
.byte 0x78
.byte 0x10
.byte 0x1
.byte 0x10
.byte 0xc
.byte 0x7
.byte 0x8
.byte 0x90
.byte 0x1
.align 3
LECIE1:
LSFDE1:
.set L$set$1,LEFDE1-LASFDE1
.long L$set$1
LASFDE1:
.long LASFDE1-EH_frame1
.quad LFB1-.
.set L$set$2,LFE1-LFB1
.quad L$set$2
.byte 0
.align 3
LEFDE1:
.subsections_via_symbols
- 无编译优化,有volatile关键字
.section __TEXT,__text_startup,regular,pure_instructions
.align 4
.globl _main
_main:
LFB1:
movl $5, -4(%rsp)
movl -4(%rsp), %eax
xorl %eax, %eax
ret
LFE1:
.section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
.set L$set$0,LECIE1-LSCIE1
.long L$set$0
LSCIE1:
.long 0
.byte 0x1
.ascii "zR\0"
.byte 0x1
.byte 0x78
.byte 0x10
.byte 0x1
.byte 0x10
.byte 0xc
.byte 0x7
.byte 0x8
.byte 0x90
.byte 0x1
.align 3
LECIE1:
LSFDE1:
.set L$set$1,LEFDE1-LASFDE1
.long L$set$1
LASFDE1:
.long LASFDE1-EH_frame1
.quad LFB1-.
.set L$set$2,LFE1-LFB1
.quad L$set$2
.byte 0
.align 3
LEFDE1:
.subsections_via_symbols
观察发现在LFB1
段是不同的,使用volatile
的代码编译未优化,还在访问内存,而优化过的代码,没有访问内存,只有寄存器。
优化的编译参数-O
-O设置一共有五种:-O0、-O1、-O2、-O3和-Os,只能设置一种。除了-O0以外,每一个-O设置都会多启用几个选项,请查阅gcc手册的优化选项章节,以便了解每个-O等级启用了哪些选项及它们有何作
- -O0: 这个等级(字母“O”后面跟个零)关闭所有优化选项,也是
CFLAGS
或CXXFLAGS
中没有设置-O等级时的默认等级。这样就不会优化代码,这通常不是我们想要的 - -O1: 这是最基本的优化等级。编译器会在不花费太多编译时间的同时试图生成更快更小的代码。这些优化是非常基础的,但一般这些任务肯定能顺利完成
- -O2: -O1的进阶。这是推荐的优化等级,除非你有特殊的需求。-O2会比-O1启用多一些标记。设置了-O2后,编译器会试图提高代码性能而不会增大体积和大量占用的编译时间
- -O3: 这是最高最危险的优化等级。用这个选项会延长编译代码的时间,并且在使用gcc4.x的系统里不应全局启用。自从3.x版本以来gcc的行为已经有了极大地改变。在3.x,-O3生成的代码也只是比-O2快一点点而已,而gcc4.x中还未必更快。用-O3来编译所有的软件包将产生更大体积更耗内存的二进制文件,大大增加编译失败的机会或不可预知的程序行为(包括错误)。这样做将得不偿失,记住过犹不及。在gcc 4.x.中使用-O3是不推荐的
- -Os: 这个等级用来优化代码尺寸。其中启用了-O2中不会增加磁盘空间占用的代码生成选项。这对于磁盘空间极其紧张或者CPU缓存较小的机器非常有用。但也可能产生些许问题,因此软件树中的大部分
ebuild
都过滤掉这个等级的优化。使用-Os是不推荐的
下面是一个示例,编译gcc -O0 -S main.c
#include
int main (void) {
int i = 5;
int a = i; //优化
return 0;
}
编译出来结果:
.text
.globl _main
_main:
LFB1:
pushq %rbp
LCFI0:
movq %rsp, %rbp
LCFI1:
movl %edi, -20(%rbp)
movq %rsi, -32(%rbp)
movl $5, -4(%rbp)
movl -4(%rbp), %eax
movl %eax, -8(%rbp)
movl $0, %eax
popq %rbp
LCFI2:
ret
LFE1:
.section __TEXT,__eh_frame,coalesced,no_toc+strip_static_syms+live_support
EH_frame1:
.set L$set$0,LECIE1-LSCIE1
.long L$set$0
LSCIE1:
.long 0
.byte 0x1
.ascii "zR\0"
.byte 0x1
.byte 0x78
.byte 0x10
.byte 0x1
.byte 0x10
.byte 0xc
.byte 0x7
.byte 0x8
.byte 0x90
.byte 0x1
.align 3
LECIE1:
LSFDE1:
.set L$set$1,LEFDE1-LASFDE1
.long L$set$1
LASFDE1:
.long LASFDE1-EH_frame1
.quad LFB1-.
.set L$set$2,LFE1-LFB1
.quad L$set$2
.byte 0
.byte 0x4
.set L$set$3,LCFI0-LFB1
.long L$set$3
.byte 0xe
.byte 0x10
.byte 0x86
.byte 0x2
.byte 0x4
.set L$set$4,LCFI1-LCFI0
.long L$set$4
.byte 0xd
.byte 0x6
.byte 0x4
.set L$set$5,LCFI2-LCFI1
.long L$set$5
.byte 0xc
.byte 0x7
.byte 0x8
.align 3
LEFDE1:
.subsections_via_symbols
观察LCFI1
段,发现仍然在访问内存,不像加了编译优化级别-O2
时只是访问寄存器。这只是编译优化的一个小例子,实际中还有许多其他的可以优化的内容。