C++代码优化方法

C++代码优化方法

http://www.51cto.com 2005-09-22 17:29 作者:龚敏敏 出处:3322.net
http://www.51cto.com/html/2005/0922/3608.htm
http://www.gewei.cn/test/1/bbs/bbs/s158/9347.htm


在C++层次进行优化,比在汇编层次优化具有更好的移植性,应该是优化中的首选做法。

确定浮点型变量和表达式是 float 型

为了让编译器产生更好的代码(比如说产生3DNow! 或SSE指令的代码),必须确定浮点型变量和表达式是 float 型的。要特别注意的是,以 ";F"; 或 ";f"; 为后缀(比如:3.14f)的浮点常量才是 float 型,否则默认是 double 型。为了避免 float 型参数自动转化为 double,请在函数声明时使用 float。

使用32位的数据类型

编译器有很多种,但它们都包含的典型的32位类型是:(本人对此不敢苟同:在C/C++中,整型的长度跟编译器相关.--roger007)
int,signed,signed int,unsigned,unsigned int,
long,signed long,long int,signed long int,unsigned long,unsigned long int。
尽量使用32位的数据类型,因为它们比16位的数据甚至8位的数据更有效率。

(我觉得应该是在32位的机器上就尽量使用32位的数据类型,不是所有的平台都使用32位类型,这主要是根据运行平台来选择.-----roger007)

 


明智使用有符号整型变量

在很多情况下,你需要考虑整型变量是有符号还是无符号类型的。比如,保存一个人的体重数据时不可能出现负数,所以不需要使用有符号类型。但是,如果是要保存温度数据,就必须使用到有符号的变量。

在许多地方,考虑是否使用有符号的变量是必要的。在一些情况下,有符号的运算比较快;但在一些情况下却相反。比如:整型到浮点转化时,使用大于16位的有符号整型比较快。因为x86构架中提供了从有符号整型转化到浮点型的指令,但没有提供从无符号整型转化到浮点的指令。

在整数运算中计算商和余数时,使用无符号类型比较快。


总结:

无符号类型用于:

除法和余数

循环计数

数组下标

有符号类型用于:

整型到浮点的转化.

 

===========================================================================


while VS. for

在编程中,我们常常需要用到无限循环,常用的两种方法是while (1) 和 for (;;)。这两种方法效果完全一样,但那一种更好呢?然我们看看它们编译后的代码:

编译前:
while (1);

编译后:
mov eax,1

test eax,eax

je foo+23h

jmp foo+18h 


编译前 编译后

for (;;); jmp foo+23h 


for (;;)指令少,不占用寄存器,而且没有判断跳转,比while (1)好。


===========================================================================

使用数组型代替指针型

使用指针会使编译器很难优化它。因为缺乏有效的指针代码优化的方法,编译器总是假设指针可以访问内存的任意地方,包括分配给其他变量的储存空间。所以为了编译器产生优化得更好的代码,要避免在不必要的地方使用指针。一个典型的例子是访问存放在数组中的数据。C++ 允许使用操作符 [] 或指针来访问数组,使用数组型代码会让优化器减少产生不安全代码的可能性。比如,x[0] 和x[2] 不可能是同一个内存地址,但 *p 和 *q 可能。强烈建议使用数组型,因为这样可能会有意料之外的性能提升。

注意: 源代码的转化是与编译器的代码发生器相结合的。从源代码层次很难控制产生的机器码。依靠编译器和特殊的源代码,有可能指针型代码编译成的机器码比同等条件下的数组型代码运行速度更快。明智的做法是在源代码转化后检查性能是否真正提高了,再选择使用指针型还是数组型。


============================================================================

充分分解小的循环

要充分利用CPU的指令缓存,就要充分分解小的循环。特别是当循环体本身很小的时候,分解循环可以提高性能。BTW:很多编译器并不能自动分解循环。


避免没有必要的读写依赖

当数据保存到内存时存在读写依赖,即数据必须在正确写入后才能再次读取。虽然AMD Athlon等CPU有加速读写依赖延迟的硬件,允许在要保存的数据被写入内存前读取出来,但是,如果避免了读写依赖并把数据保存在内部寄存器中,速度会更快。在一段很长的又互相依赖的代码链中,避免读写依赖显得尤其重要。如果读写依赖发生在操作数组时,许多编译器不能自动优化代码以避免读写依赖。所以推荐程序员手动去消除读写依赖,举例来说,引进一个可以保存在寄存器中的临时变量。这样可以有很大的性能提升。


Switch 的用法

Switch 可能转化成多种不同算法的代码。其中最常见的是跳转表和比较链/树。推荐对case的值依照发生的可能性进行排序,把最有可能的放在第一个,当switch用比较链的方式转化时,这样可以提高性能。此外,在case中推荐使用小的连续的整数,因为在这种情况下,所有的编译器都可以把switch 转化成跳转表。


所有函数都应该有原型定义

一般来说,所有函数都应该有原型定义。原型定义可以传达给编译器更多的可能用于优化的信息。


尽可能使用常量(const)

尽可能使用常量(const)。C++ 标准规定,如果一个const声明的对象的地址不被获取,允许编译器不对它分配储存空间。这样可以使代码更有效率,而且可以生成更好的代码。


把本地函数声明为静态的(static)

如果一个函数在实现它的文件外未被使用的话,把它声明为静态的(static)以强制使用内部连接。否则,默认的情况下会把函数定义为外部连接。这样可能会影响某些编译器的优化——比如,自动内联。


===============================================================================

结构体成员的布局 (这个规则同样适用于类的成员的布局。)

很多编译器有“使结构体字,双字或四字对齐”的选项。但是,还是需要改善结构体成员的对齐,有些编译器可能分配给结构体成员空间的顺序与他们声明的不同。但是,有些编译器并不提供这些功能,或者效果不好。所以,要在付出最少代价的情况下实现最好的结构体和结构体成员对齐,建议采取这些方法:

按类型长度排序

把结构体的成员按照它们的类型长度排序,声明成员时把长的类型放在短的前面。把结构体填充成最长类型长度的整倍数。

把结构体填充成最长类型长度的整倍数。照这样,如果结构体的第一个成员对齐了,所有整个结构体自然也就对齐了。

 

按数据类型的长度排序本地变量

当编译器分配给本地变量空间时,它们的顺序和它们在源代码中声明的顺序一样,和上一条规则一样,应该把长的变量放在短的变量前面。如果第一个变量对齐了,其它变量就会连续的存放,而且不用填充字节自然就会对齐。有些编译器在分配变量时不会自动改变变量顺序,有些编译器不能产生4字节对齐的栈,所以4字节可能不对齐。


避免不必要的整数除法

整数除法是整数运算中最慢的,所以应该尽可能避免。一种可能减少整数除法的地方是连除,这里除法可以由乘法代替。这个替换的副作用是有可能在算乘积时会溢出,所以只能在一定范围的除法中使用。


=========================================================================

把频繁使用的指针型参数拷贝到本地变量

避免在函数中频繁使用指针型参数指向的值。因为编译器不知道指针之间是否存在冲突,所以指针型参数往往不能被编译器优化。这样是数据不能被存放在寄存器中,而且明显地占用了内存带宽。注意,很多编译器有“假设不冲突”优化开关(在VC里必须手动添加编译器命令行/Oa或/Ow),这允许编译器假设两个不同的指针总是有不同的内容,这样就不用把指针型参数保存到本地变量。否则,请在函数一开始把指针指向的数据保存到本地变量。如果需要的话,在函数结束前拷贝回去。


========================================================================

尽量在需要使用一个对象时才声明,并用初始化的方法赋初值。


尽量使用成员初始化列表

在初始化类的成员时,尽量使用成员初始化列表而不是传统的赋值方式。
推荐的例子用的是成员初始化列表,少调用一次默认构造函数,还少了一些安全隐患。

 

你可能感兴趣的:(C++,优化,汇编,float,平台,编译器)