一、软件效率
软件性能剖析工具分析每个函数(有的工具能分析到每个循环)的执行时间。性能剖析软件:IBM(Rational Quantify)、Intel(VTune)、AMD(CodeAnalyst),DSP集成环境自带。
二、减少指令数
1. 使用更快的算法
快排,FFT算法
2. 选用合适的指令
3. 降低数据精度
4. 减少函数调用
a. 将小函数直接写成语句;
b. 将小函数写成宏;
c. 将函数声明为内联函数;
5. 空间交换时间
将中间结果保存(Google等搜索引擎算法)
6. 减少过保护
性能实在吃紧时,可以去掉冗余功能(函数参数检查、异常检测)
三、减少处理器不擅长的操作
1. 少用乘法(移位)
2. 少用除法、求余(转为乘法)
3. 在精度允许的条件下,将浮点数定点化
4. 尽量减少分支(跳转语句会打乱流水线正常执行,影响效率)
5. 将最有可能进入的分支放在if中,而不是else中(对应于CPU的分支预测单元 -- 静态预测器)
四、优化内存访问
1. 少使用数组,少使用指针(大块数据会被放在存储器中,简单局部变量才会放在寄存器中。)
2. 少使用全局变量(全局变量因为要被多个模块使用,不会放在寄存器中。)
3. 一次多访问一些数据
4. 数据对齐访问(对于n字节的变量,它的起始地址应该为n的整数倍)
5. 大数据结构时的Cacheline对齐
Intel处理器的Cache Line大多为64 byte,在对大数据结构分配内存时,起始地址最好为64 byte的整数倍,这样Cache Miss的次数最少。
6. 程序、数据访问符合Cache的时间、空间局部性
将在一起使用的的数据放在一起能减少Cache Miss,经常执行的代码放在一起也能减少Cache Miss。
7. 多线程编程时,避免False Sharing(假共享)
False Sharing:线程间从算法上并不需要共享变量,但实际执行时,它们所用的数据处于同一个Cache Line中,就会引起Cache冲突。
多线程编程不可避免的要遇到数据共享,编程时应该注意:尽量少共享数据,尽量少修改数据,尽量少频繁地修改数据。
8. 自己管理内存的动态分配(频繁的动态分配和释放内存所带来的危害,链表的例子(free list 结构))
9. 隐藏数据搬移时间(如果处理器支持可寻址的SRAM,用DMA将SRAM中数据搬移到处理器。Cache预取机制)
五、充分利用编译期进行优化
1. 编译器的结构(编译原理与编译器构造,前端与后端)
2. 编译器提供的优化选项(根据具体情况适度优化,优化会增加程序空间)
3. 编译器能计算常量
4. 简单的表达式化简(消除重复的计算)
5. 提取公共代码(把两个分支中的公共代码提到外面)
6. 循环展开、软件流水(在循环代码前通过预编译指令告诉编译器一些信息)
7. 自动向量化(优化为SIMD指令,也需要预编译指令)
8. 高效的数据组织(为程序中对变量、函数分配合适的存储空间,减少Cache miss)
9. 指令并行化
通过分析指令的相关性,实现乱序调度,将指令并行化。为了更好地并行化,编写高级代码时要减少数据依赖。
10. 编译器更懂处理器
六、 利用多核来加速程序
1. 并行计算
分工(任务划分:各个核执行的代码一样。数据划分:代码一样,处理的数据不同。数据流划分:流水线思想。
Amdahl’s Law(阿姆达尔定律) 并行的效率:可并行部分占总过程的比例;并行的程度。
2. 多线程编程
注意:线程间的同步、负载均衡、可扩展性。
3. OpenMP(并行编程架构,专为共享内存系统而设计,适用于多核处理器)