程序性能优化,关键是要对循环进行优化。
1. 消除循环的低效率
如:
for (i = O ; i < vec_length (v); i++)
可改为:
long length = vec_length (v) ;
for (i = O ; i < length ; i++)
这样就不会每次循环时都调用vec_length函数,每次函数调用的开销很大。
2. 减少过程调用
如:
for (i = O ; i < length ; i++) {
data_t val ;
get_vec_element (v , i , &val) ;
*dest = *dest OP val ;
}
可改为:
data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
}
这样每个循环中通过数组来引用具体数据,而不是在循环中进行函数调用。
3. 消除不必要的内存引用
如:
data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
}
可改为:
data_t *data = get_vec_start (v) ;
data_t acc = IDENT ;
for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
}
*dest = acc ;
这样在循环中直接引用变量,该变量会存放在寄存器中,能够快速访问,最后循环结束再将结果写回内存,从而减少了内存访问。
4. 提高并行性
如:
for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
}
可改为:
data_t accO = !DENT;
data_t acc1 = !DENT;
I* Combine 2 elements at a time *I
for (i = O; i < limit; i+=2) {
accO = accO OP data[i];
acc1 = acc1 OP data[i+1];
}
I* Finish any remaining elements *I
for (; i < length; i++) {
accO = accO OP data[i];
}
*dest = accO OP accl;
首先, 它减少了不直接有助于程序结果的操作的数量, 例如循环索引计算和条件分支。 第二,它可以充分利用CPU的多个功能单元以及它们的流水线能力,在一个循环体中同时并行执行多个操作,提高并行计算能力。
5. 书写适合用条件传送实现的代码
如:
fo r ( i = O; i < n; i++) {
if (a[i] > b[i] ) {
long t = a[i];
a[i] = b[i];
b[i] = t;
}
}
可改为:
for ( i = O; ]. < n; i++) {
long min = a[i] < b[i] ? a[i] : b[i]
long max = a[i] < b[i] ? b[i] : a[i]
a[i] = min;
b[i] = max;
}
当执行条件传送指令时 , 根据条件码和传送条件来计算决定是否更新目标寄存器。这样不会像分支代码那样需要进行分支预测,从而可能导致破坏流水线。
6. 编写局部性好的程序
局部性包含时间局部性和空间局部性。
时间局部性:当前访问过的指令在不久的将来会再多次被访问
空间局部性:如果一 个内存位置被引用了一次, 那么程序很可能在不远的将来引用附近的一 个内存位置
如:
for (i = 0; i < N; i++)
sum+= v[i];
for (j = 0; j < N; j ++)
for (i = 0; i < M ; i++)
sum += a[i][j ] ;
这两段代码都具有很好的时间和空间局部性,循环体中的指令会多次被访问,数组中的数据是按顺序访问。这样加载在cache中的数据会被重复使用,不用再反复访问内存,从而提高程序执行效率。
再如:
for (k = O ; k < n ; k++)
for ( i = O ; i < n ; i++) {
r = A [i] [k] ;
for (j = O ; j < n ; j ++)
C [i] [j ] += r*B [k] [j ] ;
}
这是一个2x2的矩阵运算,这里最内层循环按顺序依次数组无素,利用空间局部性保证cache的命中,而对A[i][k],先将他放到一个变量中,这个变量会保存在寄存器中,这样最内层循环就不用每次访问内存,也就不会有cache不命中的问题。
利用局部性的几个建议: