本文算是一个比较完整的关于在 C/C++ 中测量一个函数或者功能的总结,最后会演示三种方法的对比。
clock()
最常用的测量方法是使用clock()
来记录两个 CPU 时间点clock_t
,然后做差。这个方法的好处在于非常简单易写,如下(第一行是为说明需要导入哪个库):
#include
.....
clock_t begin = clock();
...需要被测量的代码
clock_t end = clock();
int duration = (end - begin)/CLOCKS_PER_SEC;
需要注意 3 点:
CLOCKS_PER_SEC
在 macOS 上是 1000000,也就是说(end - begin)
的单位是微秒,所以要除以CLOCKS_PER_SEC
。clock_t
类型是不一样的,有些平台是整数型,有些是使用浮点型。如果是浮点型的话,CLOCKS_PER_SEC
或许可以不用写,还是要看time.h
的相关内容。这种方法最大的弊端就是它测量是 CPU 运行时间,准确的说是该进程使用 CPU 的时间。这就导致了对于非 CPU 密集型程序来说,这个结果可能不是那么精确。当然导致的最大的问题是并行计算程序得到的时间完全不对,而且不能简单地使用核心数计算得到正确的时间。
因为这个方法是将多个 CPU 的运行时间加在一起了,串行计算的程序完全没有问题,但是并行计算的话,CPU 使用率一般不会达到或接近核心数*100%
,因为计算机上还有其他任务也需要 CPU。比如说如果串行计算的程序使用率一般在 99% 左右,获取时间为 30 秒,但是对于 6 核的设备上运行的并行计算程序的话,CPU 使用率达到 570% 就很不错了,获取的时间可能为 27 秒,而实际上只用了 5 秒。
这是我在使用 ISPC 编写并行计算程序的时候发现的,所以我想寻找到新的方案,于是我发现了下一个方法。
timespec
timespec
是一个简单的日历时间或者时间流逝。通过使用日历时间可以解决上一节中无法测量并行程序的实际运行时间的问题。但是“简单”这点的表现为整数时间,也就是说最小的时间精度是秒,而不是上一种方法中的微秒,不过这对于复杂函数或程序的测试来说没啥问题,毕竟 30 分钟和 31 分钟的性能差距不过 3.22%。
方法如下(第一行是为说明需要导入哪个库):
#include
time_t begin = time(NULL);
...需要被测量的代码
time_t end = time(NULL);
int duration = (end - begin);
可以看到比上一种还要简单。
但是对于一些小型的测试来说,这个方法又不太行,因为整数带来的误差太大了,比如说 0.6 秒是 1.8 秒性能的三倍,但是在整数上只为 2 倍甚至是 1 倍(为什么有这个“甚至”等会演示可以看到),所以还是需要一个更精确时间测量方法,这个方法不光要适应并行计算,还要有一定的精度。
clock_gettime()
clock_gettime()
可以完美的符合要求,但是使用上有点复杂。
clock_gettime()
是我从文档的下面发现的。一开始我找到的是gettimeofday()
,然后我去看了一下 IEEE 标准的文档 https://pubs.opengroup.org/onlinepubs/9699919799/functions/gettimeofday.html,发现在“FUTURE DIRECTIONS(未来方向)”这一栏表示gettimeofday()
可能未来会被废弃;在“APPLICATION USAGE(应用使用)”这一栏表示应用应该使用clock_gettime()
而不是gettimeofday
。这必须得使用clock_gettime()
了。
clock_gettime()
的复杂之处在于太精确了。先来看看使用方法(第一行是为说明需要导入哪个库):
#include
struct timespec start;
clock_gettime(CLOCK_REALTIME, &start);
...需要被测量的代码
struct timespec end;
clock_gettime(CLOCK_REALTIME, &end);
double duration = (double)(end.tv_nsec-start.tv_nsec)/((double) 1e9) + (double)(end.tv_sec-start.tv_sec);
clock_gettime()
的参数CLOCK_REALTIME
表示系统层面的实时时间;这个地方还可以用CLOCK_MONOTONIC
,这个值是从系统启动开始一直运行的,一直连续的不跳跃的(除非手动改了),这个要比CLOCK_REALTIME
精度小一些,所以更快一些。
可以看到计算运行时间的代码,也就是时间差的表达式长了很多,是因为clock_gettime()
获取的时间分为两部分:秒和纳秒(在某论坛上有人指出在曾经的 Mac OS X 上这里是微秒,不确定,不过现在也是纳秒了)。秒是int
很简单的,但是纳秒用的是long int
,这就涉及到转换的问题了。所以就需要分别计算两个部分,转换合成。
这里展示一段并行计算程序在三种测量时间方法下的对比,各位可以看看差别(可以推测出测试设备是 6C6T 的 CPU 哦):
可以看到有时差别还是挺大的。
21.2 Time Types - GNU
21.4 Processor And CPU Time - GNU
clock_gettime(3) — Linux manual page
What is the proper way to use clock_gettime()? - stack overflow
clock_getres, clock_gettime, clock_settime - clock and timer functions - IEEE
希望能帮到有需要的人~