通常我们需要对程序运行的准确时间进行测量,但多线程,多核环境下,这变得很困难,我们有没有一种比较通用简单的方法来做到这一点呢?这些方法都存在哪些问题,如何改进可以抵消这些误差呢?
本文将介绍这里的来龙去脉,还是从一段小程序开始。
#include <stdlib.h>
#include <stdio.h>
#if defined(__i386__)
static __inline__ unsigned long long rdtsc(void)
{
unsigned long long int x;
__asm__ volatile (".byte 0x0f, 0x31" : "=A" (x)); //.byte 0x0f,0x31等价于rdtsc,是另一种原始取机器码的方式
return x; //改成__asm__ volatile ("rdtsc" : "=A" (x)); 效果一样
} //关于操作码可以参考文献[2]
#elif defined(__x86_64__)
static __inline__ unsigned long long rdtsc(void)
{
unsigned hi, lo;
__asm__ __volatile__ ("rdtsc" : "=a"(lo), "=d"(hi));
return ( (unsigned long long)lo)|( ((unsigned long long)hi)<<32 );
}
#endif
int main(void)
{
register int start = 0;
register int end = 0;
const int MAX_COUNT = 10000000;
volatile int sum = 0;
const float CPU_MHZ = 3000.164; //use cat /proc/cpuinfo get the value
const float CPU_tick_count_per_second = CPU_MHZ*1000*1000;
start = rdtsc();
for(int i = 0 ; i< MAX_COUNT ; ++i)
{
sum+=1;
}
end = rdtsc();
printf("sum:%d,run tick count:%d,run time:%f/n",sum,end - start,(end -start)/CPU_tick_count_per_second);
return 0;
}
编译方法:
编译为32位程序:g++ test.cpp -o test_m32 -m32
编译完后可以用file test_m32进行确认。
编译为64位程序:g++ test.cpp -o test
编译完后可以用file test进行确认。
注:我的试验机为64位,如果是32位的话,直接使用g++ test.cpp -o test编译出32位程序
执行方法:
time ./test
time ./test_m32
结果大家应该可以看到,希望大家都能在自己的机器上完成这个实验。
相关解释,预计下周一发博客进行解释,有兴趣的朋友可以先看下列推荐读物。
系列博客后续预告
(1)利用编译宏展开进行循环展开的巧计 预计10月28日
(2)non-tempal技术改写memcpy [需要使用到汇编] 预计11月4日
(3)spinlock的实现 [需要使用到汇编] 预计11月11日
(4) 内存锁定 待定
(5)内存对换 待定
推荐阅读:
1)Using the RDTSC Instruction for Performance Monitoring
2)http://ref.x86asm.net/geek.html#x0F00