Stack overflow地址:Linux C++: how to profile time wasted due to cache misses? - Stack Overflow
翻译:
我知道可以使用gprof来测试衡量我的代码。
然而,我有一个问题--我有一个智能指针,它有间接的额外东西(可以认为这是一个代理对象)。
结果,我有一个额外的层影响了很多函数,并且带有一些缓存。
这里有没有一种方法来测试我的CPU浪费在由于缓存没有命令的时间?
谢谢!
Answers1:
你可以使用 cachegrind,它是 kcachegrind的前端界面。
Answer2:
你可以找一个访问并统计CPU计数的工具。在每个核心上都有一个寄存器,L1、L2等等。Cachegrind是一个可选择的循环执行的仿真器。
然而,我不认为这是有见解行的。你的代理对象可能被它自己的方法修改了。一个正常的性能分析器会告诉你这个方法使用了多少时间。没有性能分析器会告诉你如何执行和提升在没有缓存源代码的情况下。这是一个减少程序工作集的大小和结构的问题,这是不容易推断的。
一个快速的google搜索找到了你可能感兴趣的 boost::intrusive_ptr。它似乎不支持 weak_ptr,但是这个转换对于你的程序可能是不重要的,然后你就可以确定的知道非侵入式的引用耗费了多少时间。
Answers3:
Linux从2.6.31起就支持perf了。它允许你做下面这些事情:
1.使用-g参数编译你的代码,会有debug信息;
2.运行你的代码,使用最后一级的缓存缺失计数器:perf record -e LLC-loads,LLC-load-misses yourExecutable
3.运行 perf report
3.1 在确认了初始化的信息后,找到 LLC-load-misses行;
3.2 然后是第一个函数
3.3 然后 annotate,你应该看这些行(被原始代码包围的汇编代码),对于那些缓存丢失发生的行中,一个数字将会被指出最后一级缓存丢失的比例。
Answers4:
这取决于你用的什么系统和CPU。例如:对于苹果系统x86或者ppc,Shark将会分析缓存丢失。在Linux上有 Zoom的 Ditto。
Answers5:
如果你在AMD的处理器上运行,你可以使用 CodeAnalyst,这显然是免费的。
Answers6:
首先,获取一个基本的性能分析时间,使用你喜欢的工具:VTune或者PTU或者OProf。
然后,获取缓存未命中时间,L1缓存未命中或者L2缓存未命中。
第一个性能分析时间将“花费的时间”和每个程序计数器相关联。第二个将“缓存未命中次数”和每个程序计数器相关联。
小提示:我经常“减少”数据,总结它们通过其功能,或者(如果我有技术)按循环进行处理总结。或者通过64bytes进行分类。分开比较单个程序计数器通常是没有用的,因为性能计数器是模糊的-你看到的缓存未命中的地方通常有多条不同的指令发生。
好,现在开始一个新的段落来比较两个性能分析。这里有一些我认为有用的段落内容:
"Iceberg" charts: X axis is PC, positive Y axis is time, negative Y access is cache misses. 找到这个地方然后上下进行寻找。
XY图表:对于每一个采样箱(PC或者函数或者循环等等)绘制一个点,它的X轴坐标是标准的时间,它的Y轴坐标是标准化的缓存未命中。如果你在右上角得到了很多数据点-大于%age时间并且大于%age的缓存未命中-这是有趣的证据。或者,忘记这些点数-如果上面所有百分比总和很大...
不幸的是,你必须回滚这些分析。上次我检查 VTune没有为你做这些。我通常使用 gnuplot和 Excel(警告:Excel在大于64000个数据点是会崩溃)。
更多的建议:
如果你得智能指针是内联的,你会得到计数在所有的地方。在理想的世界中,你可以在PC上跟踪到原始代码行。在这种情况下,你可能想要稍微延迟一下:查看所有的个人电脑;映射它们到源码行,然后映射到原始函数中。许多编译期,就像GCC有很多符号表让你可以这么做:
顺便说一句,我怀疑你的问题不是因为智能指针导致的缓存抖动。除非你在任何地方都使用 smart_ptr
巧合的是,我在午餐的时候和一个年轻人谈话,他们有一个引用计数的智能指针,它使用了一个句柄,间接的级别,像这样:
template class refcntptr {
refcnt_handle handle;
public:
refcntptr(T*obj) {
this->handle = new refcnt_handle();
this->handle->ptr = obj;
this->handle->count = 1;
}
};
template class refcnt_handle {
T* ptr;
int count;
friend refcnt_ptr;
};
(我不会用这种编码方式,它只用于说明)
这里的两个间接 this->handle->ptr可能是一个很大的性能问题。甚至是三个间接 this->handle->ptr->field。至少,在一台 5次周期 L1缓存的机器上,每个this->handle->ptr->field将花费10个周期。并且比单个指针更难追踪。但更糟糕的是,如果每个都是L1高速缓存未命中,即使它只有20个周期到L2 ...隐藏2×20 = 40个高速缓存未命中延迟周期要比单个L1未命中更难。
通常来说,避免使用间接的智能指针是一个好的建议。替换指向句柄使用所有的智能指针指向对象自身。你可以通过指向对象以及句柄来使智能指针变大。 (然后不再是通常称为句柄的东西,而更像是一个信息对象。)
如:
template class refcntptr {
refcnt_info info;
T* ptr;
public:
refcntptr(T*obj) {
this->ptr = obj;
this->info = new refcnt_handle();
this->info->count = 1;
}
};
template class refcnt_info {
T* ptr; // perhaps not necessary, but useful.
int count;
friend refcnt_ptr;
};
无论如何,性能分析器是你最好的朋友。
Intel的EMON硬件也可以告诉你有多少周期数在PC上等待的。这可以区分大量的L1丢失和少量的L2丢失。
Answers7:
我的建议是使用Intel的PTU(Performance Tuning Utility)。
这是VTune的直接后代,并提供可用的最佳可用采样分析器。 你可以跟踪CPU花费的时间或浪费时间(借助可用的硬件事件),而且不会减慢应用程序的性能。 当然,你可以收集你正在查找的所有缓存行未命中事件。
Answers8:
另一个工具分析CPU性能分析计数器是 oprofile。你可以使用 Kcachegrind来看这个结果。
Answers9:
这有一种通用的答案。
举个例子:如果你的程序正在花费50%的时间在缓存丢失上,当你暂停程序计数器时,由于缓存丢失将会有50%的时间在内存寻找精准的位置。