BOLT- A Practical Binary Optimizer for Data Centers and Beyond

论文总结

背景:
随着现代服务器上应用程序的增长,对于指令缓存(ICache)的压力也随之增加。ICache不命中会导致高延迟和高能耗,特别是在使用非均匀内存访问(NUMA)架构的数据中心中。

主要贡献:

  1. BOLT工具介绍:
    BOLT是一个后链接二进制优化工具,可以重新排序代码,从而减少ICache不命中,提高程序性能。

  2. 性能提升:
    通过使用BOLT,Facebook 为其数据中心内的关键应用程序实现了明显的性能提升。

  3. 如何工作:

    • BOLT首先分析程序的执行,收集关于分支和基于性能的信息。
    • 接着,它利用这些信息来重新布局二进制文件的函数和基本块,以减少ICache的不命中。
    • BOLT还可以调整代码以利用现代硬件上的其他特性。
  4. 优势:

    • 与其他优化技术相比,BOLT具有更好的性能提升,尤其是对于大型、长时间运行的应用程序。
    • BOLT不需要源代码进行优化,可以直接在二进制文件上操作。

结论:
BOLT为数据中心提供了一个有效的工具,通过后链接优化提高了应用程序的性能,从而减少了能耗和延迟。

BOLT(Binary Optimization Layout Tool)的工作原理

BOLT(Binary Optimization Layout Tool)的工作原理是重新布局应用程序的二进制代码,从而减少指令缓存(ICache)不命中率。ICache不命中会对性能产生重大影响,特别是对于那些指令密集型的应用程序。BOLT使用的方法基于实际的性能数据来优化二进制代码,与传统的编译时优化相结合可以实现更好的性能。

以下是BOLT的主要工作机制和原理:

  1. profile-guided的反馈:

    • BOLT首先运行应用程序以收集其执行profile。这通常使用Linux的perf工具来完成。
    • 通过这种方式,BOLT能够了解哪些代码块和函数被频繁地执行和访问。
  2. 二进制解析和转换:

    • BOLT解析输入的二进制文件,创建内部的中间表示。
    • 这允许BOLT修改和优化二进制代码,而不必担心具体的汇编语法和细节。
  3. 代码重新布局:

    • 根据前面收集的性能数据,BOLT会重新布局函数和基本块。
    • 函数之间的距离基于它们的调用频率进行优化。经常一起执行的函数会被放在一起,从而减少ICache不命中率。
    • 在函数内部,BOLT可以重新布局基本块,确保热路径(频繁执行的路径)在ICache中连续。
  4. 其他优化:

    • BOLT还包括其他编译技巧,如循环展开、函数合并和间接调用优化等。
    • 它还能够优化动态链接的应用程序,并对其进行调整,以利用现代硬件上的特定特性。
  5. 输出优化后的二进制:

    • 经过所有这些转换和优化后,BOLT会生成一个新的、优化过的二进制文件。
    • 这个新的二进制文件可以替代原始文件,通常会有更好的性能表现。

BOLT的关键思想是通过重新布局二进制代码来优化指令缓存的使用。传统的编译器在生成代码时可能不知道程序的实际执行路径。而BOLT通过使用实际的运行时数据来进行优化,因此可以针对实际的工作负载对代码进行调整。

总的来说,BOLT是一个强大的工具,它填补了传统编译器优化和实际运行时行为之间的差距。通过对真实工作负载的深入理解,它可以对二进制代码进行微调,从而实现显著的性能提升。

你可能感兴趣的:(编译优化,编译优化)