Metis: Robustly Tuning Tail Latencies of Cloud Systems调节云系统的尾延迟

Metis受到利用BO训练GP回归模型的启发,同时提高了优化系统定制的稳健性。

摘要:

  1. 调整参数三大问题:工作负载多、系统规模大、参数空间维度大。
  2. 尾延迟等性能指标对非平凡噪声敏感。虽然将目标系统视为黑匣子可以提高适用性,但增加了平衡开发和得到的目标复杂化。
  3. 自动调参的动机:
    1. 动态变化的工作负载。
    2. 系统的规模增加,参数增多。
    3. 人工调参成本太高。
  4. Metis是一项自动调整服务,实现了特定的贝叶斯优化并进行自动调整。
    1. 诊断模型,用于查找重新采样的潜在数据异常值。
    2. 采集功能的混合,以平衡采样,勘探和重新采样。

介绍:

 

  1. 虽然尾延迟似乎很少,但在端到端系统中用户请求遇到尾延迟的可能性很高,特别是采用多级架构大多数Web级应用程序。 
  2. 与平均延迟相比,尾部延迟可以高出10倍以上。 
  3. 具有高斯过程(GP)的贝叶斯优化(BO)已经成为用于系统定制的强大的黑盒优化框架。通过回归已经收集的数据点(即基准测试的系统配置)来模拟配置与性能空间,可得到全局最优或最佳性能的系统配置。BO提供了一种提出建议系统配置进行基准测试来实现建立训练数据的方法,其目标是最大限度地提高回归模型的准确性。

提升Metis系统定制的稳健型需要解决以下问题:

 

  1. 我们应该避免不必要地过度采样空间,因为系统基准测试可能是资源密集型和耗时的。在每次迭代时,BO将下一个系统配置选择为基准的策略应该平衡利用(即,包含最优的概率很高的区域)和勘探(即,包含最优的高不确定性的区域)。

总结:

  1. 使用Bing Ads键值存储集群作为运行示例,与人工进行数周的手动调整相比。实验结果显示Metis将整体调整时间缩短了98.41%,同时将99%的延迟减少了另外3.43% 。 

你可能感兴趣的:(论文解读)