分布式系统中自适应统计信息收集策略

开务数据库(原：云溪数据库)始终坚持在产学研合作领域的创新发展，通过建立校企联合实验室，针对国家和行业的重大需求，致力于攻克数据库技术难题。

如果你对数据库核心技术、前沿科学研究等感兴趣，并希望可以扎根于数据库领域，那诚邀大家关注“Paper Reading”文章专栏。

我们会邀请全球顶尖的数据库专家，深入浅出地带领大家走进学术世界，学习理论，创新实践！

论文题目
An Adaptive Strategy for Statistics Collecting in Distributed Database（该论文被收录于 Front.Comput.SCI）

论文地址
https://link.springer.com/art...

01.导入语

在数据库系统中，统计信息对于查询优化至关重要，错误的统计信息将严重影响到查询优化的质量。由于统计信息存在缺失、过时或不充分的情况，优化器经常会选择次优的执行计划，但如今已有很多策略能够保证统计信息的正确性。

然而在分布式系统下，我们不能忽略统计信息收集时的效率问题以及对系统的影响。从统计信息的收集方式来看，一些系统在各节点上收集统计信息，记为部分统计信息。

当优化器需要使用统计信息时，部分统计信息需要聚合为全局统计信息。这种策略可以充分利用并行计算资源来提高收集效率，但是没有考虑聚合时统计信息正确性的损失以及对系统性能的负面影响（统计信息收集时占据大量系统资源，将影响系统正常运转）。

从统计信息收集的频率来看，收集统计信息的周期短，能够更加及时地修正错误的统计信息。然而这会使统计信息收集的频率增加，消耗大量系统资源。

综上所述，统计信息的收集是一个费时费力的操作。在分布式数据库中，要想实现有效地收集统计信息且不影响系统性能和统计信息的正确性这一想法，具有很高的挑战性。目前往往只能从单维度考虑统计信息的收集，忽略了多种相关因素。

因此此篇论文提出了一种自适应收集策略（Adaptive Statistics Collecting），记为 ASC，有效地平衡了收集效率、统计信息的正确性以及对系统性能的影响。通过本篇论文，大家可以了解到：

如何将统计信息收集流程形式化，并分析与统计信息收集有关的因素间的相互关系；
自适应组件为统计信息收集提供鲁棒性的策略，平衡与统计信息收集有关的因素关系；
分析传统算法的问题并阐述本文提出的算法如何解决这些问题；
在分布式环境下，从收集效率，统计信息的正确性、对系统性能的影响这三个方面评估本文算法。

02.预备知识

一、收集流程

统计信息的收集流程往往能划分为 3 个阶段：When、Where 和 How。

When：统计信息的收集是一个被动的操作，意味着它的执行需要被某些事件触发，通常是增量数据达到某个阈值；
Where：统计信息的收集与利用是分开的，意味着我们需要选择合适的位置去存储它们；
How：统计信息收集的执行方式分为 3 种，如下表所示：

将以上三个阶段结合，可以得到传统的统计信息收集流程，如下图所示：

二、与统计信息收集相关的因素及相互关系

和统计信息收集相关的因素，如下表所示：

根据一些启发式规则，给出各因素之间的关系，如下表所示：

注：系统性能的高低可以理解为系统是否能够正常维持原有的功能。

三、目标函数

对于 Collecting Efficiency（E）、Correctness of Statistics（C）、Negative Effect To System Performance（NEP）3 个因素，函数最终目标是在保证对系统性能 P 影响较低的条件下，尽可能提高统计信息的收集效率 E 和统计信息的准确性 C。

03.自适应统计信息收集

一、ASC 流程

自适应统计信息收集 ASC 是用三个自适应组件 Adaptive Triggering、 Adaptive Tcheduling、Adaptive Executing 实现目标函数。ASC 的流程图如下：

对流程图的解读如下：

基于事件形成 ESI（可以存储必要信息的一个架构），在不同阶段之间传递，并且动态扩展，满足不同的需求；
Adaptive Triggering 组件根据 ESI 决定触发时间（是否触发统计信息的收集），并且产生收集任务，存储在 ESI 中，传递给 Adaptive Scheduling 组件；
Adaptive Scheduling 组件为收集任务决定合适的执行模型、执行位置与存储位置；
Adaptive Scheduling 组件可以判断当前系统状态是否可以执行收集任务，如果可以，利用对应的执行模型执行收集任务，并将结果存储在相应位置。