深入了解 KaiwuDB 负载行为数据采集

KAP 基于数据库系统内部反馈的各项数据指标,可帮助用户全面掌握 KaiwuDB 集群的整体运行情况,实时监测集群相关性能,可提供整体资源和集群状态角度的系统监控。

除此之外,KaiwuDB 数据库内部开发实现基于负载业务的行为数据采集功能,为 KAP 提供更加全面的数据支持,为用户提供更为多元化的信息,方便用户监控 KaiwuDB 内部的业务负载处理情况,指导用户进行 SQL 调优等。

一、技术架构

从 SQL 来源、执行情况、计划内容、资源使用等角度收集负载的行为数据信息,之后将采集到的信息进行局部缓存、批量持久化。具体流程如下图所示:

深入了解 KaiwuDB 负载行为数据采集_第1张图片

二、行为数据采集

通过收集 SQL 语句执行过程各阶段行为数据信息,记录数据库处理负载业务的详细执行情况,提高 KaiwuDB 数据库可观测能力。行为数据指标主要包括如下内容:

深入了解 KaiwuDB 负载行为数据采集_第2张图片

Workload:Application name 等 session 部分信息

  • Application name:应用名称

Statement:语句的整体执行情况、行数、时间

  • Statement content:SQL 语句的文本内容

  • Statement params:SQL 语句常量化参数

  • Total elapsed time:SQL 语句从进入 KaiwuDB 到返回结果总用时

  • Total affected rows:SQL 语句的影响行数

  • Retry count:事务重试次数计数

Resoure:整体内存使用等 session 相关资源数

  • Memory、Disk、CPU、Coroutines 等资源情况

Node:节点信息

LogicPlan:逻辑计划构建时间、算子、谓词等

  • LogicalPlan time:从语法树生成逻辑计划用时

  • Stats Profile:表相关信息

  • Access Pattern:访问模式

  • LogicalOperator:算子信息

  • Predicate:谓词信息

PhysicalPlan:物理计划构建时间、算子执行等相关信息

  • PhysicalPlan time:从逻辑计划生成物理计划用时

  • ProcessorSpec:Input/Output 数据来源和去向

  • Type:算子类型

三、开关控制

负载行为数据采集贯穿整个 SQL 语句执行的生命周期,不可避免地对 SQL 语句的执行效率产生负面影响。因此我们细化对行为数据采集指标的控制开关,以适配不同用户的行为数据采集需求,做到无关指标屏蔽采集,尽可能减少数据采集带来的性能损耗。

开关设计:

  • 全局开关 sql.workloadinfo.enabled:控制所有负载行为数据是否采集;

  • 应用开关 sql.workloadinfo.application_name_list:控制仅对 application_name_list 内指定应用触发的负载业务进行行为数据采集;

  • 用户开关 sql.workloadinfo.user_name_list:控制仅对 user_name_list 内指定用户触发的负载业务进行行为数据采集;

  • 采集次数开关 sql.workloadinfo.maxcollectnum:控制对同一来源的相同 SQL 语句的最大采集次数。

四、应用洞察分析

基于这些负载角度的行为数据信息,我们可以实现如下洞察分析:

  • 应用负载分类

    方便判断应用类型是 OLAP 还是 OLTP。行为数据采集的查询 SQL 类型语句在总业务中的占比,提供应用负载分类;

  • 语句健康状况分析

    提供语句健康状况查询,方便用户快速识别有性能问题的 SQL 语句。通过分析 SQL 语句的的访问方式、执行时间,并对比其预估计划和实际执行的差距,考虑该语句在当前应用负载中的权重,将存在潜在性能问题的重要查询标记为不健康 SQL 语句,以便未来对这些查询进行重新优化;

  • 应用负载洞察

    提供用户单独视图显示集群上运行的应用程序的摘要信息。具体包括:应用程序总体状况信息,应用负载具体信息和 SQL 语句细节;

  • 增量变化

    提供用户感知应用负载随时间的增量变化。具体包括:数据量变化,如应用负载访问的表数据增量变化;SQL 语句量变化,如应用负载针对某些特殊场景季度性触发某些查询服务;用户场景需求变化,如新版本上线, 导致 DDL(数据定义语言)数量变化。

你可能感兴趣的:(KaiwuDB,KAP,负载行为数据采集)