利用Grafana与系统表监控ClickHouse查询

#### 前言 我们往往需要关心数据库的查询执行情况,特别是慢查询。本文简述配置ClickHouse查询监控的一种傻瓜方法。 #### 开启查询日志 打开各个ClickHouse实例的users.xml,在当前使用的profile(如default)中加入: ```xml 1 ``` 再去各个ClickHouse实例的config.xml中检查一下查询日志的配置,以下是默认启用的配置: ```xml system query_log
toYYYYMM(event_date) 7500 system trace_log
toYYYYMM(event_date) 7500 system query_thread_log
toYYYYMM(event_date) 7500 ``` 其中,partition_by表示查询日志表的分区列,语法与普通建表时相同,默认按月分区。flush_interval_milliseconds则表示日志刷入表中的周期,默认7.5秒。按需修改后,重启ClickHouse实例,就会自动在system库中创建对应的系统表,并写数据。 关于查询日志表(以及其他系统表)中各列的含义,可参见[官方文档](https://clickhouse.tech/docs/en/operations/system-tables/query_log/),非常详细。 #### 创建分布式表、设定TTL 在集群中执行以下语句,创建query_log的分布式表query_log_all,这样才能正确统计所有节点的查询日志。 ```sql CREATE TABLE IF NOT EXISTS system.query_log_all ON CLUSTER sht_ck_cluster_pro AS system.query_log ENGINE = Distributed(sht_ck_cluster_pro,system,query_log,rand()); ``` 查询日志表没有自动过期功能,为了防止日志太多占用大量磁盘空间,可以手动为每张query_log表设定TTL。建议也给其他系统日志表配置上TTL。 ```sql ALTER TABLE system.query_log MODIFY TTL event_date + INTERVAL 15 DAYS; ``` #### 下载、安装、启动Grafana ```bash wget https://dl.grafana.com/oss/release/grafana-6.7.4-1.x86_64.rpm yum -y localinstall grafana-6.7.4-1.x86_64.rpm service grafana-server start ``` 访问 :3000即可。 #### 安装与添加ClickHouse DataSource [ClickHouse DataSource](https://grafana.com/grafana/plugins/vertamedia-clickhouse-datasource)是由Vertamedia开发的第三方插件(这家公司也开源了负载均衡组件CHProxy)。直接用grafana-cli安装之。 ```bash grafana-cli plugins install vertamedia-clickhouse-datasource ``` 然后在Grafana中添加数据源。 ![](https://upload-images.jianshu.io/upload_images/195230-c5d0c4e78eec9239.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) #### 配置Grafana Dashboard 以慢查询为例。先添加一个Query,指定库名、表名、日期列和时间列。 ![](https://upload-images.jianshu.io/upload_images/195230-63dbf6a8ab019340.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) 然后点击Go to Query按钮,写入如下SQL语句。 ```sql SELECT query, avg(query_duration_ms) AS duration_avg, max(query_duration_ms) AS duration_max, count() AS query_count FROM $table WHERE $timeFilter AND type = 2 AND positionCaseInsensitive(query,'%system.%') = 0 GROUP BY query ORDER BY duration_max DESC LIMIT 10 ``` \$table和\$timeFilter都是ClickHouse DataSource预置的宏,可以参见上面给出的传送门。然后,将Format as选项设定为Table,就可以看到指定时间段内的慢查询top 10了。截图会涉及到敏感业务数据,就不贴了。 再举个例子,绘制QPS的折线图,SQL语句如下。 ```sql $rate(count() AS q) FROM $table WHERE $timeFilter AND type = 2 AND positionCaseInsensitive(query,'%system.%') = 0 ``` \$rate是什么鬼?这个是ClickHouse DataSource提供的内置函数,上面的SQL语句在实际请求时会转化成以下的语句。 ```sql SELECT t, q / runningDifference(t / 1000) qRate FROM ( SELECT (intDiv(toUInt32(event_time), 5) * 5) * 1000 AS t, count() AS q FROM system.query_log_all WHERE event_date >= toDate(1592905770) AND event_time >= toDateTime(1592905770) AND type = 2 AND positionCaseInsensitive(query,'%system.%') = 0 GROUP BY t ORDER BY t ) ``` 可见是先以5秒步长分组并统计查询数,再借助runningDifference()函数推导出两行之间时间的增量,进而得到QPS。在Grafana面板中可以通过调整"Resolution"参数来修改步长,如设定为1/4,步长就是20秒。 #### The End

你可能感兴趣的:(利用Grafana与系统表监控ClickHouse查询)