ClickHouse的SQL优化规则是基于RBO(Rule Based Optimization),下面是一些优化规则。
在调用count函数时,如果使用的是count()或者count(*),且没有where条件,则会直接使用system.tables的total_rows,例如:
注意:Optimized trivial count,这是对count的优化。
语句子查询中有两个重复的id字段,会被去重。
当group by有having子句,但是没有with cube、with rollup或者with totals修饰的时候,having会下推到where提前过滤。
EXPLAIN SYNTAX SELECT UserID FROM hits_v1 GROUP BY UserID HAVING UserID='123456789';
聚合函数内的计算,会外推,如下:
EXPLAIN SYNTAX SELECT sum(UserID * 2) FROM visits_v1;
如果对聚合键,也就是group by key使用min、max等聚合函数,则会将函数消除。
EXPLAIN SYNTAX SELECT sum(UserID * 2),max(VisitID),max(UserID) FROM visits_v1 GROUP BY UserID;
当order by、limit后有跟相同的key,SYNTAX会提示可进行优化。
set optimize_if_chain_to_multiif = 1;
或者直接使用如下SQL:
-- 查看语法优化
EXPLAIN SYNTAX SELECT number =1? 'hello':(number=2?'world':'abcdef') from numbers(10)
settings optimize_if_chain_to_multiif = 1;
Prewhere和where语句的作用相同,用来过滤数据。不同之处在于prewhere只支持*MergeTree族系列引擎的表,首先会读取指定的列数据,来判断数据过滤,等待数据过滤之后再读取select声明的列字段来补全其余属性。
当查询列明显多于筛选列时使用PreWhere可十倍提升查询性能,Prewhere会自动优化执行过滤阶段的数据读取方式,降低io操作。参数optimize_move_to_prewhere=1为开启状态,可以设置为0对其关闭。
在某些场合下,prewhere语句比where语句处理的数据量更少性能更高。
默认情况,我们肯定不会关闭where自动优化成prewhere,但是某些场景即使开启优化,也不会自动转换成prewhere,需要手动指定prewhere:
通过采样运算可极大提升数据分析的性能
select Title,count(*) As PageViews
FROM hits_v1
SAMPLE 01.
WHERE CounterID = 57
GROUP BY Title
ORDER BY PageViews DESC LIMIT 1000
采样修饰符只有在MergeTree engine表中才有效,且在创建表时需要制定采样策略。
数据量太大应避免使用select * 操作,查询的性能会与查询的字段大小和数量成线性关系,字段越少,消耗的io资源越少,性能就会越高。
千万以上数据集进行order by 查询时需要配合where条件和limit语句一起使用。
如非必须,不要在结果集上构建虚拟列,虚拟列非常消耗资源浪费性能,可以考虑在前端处理,或者在表中构造实际字段进行额外存储。
性能可提升10倍以上,uniqCombined底层采用类似HyperLogLog算法实现,能接收2%左右的数据误差,可直接使用这种去重方式提升查询性能。Count(distinct)会使用uniqExact精确去重。
不建议在千万级不同数据上执行distinct去重查询,改为近似去重uniqCombined。
当多表联查时,查询的数据仅从其中一张表出事,可以考虑用in操作而不是join
多表join时要满足小表在右的原则,右表关联时被加载到内存中与左表进行比较,ClickHouse中无论是Left join、Right Join还是Inner join永远都是拿着右表中的每一条记录到左表中查找该记录是否存在,所以右表必须是小表。
ClikHouses在join查询时不会主动发起谓词下推的操作,需要每个子查询提前完成过滤操作,需要注意的是,是否执行谓词下推,对性能影响差别很大(新版本中已经不存在此问题,但是需要注意谓词的位置不用依然有性能的差异)。
两张分布式表的in和join之前必须加上GLOBAL关键字,右表只会在接收查询请求的那个节点查询一次,并将其分发到其它节点上,如果不加GLOBAL关键字的话,每个节点都会单独发起一次对右表的查询,而右表又是分布式表,就导致右表一共会被查询次(N是该分布式表的分片数量),这就是查询放大,会带来很大开销。
将一些需要关联分析的业务创建成字典表进行join操作,前提是字典表不宜太大,因为字典表会常驻内存。
通过增加逻辑过滤可以减少数据扫描,达到提供执行速度及降低内存消息的目的。
ReplacingMergeeTree:数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行,因此你无法预先作出计划。有一些数据可能仍未被处理。集暖你可以调用optimize语句发起计划外的合并,但请不要依靠它,因为OPTIMIZE语句会引发对护具的大量读写。
因此,ReplacingMergeTree适用于在后台清除重复的数据以节省空间,但是它不保证没有重复的数据出现。
1、创建表
CREATE TABLE test_a(
user_id UInt64,
score String,
deleted UInt8 DEFAULT 0,
create_time DateTime DEFAULT toDateTime(0)
)ENGINE = ReplacingMergeTree(create_time)
ORDER BY user_id;
其中:
2、写入与修改数据
INSERT INTO TABLE test_a(user_id,score)
WITH(
SELECT ['A','B','C','D','E','F','G']
)AS dict
SELECT number AS user_id,dict[number%7+1] FROM numbers(10000);
INSERT INTO TABLE test_a(user_id,score,create_time)
WITH(
SELECT ['AA','BB','CC','DD','EE','FF','GG']
)AS dict
SELECT number AS user_id,dict[number%7+1],now() as create_time FROM numbers(5000);
3、此时尚未触发分区合并,所以还未去重。
在写入数据后,立刻执行OPTIMIZE强制触发新写入分区的合并动作
语法:OPTIMIZE TABLE [db.]name [ON CLUSTER cluster] [PARTITION partition | PARTITION ID 'partition_id'] [FINAL] [DEDUPLICATE [BY expression]]
OPTIMIZE TABLE test_a FINAL;
1、执行去重的查询
SELECT
user_id,
argMax(score,create_time) AS score,
argMax(deleted,create_time) AS deleted,
max(create_time) AS ctime
FROM test_a
GROUP BY user_id
HAVING deleted = 0;
函数说明:
当我们更新数据时,会写入一行新的数据,例如上面语句中,通过查询最大的create_time得到修改后的score字段值。
2、创建视图
CREATE VIEW view_test_a AS
SELECT
user_id,
argMax(score,create_time) AS score,
argMax(deleted,create_time) AS deleted,
max(create_time) AS ctime
FROM test_a
GROUP BY user_id
HAVING deleted = 0;
3、删除数据测试
-- 原有1W条数据
select count(*) from test_a;
-- 插入并查询,原表有10001条数据,视图表有10000条数据
INSERT INTO TABLE test_a(user_id,score,create_time) VALUES (0,'AAAA',now());
-- 插入并查询,原表有10002条数据,视图表有9999条数据
INSERT INTO TABLE test_a(user_id,score,deleted,create_time) VALUES (0,'AAAA',1,now());
这行数据并没有真正的被删除,而是被过滤掉了。在一些合适场景下,可以结合表级别的TTL最终将物理数据删除。
在查询语句后增加FINAL修饰符,这样在查询的过程中将会执行Merge的特殊逻辑(例如数据去重,预聚合等)。
但是这种方法在早期版本基本没有人使用,因为在增加FINAL之后,我们的查询将会变成一个单线程的执行过程,查询速度非常慢。
在v20.5.2.7-stable版本中,FINAL查询是支持多线程执行,并且可以通过max_final_threads参数控制单个查询的线程数。但是目前读取part部分的动作依然是串行的。
FIANL查询最终的性能和很多因素相关,列字段的大小、分区的数量等等都会影响到最终的查询时间,所以还要结合实际场景取舍。
参考链接:https://github.com/ClickHouse/ClickHouse/pull/10463
ClickHouse的物化视图是一种查询结果的持久化,它确实是给我们带来了查询效率的提升。用户查起来跟表没有quiet,它就会一张表,它也像是一张时刻在预计算的表,创建的过程它是用了一个特殊引擎,加上后来as select,就是create一个table as select的写法。
“查询结果集”的范围很宽泛,可以是基础表中部分数据的一份简单拷贝,也可以使多表Join之后产生的结果或其子集,或者原始数据的聚合指标等等。所以,物化视图不会随着基础表的变化而变化,所以它也称为快照(snapshot)。
普通视图不保存数据,保存的仅仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。物化视图是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表。
优点:查询速度快,要是把物化视图这些规则全部写好, 它比元数据查询快乐很多,总的行数少了,因为都预计算好了。
缺点:它的本质是一个流式数据的使用场景,是累加式的技术,所以要用历史数据做去重,去核这样的分析,在物化视图里面是不太好用的。在某些场景的使用也是有限的。而且如果一战表加了很多物化视图,在写这张表的时候,就会消耗很多机器的资源,比如护具带宽占满、存储一下子增加了很多。
也是create语法,会创建一个隐藏的目标表来保存视图数据。也可以TO表名,保存到一张显示的表。没有加TO表名,表名默认就会.inner.物化视图名。
CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT ...
1、创建物化视图的限制
2、物化视图的数据更新