clickhouse ReplacingMergeTree 引擎简单使用

简单的说 ReplacingMergeTree 可以实现数据的 ‘修改’
修改的原理是merge的时候保留大版本号的数据。

创建 ReplacingMergeTree 引擎表

create table test.replacingTable (create_time Date, id UInt16, primaryKey String, version UInt16) 
ENGINE=ReplacingMergeTree(version) 
PARTITION BY toYYYYMM(create_time)
ORDER BY (primaryKey)
SETTINGS index_granularity = 8192;

插入模拟数据

insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-26', 1, 'hagrid', 10);
insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-26', 1, 'hagrid', 20);
insert into test.replacingTable (create_time, id, primaryKey, version) values ('2020-05-27', 1, 'hagrid', 30);

查询数据

select * from test.replacingTable

发现数据并没有修改
clickhouse ReplacingMergeTree 引擎简单使用_第1张图片
手动触发merge

optimize table test.replacingTable;

再次查询发现数据已经更新
clickhouse ReplacingMergeTree 引擎简单使用_第2张图片
ps: 发现一个有趣的现象,我在测试中发现,当使用批量插入数据的时候,哪怕手动触发了merge 数据也没有更新。
当我再次插入一条数据后执行merge,数据更新成功。
这里怀疑 ReplacingMergeTree 在执行merge操作的时候,对同一批来的数据有merge的策略,简单的说就是merge的操作懒执行,需要新数据插入作为事件驱动(怀疑未验证)。

你可能感兴趣的:(clickhouse)