clickhouse之mergeTree

mergeTree

数据存储方式

数据库表在clickhouse中是分块存储（如果 partitioning key 存在则使用定义的键分块），每一块又分为文件存储，每一块的存储方式有2中wide和compact。
wide: 每一列存一个单独的文件
compact: 所有列都存在一个文件中。compact格式可以提高插入量少插入频率频繁时的性能。
存储方式由min_bytes_for_wide_part和min_rows_for_wide_part控制。如果这两个参数都未设置则，默认为wide。

每一块存储在逻辑上又拆分为颗粒。颗粒的配置参数为index_granularity 和index_granularity_bytes。

主键

主键可以重复
主键可以是多列的组合
主键选择依据是该列上有查询条件，并且查询条件可过滤掉的数据量越大那么主键的索引效率就越高。因为使用主键排序，主键的一致性越高，压缩就越大。在 CollapsingMergeTree 和SummingMergeTree引擎中将排序字段作为主键可以提供额外的逻辑。
主键越长会影响插入效率和内存使用。
如果未指明主键，则使用sort by 的数据作为主键。

主键和排序键不同的意义

这经常发生在SummingMergeTree和AggregatingMergeTree中，因为过滤条件where和聚集条件group by很可能不一样。所以主键通过where条件选择，排序键根据group by选择。保证了插入和集合的效率。

索引选择

根据where或者prewhere条件匹配程度选择索引，包括in条件，前部分固定的like语句（不以%开头），主键，分区键，列的重复方法，以及上述条件的逻辑关系。
分区键即是作为分区查询的依据，也需要在主键中引入，不然在分区内部无法有效查询。

--ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) SETTINGS index_granularity=8192
--不走所有
SELECT count() FROM table WHERE CounterID = 34 OR URL LIKE '%upyachka%'

部分单调主键。如1-30日在1个月中是单调函数，但在更长的期间不是。如果查询范围刚好在这个月那么clickhouse会使用这个索引，如果查询条件不包含单调序列区间，则进行全表扫描。

数据跳跃索引

-- 语法
INDEX index_name expr TYPE type(...) GRANULARITY granularity_value

--示例
CREATE TABLE table_name
(
    u64 UInt64,
    i32 Int32,
    s String,
    ...
    INDEX a (u64 * i32, s) TYPE minmax GRANULARITY 3,
    INDEX b (u64 * length(s)) TYPE set(1000) GRANULARITY 4
) ENGINE = MergeTree()
...;

--查询示例
SELECT count() FROM table WHERE s < 'z';
SELECT count() FROM table WHERE u64 * i32 == 10 AND u64 * length(s) >= 1234;

其中type
minmax：和主键查询等效
set(max_rows)
ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
bloom_filter([false_positive])
其中后三者使用bloom索引，可以优化 like '%test%'

mergetree

mergeTree	Replication	作用
MergeTree	ReplicatedMergeTree
ReplacingMergeTree	ReplicatedReplacingMergeTree	数据合并阶段用替代方式合并排序键相同的数据，用于保证存储空间，不保证数据不重复
SummingMergeTree	ReplicatedSummingMergeTree	数据合并阶段用合计方式合并排序键相同的数据，用于提高聚合效率
AggregatingMergeTree	ReplicatedAggregatingMergeTree	数据合并阶段用组合的聚合函数方式合并排序键相同的数据
CollapsingMergeTree	ReplicatedCollapsingMergeTree	数据合并阶段用折叠（抵消）方式合并排序键相同的数据，用于减少更新操作，clickhouse更新操作很昂贵（最初版本不支持更新）
VersionedCollapsingMergeTree	ReplicatedVersionedCollapsingMergeTree	通过版本控制删除旧版本数据，比CollapsingMergeTree多了版本列
GraphiteMergeTree	ReplicatedGraphiteMergeTree	存储监控工具graphite数据

只能在单独的服务器上运行的命令：CREATE, DROP, ATTACH, DETACH, RENAME
clickhouse 集群使用zookeeper
集群的时候建议插入频率每秒不超过一次
插入语句只等待1个服务的操作，单这个服务异常退出的时候，插入数据会丢失，保证多副本确认可使用insert_quorum

分区

数据插入是存在单独的分区，然后按分区键进行数据合并。合并是周期性进行了10-15分钟。还有非周期性执行命令OPTIMIZE,但不能依赖此命令（应该是异步的）。

--查询分区
SELECT
    partition,
    name,
    active
FROM system.parts
WHERE table = 'visits'

--立即优化
OPTIMIZE TABLE visits PARTITION 201902;

举例

summingMergeTree举例

CREATE TABLE summtt
(
    key UInt32,
    value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key;

INSERT INTO summtt Values(1,1),(1,2),(2,1);
INSERT INTO summtt Values(1,1),(1,2),(2,1);

SELECT * FROM summtt;

--执行结果如下
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘

6 rows in set. Elapsed: 0.090 sec. 

optimize table summtt partition tuple();
SELECT * FROM summtt;
┌─key─┬─value─┐
│   1 │     6 │
│   2 │     2 │
└─────┴───────┘