clickhouse之mergeTree

mergeTree

数据存储方式

数据库表在clickhouse中是分块存储(如果 partitioning key 存在则使用定义的键分块),每一块又分为文件存储,每一块的存储方式有2中wide和compact。
wide: 每一列存一个单独的文件
compact: 所有列都存在一个文件中。compact格式可以提高插入量少插入频率频繁时的性能。
存储方式由min_bytes_for_wide_part和min_rows_for_wide_part控制。如果这两个参数都未设置则,默认为wide。

每一块存储在逻辑上又拆分为颗粒。颗粒的配置参数为index_granularity 和index_granularity_bytes。

主键

  • 主键可以重复
  • 主键可以是多列的组合
  • 主键选择依据是该列上有查询条件,并且查询条件可过滤掉的数据量越大那么主键的索引效率就越高。因为使用主键排序,主键的一致性越高,压缩就越大。在 CollapsingMergeTree 和SummingMergeTree引擎中将排序字段作为主键可以提供额外的逻辑。
  • 主键越长会影响插入效率和内存使用。
  • 如果未指明主键,则使用sort by 的数据作为主键。

主键和排序键不同的意义

这经常发生在SummingMergeTree和AggregatingMergeTree中,因为过滤条件where和聚集条件group by很可能不一样。所以主键通过where条件选择,排序键根据group by选择。保证了插入和集合的效率。

索引选择

根据where或者prewhere条件匹配程度选择索引,包括in条件,前部分固定的like语句(不以%开头),主键,分区键,列的重复方法,以及上述条件的逻辑关系。
分区键即是作为分区查询的依据,也需要在主键中引入,不然在分区内部无法有效查询。

--ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) SETTINGS index_granularity=8192
--不走所有
SELECT count() FROM table WHERE CounterID = 34 OR URL LIKE '%upyachka%'

部分单调主键。如1-30日在1个月中是单调函数,但在更长的期间不是。如果查询范围刚好在这个月那么clickhouse会使用这个索引,如果查询条件不包含单调序列区间,则进行全表扫描。

数据跳跃索引

-- 语法
INDEX index_name expr TYPE type(...) GRANULARITY granularity_value

--示例
CREATE TABLE table_name
(
    u64 UInt64,
    i32 Int32,
    s String,
    ...
    INDEX a (u64 * i32, s) TYPE minmax GRANULARITY 3,
    INDEX b (u64 * length(s)) TYPE set(1000) GRANULARITY 4
) ENGINE = MergeTree()
...;

--查询示例
SELECT count() FROM table WHERE s < 'z';
SELECT count() FROM table WHERE u64 * i32 == 10 AND u64 * length(s) >= 1234;

其中type
minmax: 和主键查询等效
set(max_rows)
ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
bloom_filter([false_positive])
其中后三者使用bloom索引,可以优化 like '%test%'

mergetree

mergeTree Replication 作用
MergeTree ReplicatedMergeTree
ReplacingMergeTree ReplicatedReplacingMergeTree 数据合并阶段替代方式合并排序键相同的数据,用于保证存储空间,不保证数据不重复
SummingMergeTree ReplicatedSummingMergeTree 数据合并阶段合计方式合并排序键相同的数据,用于提高聚合效率
AggregatingMergeTree ReplicatedAggregatingMergeTree 数据合并阶段组合的聚合函数方式合并排序键相同的数据
CollapsingMergeTree ReplicatedCollapsingMergeTree 数据合并阶段折叠(抵消)方式合并排序键相同的数据,用于减少更新操作,clickhouse更新操作很昂贵(最初版本不支持更新)
VersionedCollapsingMergeTree ReplicatedVersionedCollapsingMergeTree 通过版本控制删除旧版本数据,比CollapsingMergeTree多了版本列
GraphiteMergeTree ReplicatedGraphiteMergeTree 存储监控工具graphite数据

只能在单独的服务器上运行的命令:CREATE, DROP, ATTACH, DETACH, RENAME
clickhouse 集群使用zookeeper
集群的时候建议插入频率每秒不超过一次
插入语句只等待1个服务的操作,单这个服务异常退出的时候,插入数据会丢失,保证多副本确认可使用insert_quorum

分区

数据插入是存在单独的分区,然后按分区键进行数据合并。合并是周期性进行了10-15分钟。还有非周期性执行命令OPTIMIZE,但不能依赖此命令(应该是异步的)。

--查询分区
SELECT
    partition,
    name,
    active
FROM system.parts
WHERE table = 'visits'

--立即优化
OPTIMIZE TABLE visits PARTITION 201902;

举例

summingMergeTree举例
CREATE TABLE summtt
(
    key UInt32,
    value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key;

INSERT INTO summtt Values(1,1),(1,2),(2,1);
INSERT INTO summtt Values(1,1),(1,2),(2,1);

SELECT * FROM summtt;

--执行结果如下
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘
┌─key─┬─value─┐
│   1 │     1 │
│   1 │     2 │
│   2 │     1 │
└─────┴───────┘

6 rows in set. Elapsed: 0.090 sec. 

optimize table summtt partition tuple();
SELECT * FROM summtt;
┌─key─┬─value─┐
│   1 │     6 │
│   2 │     2 │
└─────┴───────┘

你可能感兴趣的:(clickhouse之mergeTree)