mergeTree
数据存储方式
数据库表在clickhouse中是分块存储(如果 partitioning key 存在则使用定义的键分块),每一块又分为文件存储,每一块的存储方式有2中wide和compact。
wide: 每一列存一个单独的文件
compact: 所有列都存在一个文件中。compact格式可以提高插入量少插入频率频繁时的性能。
存储方式由min_bytes_for_wide_part和min_rows_for_wide_part控制。如果这两个参数都未设置则,默认为wide。
每一块存储在逻辑上又拆分为颗粒。颗粒的配置参数为index_granularity 和index_granularity_bytes。
主键
- 主键可以重复
- 主键可以是多列的组合
- 主键选择依据是该列上有查询条件,并且查询条件可过滤掉的数据量越大那么主键的索引效率就越高。因为使用主键排序,主键的一致性越高,压缩就越大。在 CollapsingMergeTree 和SummingMergeTree引擎中将排序字段作为主键可以提供额外的逻辑。
- 主键越长会影响插入效率和内存使用。
- 如果未指明主键,则使用sort by 的数据作为主键。
主键和排序键不同的意义
这经常发生在SummingMergeTree和AggregatingMergeTree中,因为过滤条件where和聚集条件group by很可能不一样。所以主键通过where条件选择,排序键根据group by选择。保证了插入和集合的效率。
索引选择
根据where或者prewhere条件匹配程度选择索引,包括in条件,前部分固定的like语句(不以%开头),主键,分区键,列的重复方法,以及上述条件的逻辑关系。
分区键即是作为分区查询的依据,也需要在主键中引入,不然在分区内部无法有效查询。
--ENGINE MergeTree() PARTITION BY toYYYYMM(EventDate) ORDER BY (CounterID, EventDate) SETTINGS index_granularity=8192
--不走所有
SELECT count() FROM table WHERE CounterID = 34 OR URL LIKE '%upyachka%'
部分单调主键。如1-30日在1个月中是单调函数,但在更长的期间不是。如果查询范围刚好在这个月那么clickhouse会使用这个索引,如果查询条件不包含单调序列区间,则进行全表扫描。
数据跳跃索引
-- 语法
INDEX index_name expr TYPE type(...) GRANULARITY granularity_value
--示例
CREATE TABLE table_name
(
u64 UInt64,
i32 Int32,
s String,
...
INDEX a (u64 * i32, s) TYPE minmax GRANULARITY 3,
INDEX b (u64 * length(s)) TYPE set(1000) GRANULARITY 4
) ENGINE = MergeTree()
...;
--查询示例
SELECT count() FROM table WHERE s < 'z';
SELECT count() FROM table WHERE u64 * i32 == 10 AND u64 * length(s) >= 1234;
其中type
minmax: 和主键查询等效
set(max_rows)
ngrambf_v1(n, size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
tokenbf_v1(size_of_bloom_filter_in_bytes, number_of_hash_functions, random_seed)
bloom_filter([false_positive])
其中后三者使用bloom索引,可以优化 like '%test%'
mergetree
mergeTree | Replication | 作用 |
---|---|---|
MergeTree | ReplicatedMergeTree | |
ReplacingMergeTree | ReplicatedReplacingMergeTree | 数据合并阶段用替代方式合并排序键相同的数据,用于保证存储空间,不保证数据不重复 |
SummingMergeTree | ReplicatedSummingMergeTree | 数据合并阶段用合计方式合并排序键相同的数据,用于提高聚合效率 |
AggregatingMergeTree | ReplicatedAggregatingMergeTree | 数据合并阶段用组合的聚合函数方式合并排序键相同的数据 |
CollapsingMergeTree | ReplicatedCollapsingMergeTree | 数据合并阶段用折叠(抵消)方式合并排序键相同的数据,用于减少更新操作,clickhouse更新操作很昂贵(最初版本不支持更新) |
VersionedCollapsingMergeTree | ReplicatedVersionedCollapsingMergeTree | 通过版本控制删除旧版本数据,比CollapsingMergeTree多了版本列 |
GraphiteMergeTree | ReplicatedGraphiteMergeTree | 存储监控工具graphite数据 |
只能在单独的服务器上运行的命令:CREATE, DROP, ATTACH, DETACH, RENAME
clickhouse 集群使用zookeeper
集群的时候建议插入频率每秒不超过一次
插入语句只等待1个服务的操作,单这个服务异常退出的时候,插入数据会丢失,保证多副本确认可使用insert_quorum
分区
数据插入是存在单独的分区,然后按分区键进行数据合并。合并是周期性进行了10-15分钟。还有非周期性执行命令OPTIMIZE,但不能依赖此命令(应该是异步的)。
--查询分区
SELECT
partition,
name,
active
FROM system.parts
WHERE table = 'visits'
--立即优化
OPTIMIZE TABLE visits PARTITION 201902;
举例
summingMergeTree举例
CREATE TABLE summtt
(
key UInt32,
value UInt32
)
ENGINE = SummingMergeTree()
ORDER BY key;
INSERT INTO summtt Values(1,1),(1,2),(2,1);
INSERT INTO summtt Values(1,1),(1,2),(2,1);
SELECT * FROM summtt;
--执行结果如下
┌─key─┬─value─┐
│ 1 │ 1 │
│ 1 │ 2 │
│ 2 │ 1 │
└─────┴───────┘
┌─key─┬─value─┐
│ 1 │ 1 │
│ 1 │ 2 │
│ 2 │ 1 │
└─────┴───────┘
6 rows in set. Elapsed: 0.090 sec.
optimize table summtt partition tuple();
SELECT * FROM summtt;
┌─key─┬─value─┐
│ 1 │ 6 │
│ 2 │ 2 │
└─────┴───────┘