原文地址:https://program-park.github.io/2022/03/24/clickhouse_5/
ClickHouse 本身作为一个数据库,对普通增删改查的操作都是支持的。但是,他针对数仓的使用场景,又有非常多的高级特性。对这些高级特性的掌握程度将直接影响 ClickHouse 的使用效率。实现一个同样的查询逻辑,不同的 SQL 写法在 ClickHouse 上很容易体现出非常非常大的执行时长差别。所以在使用 ClickHouse 时,需要对这些特性非常重视。
使用数据库首先要建库,ClickHouse 提供了多种库引擎实现不同场景下的库声明。
这是 ClickHouse 默认的库引擎。默认创建的 default 库就是使用的这种引擎,可以在建库时进行声明。它支持非阻塞的DROP TABLE
和RENAME TABLE
查询和原子的EXCHANGE TABLES t1 AND t2
查询。
CREATE DATABASE testdb ENGINE = Replicated('zoo_path', 'shard_name', 'replica_name') [SETTINGS ...]
zoo_path
——ZooKeeper 地址,同一个 ZooKeeper 路径对应同一个数据库。shard_name
——分片的名字,数据库副本按 shard_name 分组到分片中。replica_name
——副本的名字,同一分片的所有副本的副本名称必须不同。 Atomic 类型的数据库完全由 ClickHouse 自己管理数据。每个数据库对应/var/lib/clickhouse/data
目录下的一个子目录。数据库中的每个表会分配一个唯一的 UUID,数据存储在目录 /var/lib/clickhouse/store/xxx/xxxyyyyy-yyyy-yyyyyyyy-yyyyyyyyyyyy/
,其中xxxyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy
是该表的
UUID。
更多操作可以参考官网:https://clickhouse.com/docs/zh/engines/database-engines/atomic/,这里就不再细说了。
除了 Atomic 引擎,ClickHouse 还提供了丰富的库引擎,包括 MySql、SQLite、PostgreSQL等等,有兴趣的了解的可以去 ClickHouse 官网了解:https://clickhouse.com/docs/zh/。
基本上来说传统关系型数据库(以 MySQL 为例)的 SQL 语句,ClickHouse 基本都支持, 这里不会从头讲解 SQL 语法只介绍 ClickHouse 与标准 SQL(MySQL)不一致的地方。
基本与标准 SQL(MySQL)基本一致。
insert into [table_name] values(…),(….)
insert into [table_name] select a,b,c from [table_name_2]
更多操作可参考官网:https://clickhouse.com/docs/zh/sql-reference/statements/insert-into/
ClickHouse 提供了 Delete 和 Update 的能力,这类操作被称为 Mutation 查询,它可以看做 Alter 的一种。
虽然可以实现修改和删除,但是和一般的 OLTP 数据库不一样,Mutation 语句是一种很“重”的操作,而且不支持事务。
“重” 的原因主要是每次修改或者删除都会导致放弃目标数据的原有分区,重建新分区。所以尽量做批量的变更,不要进行频繁小数据的操作。
alter table t_order_smt delete where sku_id ='sku_001';
alter table t_order_smt update total_amount=toDecimal32(2000.00,2) where id=102;
由于操作比较“重”,所以 Mutation 语句分两步执行,同步执行的部分其实只是进行新增数据新增分区和并把旧分区打上逻辑上的失效标记。直到触发分区合并的时候,才会删除旧数据释放磁盘空间,一般不会开放这样的功能给用户,由管理员完成。
更多操作可参考官网:https://clickhouse.com/docs/zh/sql-reference/statements/alter/
ClickHouse 基本上与标准 SQL 差别不大:
insert into t_order_mt values
(101,'sku_001',1000.00,'2020-06-01 12:00:00'),
(101,'sku_002',2000.00,'2020-06-01 12:00:00'),
(103,'sku_004',2500.00,'2020-06-01 12:00:00'),
(104,'sku_002',2000.00,'2020-06-01 12:00:00'),
(105,'sku_003',600.00,'2020-06-02 12:00:00'),
(106,'sku_001',1000.00,'2020-06-04 12:00:00'),
(107,'sku_002',2000.00,'2020-06-04 12:00:00'),
(108,'sku_004',2500.00,'2020-06-04 12:00:00'),
(109,'sku_002',2000.00,'2020-06-04 12:00:00'),
(110,'sku_003',600.00,'2020-06-01 12:00:00');
select id , sku_id,sum(total_amount) from t_order_mt group by id,sku_id with rollup;
select id , sku_id,sum(total_amount) from t_order_mt group by id,sku_id with cube;
select id , sku_id,sum(total_amount) from t_order_mt group by id,sku_id with totals;
同 MySQL 的修改字段基本一致。
alter table tableName add column newcolname String after col1;
alter table tableName modify column newcolname String;
alter table tableName drop column newcolname;
使用 ClickHouse 首先需要有数据。我们之前也通过 insert into 语句造了一些测试数据,但是这种方式,在 ClickHouse 中是非常不推荐的。一方面,insert 语句插入数据,效率太低。ClickHouse 是面向海量数据进行查询分析,insert 语句很难用来形成海量的数据。另一方面,ClickHouse 常用的 MergeTree 表引擎,会将新插入的数据放到一个临时的分区当中,后续需要进行数据合并。频繁的 insert 操作会产生大量的临时分区,增加数据合并的性能消耗。所以,ClickHouse 中通常情况下都是通过数据文件进行大批量的导出导入操作来产生的。常用的数据导入导出方式是通过clickhouse-client
客户端写入或读取 csv 文件来完成。
例如导出数据到 csv 文件:
clickhouse-client -h 127.0.0.1 --database="defalut" --query="select * from t_stock FORMAT CSV" > t_stock.csv
从 csv 文件导入数据:
clickhouse-client -h 127.0.0.1 --database="default" --query="insert into t_stock FORMAT CSV" < ./test.csv
另外,官方也提供了一个clickhouse-copier
工具来专门对 ClickHouse 数据进行备份与恢复。
同时,官方也提供了大量高质量的数据集可供测试。因此我们需要将这些高质量的数据集导入到 ClickHouse 中,这样对于学习 ClickHouse 是非常方便高效的。
官网数据集可参考:https://clickhouse.com/docs/zh/getting-started/example-datasets/github-events/
学习过程中,常用的数据集还是线上测试数据库中用到的数据,也就是Yandex.Metric Data
数据集。数据集包含两张表hits_v1
和visits_v1
。数据集可以从官方网站上下载。参见https://clickhouse.com/docs/zh/getting-started/example-datasets/metrica/。
而这个官方文件的导入过程相当简单粗暴,那就是直接转移数据文件。
tar -xvf hits_v1.tar -C /var/lib/clickhouse
tar -xvf visits_v1.tar -C /var/lib/clickhouse
chown -R clickhouse:clickhouse /var/lib/clickhouse
systemctl restart clickhouse-server
重启完成后,就可以在 ClickHouse 中查到一个 datasets 数据以及 hits_v1 和 visits_v1 两张表。hits_v1 表使用的是MergeTree
引擎,拥有 800W+ 的数据。visits_v1 表使用的是CollapsingMergeTree
引擎,拥有 160W+ 的数据。
更多支持格式参照:https://clickhouse.com/docs/zh/interfaces/formats/。
【1】https://clickhouse.com/docs/zh/
【2】https://www.bilibili.com/video/BV1Yh411z7os?from=search&seid=4579023877699743987&spm_id_from=333.337.0.0