Clickhouse调研

1、独立组件个数(按进程)

默认情况下是1个;如果需要使用副本机制,需要依赖zookeeper;如果需要监控功能,还得依赖第三方监控系统。

2、单机部署

很好的支持单机运行,并且单机情况下查询入库性能不错(通过其提供的示例数据进行体验)。

3、窗口函数

Clickhouse没有显示的支持窗口函数,根据网上的资料,可以通过arrayEnumeratearrayEnumerateDensearrayEnumerateUniq函数间接的实现简单的窗口函数功能。但是用这种方式写查询语句会比较繁琐。参考:

https://blog.csdn.net/vkingnew/article/details/106781788

4、数据自动平衡

(1)分布式表入库时,分布式表会根据sharding_key把数据划分到不同的shard中,这个算是写入时的数据平衡机制;

(2)如果增加新shard,已经入库的数据不会自动均衡到新shard中,必须通过人工命令对数据进行移动。

5、离线处理

MergeTree系列的表引擎中包含几个有特殊功能的引擎:

  • ReplacingMergeTree

    引擎内部在merge时会对具有相同Sorting Key的行进行去重,至于多个重复的行保留哪个是由ReplacingMergeTree的参数决定的,参数指定

你可能感兴趣的:(大数据生态,clickhouse)