OLAP-ClickHouse应用场景分析

一、介绍

ClickHouse 是俄罗斯Yandex在2016年年开源的⼀一个⾼高性能分析型SQL数 据库,主要⾯面向OL

AP场景。开源之后,凭借优异的查询性能,受到业界的青睐。

优点:

1)为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;

2)数据压缩空间大,减少io;处理单查询高吞吐量每台服务器每秒最多数十亿行;

3)索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;

4)写入速度非常快,50-200M/s,对于大量的数据更新非常适用;

ClickHouse并非万能的,正因为ClickHouse处理速度快,所以也是需要为“快”付出代价。选择ClickHouse需要有下面注意以下几点: 

1)不支持事务,不支持真正的删除/更新;

2)不支持高并发,官方建议qps为100,可以通过修改配置文件增加连接数,但是在服务器足够好的情况下;

3)sql满足日常使用80%以上的语法,join写法比较特殊;最新版已支持类似sql的join,但性能不好;

4)尽量做1000条以上批量的写入,避免逐行insert或小批量的insert,update,delete操作,因为ClickHouse底层会不断的做异步的数据合并,会影响查询性能,这个在做实时数据写入的时候要尽量避开;

5)Clickhouse快是因为采用了并行处理机制,即使一个查询,也会用服务器一半的cpu去执行,所以ClickHouse不能支持高并发的使用场景,默认单查询使用cpu核数为服务器核数的一半,安装时会自动识别服务器核数,可以通过配置文件修改该参数; 

二、性能对比


不同DB性能对比


单表性能测试


更多性能压测可以参考官网:http://www.clickhouse.com.cn/topic/5c453371389ad55f127768ea

同时对比了另一款OALP技术方案Druid

Druid的优点在于数据的预聚合、列式存储、Bitmap 索引、mmap、以及查询结果的中间缓存,数据实时摄入

ClickHouse相比于druid的优势在于,维度灵活,保存明细数据

三、架构设计

3.1 基于ClickHouse的OLAP 的实时&离线应用

3.1.1 数据摄入

ClickHouse覆盖如下两种场景:

实时:数据流可以通过kafka或者flink实时处理之后,通过JDBC方式批量导入到ClickHouse中离线:数据落地HDFS ODS层,离线通过Spark或MR的batch形式批量导入到ClickHouse中


离线&实时 Clickhouse数据分析场景

3.1.2 数据存储

存储上使用多磁盘结构,可以充分利用物理机多磁盘特性,增加存储量和磁盘IO吞吐,(同样可以进行磁盘的RAID操作,来增加吞吐)

ClickHouse可以通过配置文件的形式配置不同的存储Policy,可以将数据按照表维度进行完全的物理资源隔离

针对不同的业务和优先级进行表级别的抽象,这样的好处在于数据的摄入和查询不会相互影响,同时需要在不同的shard之前有路由层,突破单点数据导入瓶颈和路由不同的table查询到指定shard上


数据存储

3.1.3 数据扩容

Clickhouse在扩容方面也比较平滑,如下步骤即可完成扩容

1.安装新部署新的shard分片机器

2.批量修改当前集群的配置文件增加新的分片

3. 新shard上创建表结构

4. 名字服务添加节点

3.1.4 数据查询

数据有冷热之分,绝大多数OLAP场景需要查询最近一段时间的数据,(主要有:过去三天,过去一周,过去一个月等)

针对热数据,建议通过clickhouse来进行查询,保证查询速度,特点:数据量较小,查询速度快

针对冷数据,可以通过直接通过Spark/MR来直接查询HDFS数据,特点:数据量巨大,查询速度较慢


冷热数据查询策略

四、应用场景

使用ClickHouse作为OLAP服务的常见的应用场景包括:监控系统、ABtest、用户行为分析、BI报表,特征分析等


应用场景

1. 用户行为分析系统

行为分析系统的表可以打成一个大的宽表形式,join 的形式相对少一点,可以实现路径分析、漏斗分析、路径转化等功能

2. BI报表

结合clickhouse的实时查询功能,可以实时的做一些需要及时产出的灵活BI报表需求,包括并成功应用于留存分析、用户增长、广告营销等

3. 监控系统

视频播放质量、CDN质量,系统服务报错信息等指标,也可以接入ClickHouse,结合Kibana实现监控大盘功能

4. ABtest

其高效的存储性能以及丰富的数据聚合函数成为实验效果分析的不二选择。离线和实时整合后的用户命中的实验分组对应的行为日志数据最终都导入了clickhouse,用于计算用户对应实验的一些埋点指标数据(主要包括pv、uv)。

业界可以参考:https://www.jianshu.com/p/79d31a72978f(Athena-贝壳流量实验平台设计与实践)

5. 特征分析

使用Clickhouse针对大数据量的数据进行聚合计算来提取特征

场景举例:用户行为实时分析OLAP应用场景


用户行为分析服务架构方案

你可能感兴趣的:(OLAP-ClickHouse应用场景分析)