原文地址:https://www.jianshu.com/p/fca68daf4cbf
在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能,提供高可用集群环境。本文主要讲述如何通过Clickhouse结合大数据生态来定制一套完善的数据分析方案、如何打造完备的运维管理平台以降低维护成本,并结合具体案例说明Clickhouse的实践过程。
Clickhouse是俄罗斯yandex公司于2016年开源的一个列式数据库管理系统,在OLAP领域像一匹黑马一样,以其超高的性能受到业界的青睐。
特性:
不足:
clickhouse整体架构
我们依据数据的流向将Clickhouse的应用架构划分为4个层级。
提供了数据导入相关的服务及功能,按照数据的量级和特性我们抽象出三种Clickhouse导入数据的方式。
数据存储层这里我们采用双副本机制来保证数据的高可靠,同时用nginx代理clickhouse集群,通过域名的方式进行读写操作,实现了数据均衡及高可靠写入,且对于域名的响应时间及流量有对应的实时监控,一旦响应速度出现波动或异常我们能在第一时间收到报警通知。
在Clickhouse的使用过程中我们对常见的运维操作如:增删节点、用户管理、版本升降级等封装了一系列的指令脚本,再结合业务同学使用过程中的一些诉求开发了Clickhouse管理平台,该平台集管理、运维、监控为一体,旨在让用户更方便、快捷的使用Clickhouse服务,降低运维成本,提高工作效率。
clickhouse运维管理平台首页
在自动化运维操作时会经常修改配置文件,而clickhouse大部分参数都是支持热修改的,为了降低修改配置的带来的风险和便于维护管理,我们将默认的配置文件做了如下拆解。
配置文件拆解
users.xml
默认的users.xml可分为三个部分
用户设置users:主要配置用户信息如账号、密码、访问ip等及对应的权限映射
配额设置quotas:用于追踪和限制用户一段时间内的资源使用
参数权限profiles:读写权限、内存、线程等大多数参数配置
为了统一管理权限我们在users.xml预定义了对应权限及资源的quotas及profiles,例如default_profile、readwrite_profile、readonly_profile等,新增用户无需单独配置quotas及profiles,直接关联预定义好的配置即可
users.d/xxx.xml
按不同的用户属性设置user配置,每一个xml对应一组用户,每个用户关联users.xml中的不同权限quotas及profiles
users_copy/xxx.xml
每次有变更用户操作时备份指定属性的xml,方便回滚
metrika.xml
默认情况下包含集群的配置、zookeeper的配置、macros的配置,当有集群节点变动时通常需要将修改后的配置文件同步整个集群,而macros是每个服务器独有的配置,如果不拆解很容易造成配置覆盖,引起macros混乱丢失数据,所以我们在metrika.xml中只保留每台服务器通用的配置信息,而将独立的配置拆解出去
conf.d/xxx.xml
保存每台服务器独立的配置,如macros.xml
config_copy/xxx.xml
存放每次修改主配置时的备份文件,方便回滚
维护各个Clickhosue集群的元数据信息,包含表的元数据信息及Clickhouse服务状态信息,给用户更直观的元数据管理体验,主要有如下功能
生命周期
用户管理
由于我们基于nginx代理的方式对Clickhouse进行均衡读写,同时Clickhouse的配置也是可以热修改的,所以在用户管理及资源控制方面我们直接通过web平台对Clickhosue配置文件进行修改操作。
通过web平台展示users.xml中对应权限的profiles 和 quotas,运维人员只需根据用户属性选择对应的配置填写对应的用户名及自动生成的密文密码即可,不会影响已配置好的权限及资源,同时每次xml操作都会提前备份文件,在xml修改异常时可随时回滚。
用户管理
集群操作
clickhosue管理平台的核心模块,依托于运维作业平台 API封装了一系列的运维脚本,覆盖了集群管理的常用操作。
集群管理
这里以新增节点为例展示整体的流程操作
新增节点流程图
其中较为核心的操作在于install作业的分发及对应的配置生成
分发install作业: 由Clickhouse平台调用运维作业平台服务将预定义的脚本分发到指定节点执行,同时传入用户选填的配置参数。
作业分片install脚本
生成配置文件:通常情况下我们会在一个物理集群分别建立单副本集群和双副本集群,在为新节点生成配置文件时由clickhouse平台从元数据模块获取到新增节点的集群信息,动态生成新增节点的macros与metrika配置,然后将metrika.xml同步到所有集群。
生成配置文件
硬件指标监控
硬件指标监控主要指clickhouse服务节点的负载、内存、磁盘IO、网卡流量等,这里我们依托于monitor监控平台来配置各种指标,当监控指标达到一定阈值后触发报警。
集群指标监控
我们在Clickhouse管理平台中集成了grafana,采用Prometheus采集clickhosue集群信息在grafana做展现,一般的监控指标有top排名(慢查询、内存占用、查询失败 )、QPS、读写压力、HTTP&TCP连接数、zookeeper状态等,当这些指标出现异常时通过alertmanager插件配置的规则触发报警。
grafana监控图
流量指标监控
目前所有对于clickhouse的读写请求都是通过域名代理的方式,通过域名的各项指标能精准且实时的反映出用户最原始的读写请求,当域名响应时间波动较大或者响应失败时我们能在第一时间收到报警并查看原始请求。
在未接入Clickhouse之前,BI的存储库有Infobright、Hbase、ES、druid等,其中主要使用的是Infobright,在千万级别以下Infobright性能出色,对于一些时间跨度较长、数据量级较大的表Infobright就有些无能为力,这种数据我们通常会存放在ES与Hbase中,这样虽然加快了查询速度但是也增大了系统适配不同数据源的复杂度,同时分析师会有直接操作表的诉求,数据存入ES与Hbase会增加对应的学习成本,基于此我们的核心诉求就是:
基于以上诉求我们拿现有的Infobright与TiDB、Doris、Clickhouse做了如下对比。
功能点 | Infobright | TiDB | Doris | Clickhouse |
---|---|---|---|---|
BI适配成本 | - | 低 | 低 | 中 |
学习使用成本 | - | 低 | 低 | 低 |
百万级查询(100w) | 84ms | 24ms | 25ms | 41ms |
千万级查询(1000w) | 1330ms | 332ms | 130ms | 71ms |
亿级别查询(1.1亿) | 57000ms | 16151ms | 3200ms | 401ms |
总体来看Clickhouse的查询性能略高于Doris,而TiDB在千万量级以上性能下降明显,且对于大数据量级下Clickhouse相比Infobright性能提升巨大,所以最终我们选择了Clikhouse作为BI的存储查询引擎。
在评估了目前Infobright中的数据量级和Clickhouse的并发限制之后,我们决定使用单分片 多副本的方式来构建Clickhouse集群,理由如下:
服务器配置:CPU:16 × 2 cores、内存:192GB、磁盘:21TB,整体的架构图如下所示:
BI_Clickhouse应用架构图
在写数据时由taskplus对其中的一台节点写入,如果该节点异常可切换到其他副本节点写入,由写入副本自动同步其他副本。
查询同样用nginx代理三台节点,由于是单分片集群所以查询视图表和本地表效果是一样的,不过视图表会自动路由健康副本,所以这里还是选择查询视图表。
在通过Taskplus将BI的数据源切换到Clickhouse后对于大量级查询性能提升明显
在接入clickhouse之前BI的平均响应时间为187.93ms,接入clickhouse之后BI的平均响应时间为84.58ms,整体响应速度提升了2.2倍,虽然查询速度有所提升但是我们在clickhouse监控日报邮件中仍发现了一些慢查询,究其原因是我们对于应用层的表默认都是以日期字段stat_date分区,而有一部分表数据量级非常小且分区较多如某产品留存表总数据量:5564行,按日期分区 851个分区,平均每天6.5条数据,以下是针对于该表执行的常规group by count查询统计。
功能点 | ck日期分区(冷查询) | ck 日期分区(热查询) | ck 无分区(热查询) | Infobright |
---|---|---|---|---|
query | 12000ms | 220ms | 16ms | 8ms |
由此可见Clickhouse对于多分区的select的查询性能很差,官方文档中也有对应的表述
> A merge only works for data parts that have the same value for the partitioning expression. This means you shouldn’t make overly granular partitions (more than about a thousand partitions). Otherwise, the SELECT query performs poorly because of an unreasonably large number of files in the file system and open file descriptors
针对于这种场景我们想直接创建月或年维度的分区,但是对于增量数据会存在重跑历史等问题,而delete或ReplacingMergeTree都可能造成的数据查询不一致情况,基于此我们在mysql中做了一个中间表,每次增量导入或修改mysql表然后全量更新至clickhouse,不设置分区或不以日期为分区,保证查询的效率和一致性,经过多分区小量级表的优化之后我们的平均响应时间变为到70.66ms,相比未优化前查询性能提升了16%,最终BI的查询响应时间对比如下图所示
BI响应时间对比
由于每日用户行为数据量级已达百亿,传统的离线分析已不能满足业务方的需求,因此我们基于三端数据构建了实时数仓,整体分层架构如下
实时数仓分层架构
clickhouse在其中扮演的角色是秒级别的实时OLAP查询引擎,当我们DWS层的通用维度实时指标不满足用户需求时,用户可以直接通过Clickhouse编写sql查询实时数据,大大降低了实时数据查询门槛。
实时数仓_Clickhouse应用架构图
在数据输入层面我们将用户的行为数据实时关联维表写入kafka,然后由Flink + JDBC写入Clickhouse,为了保证实时查询的稳定性我们采用了双副本结构,用nginx代理其中一个完整的副本,直接对域名写入.同时在程序中增加失败重试机制,当有节点不可写入时,会尝试向其他分片写入,保证了每条数据都能被写入clickhouse。
在数据的输出层面将同样由nginx代理整个集群,对接到客户端工具及与SCF服务,其中客户端工具对接到开发人员及分析师,scf对外提供查询服务。
埋点系统是我们专为埋点管理开发的系统其主要功能有
埋点测试:实时收集测试埋点数并进行格式化校验及解析
埋点系统
在未接入Clickhouse前埋线系统采用MR预计算汇总用户配置的埋点指标,并将结果数据写入Hbase,预计算针对于用户侧来说查询的都是结果数据,响应速度非常快,但是同时也带来一些问题
模型单一不便扩展:只针对埋点的事件模型做流量统计,想要支持其他分析模型必须另外开发对应的计算模型。
埋点系统新建指标
基于此种情况我们直接将埋点系统中用户配置的规则转换为sql,查询Clickhouse中接入的实时多维明细数据,同时针对于埋点系统的使用场景优化了实时明细表的索引结构,依托clickhouse极致的查询性能保证实时埋点统计能在秒级别的响应,相当于即配即出,且能随意修改维度及指标,大大提升了用户体验.由于是基于sql直接统计明细数据,所以统计模型的扩展性较高,能更快的支持产品迭代。
接入对比 | 时效性 | 时间维度 | 计算方式 | 扩展性 |
---|---|---|---|---|
未接入clickhouse | T+1 | 天级 | mr预计算 | 低 |
接入clickhouse | 秒级 | 分钟级 | 实时计算 | 高 |
埋点系统看板
目前Clickhouse主要应用于数据产品、画像、BI等方向,日更新百亿数据,每日百万量级查询请求,持续对外提供高效的查询服务,我们未来将在以下两个方面加强Clickhouse的建设:
1.完善Clickhouse管理平台保障Clickhouse服务的稳定性:
2.优化Clickhouse性能,拓展Clickhouse使用场景: