在大数据平台上实现数据治理服务分库分表的实践记录

之前基于大数据平台实践过几个项目,近期在新的公司要实现一个数据治理的分布式服务平台,把项目的部分实践经验记录并分享一下。

此项目的一部分服务实现了一级经分、一级电渠、一级能开及DPI海量数据的汇聚与统计。技术方案是对离线隔天数据进行治理。通过ETL实现了离线数据加载和异构的调度,其中整个数据治理服务流程用到了分库分表,分为ODS库、DW库、MK库和APP库。

ODS库存储的是源数据;DW库实现对源数据的清洗,去除异常数据与不符合应用场景的数据;MK层实现对有效数据的关联和加工;APP层放的是最终数据。

划分不同库在业界又被称为垂直划分,好处一是业务逻辑清晰;二是可以对不同库的数据进行分级管理、维护、监控、扩展等;三是可以在一定程度上提升IO、数据库连接数、硬件资源的瓶颈。

新公司实现的数据治理服务主要用于数据的统计与分析,这里还用到了根据日期进行水平分表,它将原本逻辑上属于一体的数据进行了物理分割,加快了数据的处理速度。

当然,分库分表只是一种手段,如果想应用的有效还得结合具体的应用场景。

你可能感兴趣的:(笔记)