Doris实战——特步集团零售数据仓库项目实践

目录

一、背景

二、总体架构

三、ETL实践

3.1 批量数据的导入

3.2  实时数据接入

3.3 数据加工

3.4 BI 查询

四、实时需求响应

五、其他经验

5.1 Doris BE内存溢出

5.2 SQL任务超时

5.3 删除语句不支持表达式

5.4 Drop 表闪回

六、未来展望


  原文大佬的这篇Doris数仓建设案例有借鉴意义,这里摘抄下来用作学习和知识沉淀。如有侵权等告知~

一、背景

   特步集团有限公司是中国领先的体育用品企业之一,为了提高特步零售BI主题数据分析的准确性和时效性,2020 年11月特步集团首次引入了Doris进行数据仓库搭建试点。在项目实践过程中,遇到了很多困难,也解决了很多问题,这里总结出来分享给大家。

二、总体架构

   在特步零售数据仓库的项目中,抛弃了传统的Hive离线数据处理模式,基于Doris 集群完成接口数据的接入、数仓层的建模和加工、以及BI报表的即时查询。

   先展开说明一下这样设计的原因。在前期的项目经历中,既有过基于 Hive+Greenplum 搭建卡宾零售 BI 项目的经验,也有基于Greenplum+MySQL 搭建斐乐 BI 项目的经验,还有基于 Hive+Doris 的安踏户外BI项目经验,得到的结论有:

  ①MPP架构

你可能感兴趣的:(#,Doris,大数据,大数据,数据仓库)