数仓ETL代码优化 - 表字段 被过滤和聚合的次数

优化案例

假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。

-- 是否可以将埋点里 搜索相关的 整合成一张表
select *
from app_event_tracking
where op_type = '搜索'

-- 是否可以将每日的用户下单情况 整合成公共层表
select
  user_id, ...
from order_item
where create_date = 'yesterday'
group by user_id
最终落地 效果如图

数仓ETL代码优化 - 表字段 被过滤和聚合的次数_第1张图片
数仓ETL代码优化 - 表字段 被过滤和聚合的次数_第2张图片

  • 通过找到经常做过滤或者聚合操作的字段,结合维度建模星型模型的理论,不断优化数仓建模结构
  • 建立中间层,让代码冗余变少,提高调度效率、减少资源使用。
实现代码 Code

你可能感兴趣的:(数据仓库,集群运维,Hive)