数仓ETL代码优化 - 找到经常在一起做JOIN的表

优化案例

假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。

-- 任务 1
select t1.*, t2.*
from table_a t1
join table_b t2
on t1.id = t2.id ;
-- 任务 2
select t1.*, t2.*, t3.*
from table_a t1
join table_b t2
on t1.id = t2.id
left join table_c t3
on t1.id = t3.id ;
最终落地 效果如图

数仓ETL代码优化 - 找到经常在一起做JOIN的表_第1张图片

  • 经常在一起做关联的表,可以更加的高内聚、低耦合,专表专用。
  • 建立中间层,让代码冗余变少,提高调度效率、减少资源使用。
实现代码 Code

你可能感兴趣的:(集群运维,数据仓库)