Hive-清洗出最新一个分区中新增和变化的数据

背景:

大数据清晰后的大量数据(明细数据)同步到接口或者业务端使用


问题描述

每次全量同步费时又费力


解决方案:

将hive数仓中最近两个分区的数据取新增和变化后,同步到目标表中(支持更新)即可

涉及hive关键字:

row_number() over

整体思路:

  1. 将两个分区读取出来,然后row_number() over (主键分区 分区的处理时间 pro_time) num
  2. 取新增和变化
    • 新增:num = 1 and pro_time为新
    • 变化:num>1 and pro_time为新

你可能感兴趣的:(hive,大数据)