Hadoop中ETL需要考虑从哪几方面入手

1、业务数据库数据是否所有字段均为有效字段,是否需要全表所有字段抽取?

2、如没有明显的分区字段,比如时间。可采用全量抽取

3、如有明显的分区字段,可对接相关数据库开发管理员了解增量字段的选择,除此之外,如遇到状态字段,也需结合判断

4、确定建立分区,就要考虑增量抽数量级或者时间范围,因实时业务变动大,可能会存在补数行为,一般是热数据会出现这种情况。这样会导致数仓采集层数据比业务数据库数少。可传入一个时间参数,或者传入一个时间范围段。判断增量抽取热数据,稳不稳定,尽量确保其稳定性

5、判断是否是冷数据。如果是,且是补充历史数据,且量级大,则需要考虑是否采用压缩表。其中,要考虑两种情况,第一种,历史数据使用频次低,那么可采用直接压缩存储gzip;另一种,历史数据使用仍频繁,那么就需要采用可进行分区操作的压缩方式。

6、增加一个当前日期字段,以便判断调度是否有效执行

7、重复调度同一个时间范围作业时,考虑重复抽取时采用的是覆盖还是递增?

你可能感兴趣的:(Hadoop中ETL需要考虑从哪几方面入手)