项目描述之ODS(二)


运作数据存储ODS(Operational Data Store),ODS系统是面向主题的、集成的、可变的、数据是最新的或是接近最新的、细节的5个基本特征;是基于某个主题相关一组数据的集合,而不局限在某个应用系统,从业务关联的角度看数据,而不是基于传统的应用角度看数据。

 

 

数据采集(ETL)设计原则
1.基于现有技术,优先采用DataStage作为数据采集工具;
2.使用DataStage进行进行数据采集时,采用落地DataSet文件,供DataStage向ODS写入数据使用,且成功完成ODS数据写入后,将该DataSet文件删除;
3.原则上源系统数据量小于100万Table,采用全量获取方式,并最终Update/Insert到ODS目标表中;原则上源系统数据量大于100万Table,采用增量获取方式,并最终Update/Insert到ODS目标表中;
4.基于时间戳方式进行抓取是,若源系统数据量大于100万Table,根据需要每月月中或每周周日将近期(具体周期依赖该表对应的业务,例如可以三个月前之后的数据,也可以一个月前之后的数据)数据Update/Insert到ODS目标表中,以减少数据漏抓的几率;
5.为减少因业务系统数据删除对ODS的影响,每月月中或每周周日对数据进行比对,将在业务系统中删除的数据在ODS中进行删除处理;
6.原则上一个主题一个DataStage Project(工程),Project下来自不同系统采用不同Category进行划分。

你可能感兴趣的:(个人情感)