上海太保P05项目——项目开发的整体理解

  项目目标:按照IW模型为太保的业务系统建立数据仓库。

  现实描述:业务系统是由很过个数据组成,有Informix,Oracle,DB2数据库和一些平面文件,太保目前总共有16个业务系统,对应16个数据库。
  生产库是Oracle数据库。
  生产库是所有业务系统在业务工作中所产生的数据的存储。
  数据抽取人员用脚本把业务系统的数据抽取到生产库里(ORACLE),DS开发流程就从生产库开始。
  系统上线的状况就是,有一套专门的数据抽取程序,完成业务系统到生产系统的数据导入功能。有一套EDW系统,完成对增量数据的处理。有一套报表生成系统,对数据仓库产生结果报表。

   IIW模型:比利时一家保险公司针对全球两百多家保险公司做的一套数据仓库模型。

  IIW组:负责解释IW模型。IIW模型是一套专门业务模型,需要专门从事研究IW模型才能理解IW模型是什么东西。

  Mapping组:按照IIW模型编写从业务系统到数据仓库目标系统之间的数据映射规则。Mapping组的工作方式是对IW模型与原有的业务系统需要有一定的理解,不断与客户交流,按照IW的模型来编写映射规则。规则的编写与跟客户交流的互动进行。

  数据抽取:从业务系统把数据抽取到生产库中,这个过程对数据进行最初的清洗与转换。在业务系统中,有些数据是DS取不到的,因此需要有数据抽取环节。客户提供业务系统数据的形式有两种,一种是开放数据库,一种是提供增量文件。流程的最终结果是把所有的数据都保存为EXF平面文件,这些EXF文件就是DS开始时所使用的增量文件(左表)。

  DS开发组: 按照Mapping的规则实现从业务系统到数据仓库目标表的数据导入。所有DS开发,其功能都是完成对所有的业务系统的所产生的增量数据的处理。所以开发流程的核心是从业务系统得到一个数据文件(左表),用这个数据文件左联生产库(右表),从而分离出旧数据和新数据(即增量数据),并根据Mapping对不同类型的数据进行处理。

  增量数据的处理方式:
        1、不作任何操作。
  2、保留增量记录。
        3、保留增量记录并且做更新(update)

  项目风险:
  1、没有人对IIW模型的理解能够十分透彻,至少说只有极个别的人(专门研究IW模型的人)是对模型理解到位的。
  2、太保的业务系统早已完成,对系统最数据的人员(业务系统开发人员)已经不知去向,造成需要我们自己对业务系统解读理解,并且需要找出业务系统中的字段所对应IW模型中的字段,工作量非常巨大。项目团队单单是理解业务系统的数据结构就花了将近一年的时间,而且对比目标字段还有些出入。

你可能感兴趣的:(数据结构,oracle,数据库,工作,数据仓库,Informix)