数据仓库工作日记_记录(二)-数据治理上

数据治理,也是找我来接这个项目的最初原因。数据治理嘛,说的很清楚了,治理一下数据仓库里面的数据。主要问题集中在几个点,只是在不同地方的体现方式不同:

  1. 数据表多,但有些表的数据已经不再更新了,需要下线,以免造成混淆,误用。
  2. 不同表内,有同名的字段,但数据内容却不相同。
  3. 数据字段的说明相同,但内容也存在不相同的情况。
  4. 经过加工处理的数据,没有知道数据的处理逻辑,无法判断用途。
  5. 其他各类问题。

先来说说ODS,在这里吐槽第一次,业务系统给数据文件,不给表结构,不知道数据类型,我们只能自己猜了,经过了无数次报错之后,ODS终于可以把数据都加载进来不报错了。在稳定运行了半个月后,ODS又报错了,原因是上游系统改表结构了,字段超长,我只能吐槽第二次。

不过,ODS本来就没有处理,也就没有那么多可以报错的地方,现在来说说DW。

  • 表结构,当时开发的人,你既然不会设计模型,照抄ods,你就不能抄的好一点?为什么ODS有20个字段,你就抽取了18个过来,然后业务需要用,找不到,那两个让你吃了?吐槽第三次。
  • 数据类型,为了避免重复ODS出现的问题,搞DW的人变聪明了,数据长度比ODS还大,但是!!!ODS都报错了,DW的数据类型再宽泛也没用啊,吐槽第四次。
  • 字段名了,表一里客户号叫cus_no,表二就叫cusno了,这是要闹怎样啊,让不让别人开发了,吐槽第五次,然后直接吐槽第六次,国籍里面插入的是邮政编码,程序注释写的是"国籍字段找不到了,拿这个代替",而且这种情况还是普遍情况。

DW虽然通常涉及到主题划分等需要设计的点,但能搞出这么多问题来,也五体投地了。不过,还好这个圈子比较小,打听了一下,又是那个以不变应万变的原因,当时时间紧,就不到半年的时间,就要求数据仓库及其所有应用一起上线,所以就这样了。

 

你可能感兴趣的:(数据仓库工作笔记)