政府大数据的资源库建设不能等米下锅

做政府大数据项目,基础库的建设是必备的项目,只是基础库的内容一直在变化,各家的理解也不一样,一般会有人口库、法人库、电子证照库、空间地理资源库等。以人口库为例,是按照一数一源原则,将各委办局的人口数据进行融合,为各类应用提供共享共用。不过在资源库建设的过程中,由于各地委办局信息系统既有自建系统,也有垂管系统(市里、省里、部委等),能汇聚的数据情况就有很大差别了。而数据协调的工作往往需要行政推动,不属于项目建设方的范围,因此,一般就会忽视了资源库的设计工作,往往有几张PPT可以介绍资源库的设计意图及参考规范,还有一些历史项目的ER模型,然后就等着甲方去协调委办局数据,来了数据就按照经验将其进行建模。这种方法现在看起来是有些盲目,有点走到哪算哪的感觉,没有提前规划和设计,有意识地去引导客户,有重点地去“找数”,从而建设出预期效果的基础库,以及不同来源的数据,建设的基础库可以发挥的不同作用。比如,人口数据往往是来源于公安,但若协调不到公安,卫健委的人口数据是否可以替代?替代了哪些应用场景就不能支撑?因此,我认为基础库的建设,也需要有设计文档,至少包括以下内容:

  • 基础库的概念模型和逻辑模型。以人口库为例,要有人口涉及的主要实体及其之间的关联关系,包括出生、教育、社保、个税等。
  • 数据来源及加工处理规范。按照一数一源原则,给出每个数据项的权威来源部门以及候选来源部门,不同来源对应不同的应用场景类型。
  • 数据融合规范。基础库的关键是实现不同数据之间的关联打通,人口通过身份证、护照等编码可以关联起不同的数据,设计的时候需要给出关联的优先级、缺失的处理原则(丢弃、标注等)。
  • 应用场景支撑设计。基础库是用来支撑上层应用,政府大数据平台的应用场景无外乎政务服务的数据查验、分析挖掘、可视化展现等,不同场景对于数据的权威性和来源有不同的要求,比如,政务服务应用的数据查验,对于不同数据项有严格的来源要求,但分析挖掘则可以使用多个来源的数据进行替代分析。
  • 应用接口设计。针对不同地支撑需求,设计出不同的服务接口,数据查验是API接口,性能是关键。分析挖掘则最好建立维度模型,提供不同的分析模型。提炼出良好的服务接口,是基础库发挥应有价值的关键,这个过程往往也被忽略,为了省事,一般都是大数据平台按需定制供数接口,对于数据的使用者,基础库的能力就是一个黑盒。

以上是我在建设基础库过程中的一点体会,也正在按照上述的想法逐步推动改善。

你可能感兴趣的:(数据治理,心得体会)