数据参考模型的目标是通过标准的数据描述、通用数据的发现以及统一的数据管理实践的推广使得联邦政府实现跨机构的信息共享和重用。数据参考模型的适用范围很广,它可以用在一个机构内部,也可以用在某一个利益共同体(COI,Community of Interest,指的是一组为了实现共同利益和目标而相互合作的人或组织,而为了达成这一目标,他们需要一个共享的词汇表来实现信息共享)内或不同利益共同体之间。为了实现这一目的,数据参考模型采用了一种灵活的且基于标准的方式对数据的描述、分类和共享进行定义,因而数据参考模型的内容被划分为如下三个标准领域:
DRM标准领域及其关系
数据参考模型作为一个参考模型为各机构提供了一套抽象的框架,而对于其具体实现就由各机构在符合参考模型原则的基础上自行决定了,从而为各机构对于数据方面的描述提供了巨大的灵活性。此外,由于各个机构可以将组成其数据架构的各种元素与该抽象框架相关联,从而使得原本隔绝的不同机构在数据方面得到了沟通途径,促进了不同机构之间的互操作。此数据参考模型所使用的抽象框架模型如下所示:
DRM抽象模型
数据参考模型的抽象模型为各机构用来进行信息集成、互操作、发现和共享的数据架构的优化提供了一套架构模式。为了达到这个目标,该抽象模型对数据架构概念元素以及他们之间的关系进行了明确定义,并且针对每个概念元素此抽象模型还分别定义了一系列的通用属性。此抽象模型按照上述三个标准区域被划分为三个部分,分别用于包含与这三个标准区域相关的概念元素及其关系。需要注意的是,由于这三个标准相互关联,因而上图所示的一些概念元素会出现多次,但是只有具有实线边框的概念元素才是其真正的定义,而虚线边框的概念元素则用来表示从其他标准区域“借用”而来的意义。
除了抽象模型之外,数据参考模型还包含了对于数据在安全和隐私方面的考虑。数据参考模型强调了在这三个标准区域中都需要遵循安全和隐私方面的策略,并允许现存的联邦安全和隐私策略被应用到这些标准区域中。
数据描述标准区域的目标是为利益共同体提供关于数据结构(语法)和意义(语义)的共识。为了达成这一共识,利益共同体需要基于数据参考模型在这一标准区域中的内容创建各种相关的数据描述制品。关于数据标准领域的内容都已被定义在DRM抽象模型的相关部分中:
DRM数据描述模型
这一数据描述抽象模型在一个高度抽象的层次上对数据描述标准领域中涉及到的各种制品进行了抽象。从上面的数据描述模型中我们可以看出,数字数据资源(Digital Data Resource)可以分为两大类:
按照OMB的数据参考模型中所述,这一部分模型中所涉及到的各种概念元素定义如下:
数据模式描述了一个结构化数据资产。与数据资源类似,数据资产也是一个信息容器,只不过它指代的是一个托管容器(managed container),在大多数情况下指的是关系数据库,当然它还可以代表网站、文件资源库、字典或者数据服务。
实体(Entity):针对现实世界中客观事物的抽象。实体与其它概念元素之间具有如下关系:
数据上下文用于为数据添加与其被使用和创建的目标相关的意义,从而便于具有不同视角的数据消费者对于数据的发现和使用。经过数据描述的定义,利益共同体内或者他们之间对于数据的描述将会产生共识,但是这并不意味着具有不同视角的数据消费者就对所有的数据实体或者数据实体的所有属性都关心,甚至即便是针对某个数据实体的实例数据,不同的数据消费者由于其视角的不同也可能只对其中部分实例数据感兴趣。举例来说,假设一个名为“人”的实体,它对人进行了抽象并在利益共同体内根据所有参与者的共识定义了符合所有数据消费者要求的属性,但是在使用过程中,可能有更关注于商业行为方面的数据消费者从顾客的角度来看待人,因而对他来说诸如头发颜色之类的信息并不一定关注,而对于执法机构方面的数据消费者却不然。由此我们可以看出,数据可以根据不同的方式进行分类,而针对分类方式的描述和定义就构成了“数据上下文”。除了关于数据的分类划分这一核心概念,在数据参考模型中数据上下文相关的各种制品至少要能回答如下几个具体问题:
数据上下文的定义实际上就是针对数据使用背景的分类法的定义。虽然用来进行分类的角度纷繁复杂,但是本质上来讲不论何种分类法都可以通过结构化的方式进行表述,而这也为不同团体之间对于分类法的语义和语法的获得共识提供了基础。借由经过结构化表述的分类法定义,数据消费者可以识别符合自己要求的数据资产是否存在,并检测其包含的数据是否符合他对信息的要求。站在数据上下文的角度,其实前面讲述过的各个参考模型也是一种分类方法,因而数据上下文也可以看成是联系数据参考模型与其他参考模型的桥梁(例如,可以将数据按照不同的业务线或子功能进行划分,从而将数据参考模型与业务参考模型结合在一起)。
DRM数据上下文模型
上图展示了数据参考模型的抽象模型的数据上下文部分,它对数据上下文相关制品进行了定义。从图中可知:
按照OMB的数据参考模型中所述,这一部分模型中所涉及到的各种概念元素定义如下:
主题(Topic):分类法中的一个分类,它是为数据赋予上下文的核心概念元素。主题与其它概念元素之间具有如下关系:
在定义了数据描述和数据上下文之后,利益共同体就需要把精力放在规划和实现信息访问及相互交换方面上面,而在数据参考模型中数据共享标准区域为这一方面能力的实现提供了参考。所谓信息互交换通常是指在信息生产者和信息消费者之间所存在的相对固定且时常发生的信息交互过程,而针对信息的使用除了这种互交换的方式外,作为信息源的信息生产者往往还需要对外提供各种信息访问接口和服务,从而为各种不确定的外界信息消费者提供信息访问的能力,而这种通过各种信息访问接口和服务而获取信息的能力就是信息访问能力。
数据提供和使用矩阵
如图可见,在信息交换和信息访问之间,除了前者一般是经常性或周期性地发生,而后者的发生则更具随机性之外,他们之间最大差别还在于信息交换对于参与双方在交换发生前就已经得到了明确,而信息访问则只是数据生产者提供信息访问的接口和服务,而对于数据的消费者却并不明确,即前者更加主动,而后者则采用了被动方式。不过无论是信息交换还是信息访问,他们都是在不同的数据资产之间进行的信息共享过程,因而要对这些信息共享方式进行归纳和建模,首先需要明确参与信息共享的各种信息存储系统。为了这些系统,数据共享标准领域采用了数据提供和消费矩阵(data supplier-to-customer matrix),从而将用于存储信息的各种数据资产进行了归纳整理。此矩阵从两个维度将参与信息共享的数据资产分为四种:
通过数据提供和消费矩阵针对上述四种数据系统的归纳,我们可以将数据交换和数据访问进行更进一步的具体化:
数据交换服务 |
数据提供者 |
数据消费者 |
抽取、转换和加载 |
事务数据库 |
事务数据库 |
事务数据库 |
分析数据库 |
|
事务数据库 |
著作系统 |
|
分析数据库 |
事务数据库 |
|
分析数据库 |
分析数据库 |
|
分析数据库 |
著作系统 |
|
著作系统 |
事务数据库 |
|
著作系统 |
分析数据库 |
|
发布 |
事务数据库 |
文档信息库 |
分析数据库 |
文档信息库 |
|
著作系统 |
著作系统 |
|
著作系统 |
文档信息库 |
|
实体/关系抽取 |
文档信息库 |
事务数据库 |
文档信息库 |
分析数据库 |
|
文档翻译 |
文档信息库 |
著作系统 |
文档信息库 |
文档信息库 |
访问服务 |
事务数据库 |
分析数据库 |
著作系统 |
文档信息库 |
上下文获知服务 |
√ |
√ |
√ |
√ |
结构获知服务 |
√ |
√ |
√ |
√ |
事务服务 |
√ |
× |
√ |
× |
数据查询服务 |
√ |
√ |
× |
× |
内容搜索和发现服务 |
× |
× |
√ |
√ |
检索服务 |
× |
× |
√ |
√ |
订阅服务 |
× |
× |
√ |
√ |
通知服务 |
√ |
× |
√ |
√ |
通过上述的关于数据系统的分类,以及针对他们之间进行信息交换和对外提供信息访问能力所需的各种服务的描述,利益共同体可以将各种数据资产和进行信息共享所需的各种服务进行分类总结,从而明确企业数据架构中关于信息共享这部分的内容。与数据描述和数据上下文一样,数据共享中所涉及到的各种制品的定义也体现在了数据参考抽象模型的数据共享部分:
DRM数据共享模型