目录[隐藏]
|
本规范面向数据应用环境的数据资源整合,规范化元数据研制和应用的流程模型,主要包括调研分析、方案制定、系统建设和应用服务等方面,特别是规范化了元数据的格式、语义、语法、注册、一致性测试和评估完善等,以实现元数据方案的规范化,以及基于不同元数据方案的数据之间的互相访问、内容交换和整合集成。
本规范适用于中国科学院数据应用环境建设与服务项目中元数据的研制和应用。
具有身份标识的任何对象。
例如,数据集、服务、人员或机构等。
[GB/T 20533--2006,定义3.27]
可以识别的数据集合。
[ISO 19115,定义4.2]
本规范中,数据集指中国科学院数据应用环境建设与服务项目的主题数据库、参考数据库、专题数据库、专业数据库及其各级子库。
注:通过对诸如覆盖范围或者属性类型的限制,数据集在物理上可以是更大数据集中的一个比较小的数据组。
包含数据内容的一个逻辑的或物理的存储单元。
例如,文本文件、关系数据库数据表、电子表格、GIS图层等。
注:一个数据集可能由一个或多个数据实体组成。
[GB/T 20533--2006,定义3.6]
以反映信息结构的某种方式对数据组织描述。
[GB/T 18391.1,定义3.23]
注:数据模型指明数据的属性、结构和内在关系。
关于数据的数据。本规范中,具体指描述数据及其环境的数据。
元数据的基本单元。
[GB/T 19710--2005,定义4.6]
与某一元数据模式相符的某一具体数据资源的元数据。
[GB/T 20533--2006,定义3.8]
一组说明数据相同特性的元数据元素。
[ISO 19115,定义4.7]
注1:可以包含一个或多个元数据复合元素。
元数据的子集合,由相关的元数据复合元素和元素组成。
[ISO 19115,定义4.8]
提供语境信息或句法分析规则,以帮助对元数据元素的值进行解释的受控词表或者格式规范。
[GB/T 20533--2006,定义3.14]
注:编码体系包括词汇编码体系和句法编码体系。
作为元数据元素值域的受控词表。
例如,汉语主题词表、世界各国和地区名称代码表等。
[GB/T 20533--2006,定义3.15]
元数据元素的值在格式上遵从的正式表示法。
例如,“2000-01-01”作为日期的标准表示。
[GB/T 20533--2006,定义3.16]
有效值域和允许对该值域内的值进行的合法操作的规定。
例如,整型、实型、布尔型、字符串、日期以及本标准中自定义的数据类型等。
注1:数据类型包括基本预定义类型和用户定义的类型。
注2:数据类型用术语标识,例如整型。
[GB/T 20533--2006,定义3.18]
允许值的集合。
[GB/T 18391.1,定义3.75]
注册元数据的信息系统。
[GB/T 20533--2006,定义3.12]
元数据参考模型面向数据应用环境的数据资源整合,立足于元数据研制和应用等全流程的规范化,从调研分析、方案制定、系统建设和应用服务四个关键环节,规范化了元数据的结构、格式、语义、语法、注册等内容,实现了据向数据应用环境中元数据工作的规范化,以及不同元数据方案对数据互相访问、内容交换和整合集成的支持。
元数据参考模型
调研分析是元数据工作的起始点,直接关系到元数据成果的实用性,所以在该阶段主要完成各方需求的掌握和客观分析,为方案制定奠定基础。
方案制定则基于调研分析的结果完成方案的研制,并通过结构化定义、规范化文档实现元数据方案的规范表达,且针对数据交换和集成的需求将元数据方案注册到开放的系统中。
系统建设主要实现元数据管理系统设计开发、实用评估和完善,并最终发布后服务。
应用服务主要包括元数据服务、扩展方案和元数据映射规范,以支持灵活多样的元数据应用需求。
一致性测试则是保证系统建设和应用服务在采用元数据方案方面的一致性所应实现的功能要求,是元数据方案得以贯彻执行的保障。基于元数据方案实现的系统建设和应用服务有可能为非方案研制方承担,所以系统建设和应用服务等环节的执行过程中应通过本一致性测试,以确保符合本规范的要求。评估完善则基于系统建设和应用服务,特别是应用服务的效果,对元数据方案进行评估和完善,提升元数据方案的效用。
调研分析是元数据工作的起始点,直接关系到元数据成果的可用性和实用性,所以在该阶段主要完成各方需求的掌握和客观分析,为方案制定奠定基础。
调研分析的主要内容是全面掌握需求,以及现有业界成果,并在深度分析二者的基础上给出相应元数据工作的建议方案。
元数据研制人员与内容专家、领域用户进行深入沟通,通过与有关人员的接触、访谈,了解该工作的背景、目的、需求、目标等信息,掌握各方对数据资源元数据的需求,主要包括:
了解元数据需求后,应调研和分析同领域内当前元数据方案的建设情况,并对现有标准及其应用情况进行详细分析,评估其对当前需求的满足程度。在标准分析时,应从适用对象(资源类型、学科)、功能等方面综合考虑,归纳总结出其对当前需求的满足程度与不足。而应用分析则重点在于发现标准规范在用户应用时的发现、总结和反馈,辅助充分了解标准对当前需求的满足情况。同时,在研究中还应了解本学科领域其元数据的应用趋势和议题,以作为未来实施与发展的参考。
此步骤分析的成果,将有助于了解与其它同质或相似标准规范间的差异,取长补短藉此以完善需求、目标。
融合领域现有标准规范及其应用的分析研究成果,在元数据制定工作展开前应更深入的对需求进行分析,适当扩大沟通对象范围,与领域专家、用户和系统设计人员进行深入的交互,充分了解各方面的需求,为元数据制定奠定良好基础。
深入分析阶段经过与更大范围有关人员的交互,将获得如下信息:
利用之前的研究发现,根据需求所发展的元数据内容应当尽可能的与现有的元数据方案在内容上兼容,支持基于此元数据方案的元数据能够在更大范围与其他元数据实现数据交换和互操作。
方案制定则基于调研分析的结果完成方案的研制,并通过结构化定义、规范化文档实现元数据方案的规范表达,且针对数据交换和集成的需求将元数据方案注册到开放的系统中。
根据“调研分析”的成果,实现元数据方案制定所涉及的全部内容,至少应包括以下内容:
元数据方案制定完成后,应当再次与领域专家、用户和系统设计人员进行深入的交流,征求上述人员对该标准规范的意见,并努力就内容及其细节等达成共识。
当存在需要对标准进行必须完善的意见时,应根据共识意见把对标准规范进行相应的修订完善,有必要时可对标准进行再次的意见征求和修订完善。
为了推动标准在更大范围内的应用,提高标准的应用质量,特别是控制和保证元数据记录的质量等,应当制定系列应用指导性规范,帮助用户理解和使用标准有关的内容,包括元数据元素定义、著录原则、著录范例,以及元数据服务过程中计划供应用标准的检索元素表与参考数据等。
应用规范应同时兼顾标准管理系统的设计与实施,在元数据管理系统的设计和开发过程中为系统分析人员和设计人员等提供重要参考。
元数据在定义中应当包含以下几个方面的内容:
对于元数据的元素(复合元素)定义方法,推荐采用与Dublin Core大体一致的方法,即采用ISO/IEC 11179-3标准,通过中文名称、英文名称、标识、定义、数据类型、值域、可选性、最大出现次数、注解九个属性来描述元数据。
必选 (M)
表明该复合元素或元数据元素必须选择。
可选 (O)
根据实际应用可以选择也可以不选的复合元素或元数据元素。
可选复合元素可以有必选元素;但这些元素只当可选复合元素被选用时才成为必选的。如果一个可选复合元素未被选用,则该复合元素所包含的元素(包括必选元素)也不选用。
条件必选 (C)
说明该选择复合元素或元数据元素的条件,当该条件满足时,至少一个元数据复合元素或元数据元素必选。“条件必选”用于以下三种可能性之一:
——表示在2或2个以上复合元素或元数据元素中进行选择。至少存在一个复合元素或元数据元素必选。
——当已经选用另一个复合元素或元数据元素时,此复合元素或元数据元素为必选。
——当另一个元数据元素已经选择了一个特定值时,此元数据元素为必选。
规范化引用等为选择使用内容,当存在应用的必要时应该在标准中定义上述内容,当然对于上述没有涉及的内容需要在标准词汇及其约束前定义的内容,也应该根据情况予以说明或定义。
此外,还应该根据实际需要,在标准中为用户提供编码体系、编码语言、句法描述语言等方面的内容。
为了使所定义的标准规范具有更灵活的适应性,元数据一般地都包括相应的扩展和制定元数据应用方案(Application Profile)的规则。本参考模型针对数据应用环境元数据扩展和制定元数据应用方案的需要提供了普适的系列规则,所以在定义具体标准时不需再单独提供上述规则,只需参照本参考模型对应内容即可。如若对现有规则有所补充,可以仅增加补充的内容;但若有修改,则应明确所修改的内容。
标准内容的字典表是上述内容之外的一项选用内容呈现方式,用表格的方式将前面定义的内容复合元素、元素及其约束、关系以表格的形式呈现给用户。
元数据方案最终应当以文档的形式呈现给用户,故在参照GB/ T1.1-2000《标准化工作导则 第1部分:标准的结构和编写规则》的基础上确定了标准文档书写规范用于指导、规范化元数据文档的工作。
元数据应包含的内容要素如表1所示。
要素类型 | 要素编排 |
概述 | 封面 目次 前言 引言 |
正文 | 名称 1 范围 2 规范性引用文件 3 术语和定义 4 符号和缩略语 5 要求 6 元数据模式 7 元数据 8 定义与元数据有关的其它章。 |
附录 | 附录A 元数据数据字典 附录B…定义元数据有关的其它附录 |
参考资料 | 元数据制定过程中的参考资料 |
注:黑体表示元数据必备要素,正体表示元数据可选要素
元数据数据字典作为标准的规范性附录,通常表现为表格形式。数据字典有助于清晰地定义每一个元素、复合元素、代码表,方便读取元数据定义和描述信息。表2是元数据数据字典描述示例:
序号 | 中文名称 | 英文名称 | 标识符 | 定义 | 数据类型 | 值域 | 约束/条件 | 最大出现次数 | 注释 |
---|---|---|---|---|---|---|---|---|---|
1 | 元数据 | Metadata | metadata | 定义生态科学数据的元数据的根元素。 | 类 | 第2-11行 | M | 1 | |
2 | 角色名称:标识信息 | Role name: Identification Information | identInfo | 元数据描述的数据资源(数据集或数据集系列)的基本信息。 | 关联 | 标识(A.1.2) | M | 1 | |
3 | 角色名称:数据质量信息 | Role name: Data Quality Information | dqInfo | 数据资源的质量评价信息。 | 关联 | 数据质量(A.1.3) | O | N |
注:数据字典对每个元数据元素的中文名称、英文名称、标识符、定义、数据类型、值域、约束/条件、最大出现次数、注释等九个属性进行了完整说明。
在数据字典中,对于复合元素和数据元素的约束/条件属性,用“M”表示必选,“C”表示条件必选、“O”表示可选;对于复合元素和数据元素的最大出现次数,只出现一次用“1”表示,不固定次数的重复出现用“N”表示,允许不为1的固定出现次数,并用相应的数字(即“2”、“3”、……)表示。
修订完善后的元数据方案应当通过有效途径、网站注册发布,以促进元数据方案在更大范围内被传播、接受认可和使用,以及支持基于不同元数据的元数据之间的交换、互操作和共享。
元数据注册需要根据注册系统的要求,把标准的内容“注入”到系统中,具体的注册方法和手段需参考相应元数据注册系统的要求和指导。
系统建设主要实现元数据管理系统设计开发、实用评估和完善,并最终发布后服务。
元数据制定完毕后,应发展相应的元数据管理系统。系统开发任务在于开发与标准规范相一致的元数据系统与工具。开发前及期间,为保证系统设计和实现的针对性和有效性,主题计划、元数据及系统发展者之间的参与成员,应持续交流与讨论意见。
系统雏型完成后,系统设计开发人员应邀请元数据有关工作人员、用户等相关人参与系统的试用和测试,并要求测试人员和试用者完成相应的试用评估情况说明,供系统人员修正完善系统参考。
系统在参考测试和试用意见的基础上完善后,经有关系统建设领导认可后可以对用户发布,同时还应为用户提供全方位的技术支持,协助用户解决安装过程中遇到的各种问题,以及指导用户试用系统完成元数据内容的著录、管理和网络发布。
应用服务主要包括元数据服务、扩展方案和元数据映射规范,以支持灵活多样的元数据应用需求。
元数据服务主要通过方案的外向普及,或者管理系统的应用推进,实现基于元数据方案的元数据服务。元数据扩展方案和数据映射则是在原方案基础上的高级应用,二者各有所重,内容自成特点。
数据资源学科广泛、类型复杂的特点,决定了不可能只制定一个元数据就可以描述所有的科学数据集,而是需要建立多个元数据。通常由于资源和需求的多样性导致某个元数据对于应用需求“过剩”或(及)“不足”,因此需要根据应用对该标准定义的元数据和其关联结构进行定制裁剪,以及(或者)补充元数据。
应用方案包括元数据的定制和扩展两个方面的内容。
元数据的定制是根据应用需求,从原标准定义的元数据复合元素和元素中去除掉不需要的复合元素和元素。在裁剪之前,必须认真分析应用需求,并仔细地查阅原标准中现有的复合元素和元素。通过将应用需求与原标准中的复合元素和元素进行比照,保留应用需求所需要的复合元素和元素,而舍弃不需要的复合元素和元素。
在进行元数据定制裁剪时,可以灵活地采用从上向下的遍历策略或者从下向上的遍历策略选择需要的复合元素和元素,并删除不需要的复合元素和元素。
元数据裁剪的原则是如果一个复合元素被删除,则意味着其所包含的复合元素和元素皆被删除。反之,如果一个复合元素或被保留,则其所在的元数据复合元素也应保留。
元数据的开展是现有标准不能满足应用需求时,在现有标准的基础上适当增加内容对象实现需求的方法。在扩展之前应认真分析应用需求,并仔细地查阅原标准中现有的复合元素和元素。通过将应用需求与原标准中的复合元素和元素进行比照,保留应用需求所需要的复合元素和元素,并在适当的位置增加适合的内容对象。
允许下列扩展类型:
可以遵循以下这个包括10个步骤的方法来制定元数据应用方案。下图展示了元数据应用方案的设计流程。
元数据应用方案流程
步骤1:分析元数据需求,并全面检查原标准中的元数据复合元素和元素
首先要分析元数据要描述的资源对象是什么,描述的粒度有多大,明确元数据描述的对象数据集所属的学科专业、资源类型以及其他资源特征。结合分析结果,仔细检查原标准现有元数据复合元素和元素。这种检查不仅应该覆盖元数据复合元素和元素的名称,而且覆盖其定义、数据类型、可选性、值域、最大出现次数以及注释等,以确保对原标准所做的扩展都是符合扩展规则的。
方法:
步骤2:定义新的元数据子集
如果现有子集不能从总体上满足需求,而且确定无法通过扩展其中任一子集来满求,确实需要创建一个新的元数据子集,可以定义一个新的元数据子集。
为了使数据应用环境系统元数据都保持一致的风格,应依据5.2节元数据定义规范中规定的数据元素属性对新增子集进行定义,既需要依次定义该新建子集的中文名称、英文名称、标识、定义、数据类型(对于子集来说,其数据类型为“复合类型”)、值域、可选性、最大出现次数、注释等方面的属性。
方法:
步骤3:定义新的元数据复合元素
如果现有元数据复合元素不能满足需求,而且确定无法通过扩展其中任一复合元素来满足需求,这种情况下,可以定义一个新的元数据子复合元素来满足应用方案的特定需求。
为了使数据应用环境系统元数据都保持一致的风格,应依据4.3节元数据定义规范中规定的数据元素属性对新增复合元素进行定义,即需要依次定义该新建复合元素的中文名称、英文名称、标识、定义、数据类型(其数据类型为“复合类型”)、值域、可选性、最大出现次数、注释等方面的属性。
方法:
步骤4:定义新的数据元素
如果现有数据元素不能满足需求,而且确定无法通过扩展其中任一数据元素来满足需求,这种情况下,可以定义一个新的数据元素来满足应用方案的特定需求。
为了使数据应用环境系统元数据都保持一致的风格,应依据4.3节元数据定义规范中规定的数据元素属性对新增数据元素进行定义,即需要依次定义该新建数据元素的中文名称、英文名称、标识、定义、数据类型、值域、可选性、最大出现次数、注释等九个方面的属性。
方法:
步骤5:限制复合元素/元素的可选性
某个现有复合元素/元素可以满足需求,但是应用方案需要对其可选性进行更严格的限制,即将其可选性由可选改为必选。若确定进行此改动,则进行步骤10。
步骤6:创建新的代码表
某个现有元素可以满足需求,但是,需要对其值域进行限制,而现有的代码表都不能满足需求,需要定义一个新的代码表来满足应用方案的特定需求。
如果新定义的代码表以某一国家或国际标准为依据,应注明该依据;如果新定义的代码表无据可查,则应在代码表中设置一栏,用来说明每个代码元素的含义。进行步骤10。
步骤7:定义新的代码表元素
某个现有元素可以满足需求,但是需要将作为其值域的代码表进行扩充,这时应该参考现有代码表元素定义新的代码表元素。
扩充后的代码表必须与扩充前的代码表在逻辑上保持一致,必须是原代码表在逻辑上的一个扩展,否则,则可能是该元素的值域不适宜扩展,应该返回步骤1。
为了准确无误地将新定义的代码表元素反映到应用方案的文档中,进行步骤10。
步骤8:缩小元素的值域
某个现有元素及其值域可以满足需求,但是应用方案中所需该元素的值域只是本标准中所规定值域的一个子集。
方法:
步骤9:去除某些可选元素 在确信核心元数据中的某个可选元素确实不为应用方案所针对的数据资源所需要的情况下,可以不在应用方案中保留将该可选元素,并进行步骤10。
步骤10:记录对现有元数据所做的扩展
一旦对现有元数据做了以上任何形式的扩展,都应该及时将此扩展清晰地记录下来。而且,对现有元数据所做的所有扩展都必须在派生自原标准文档的应用方案文档中以一定格式写明,并具体反映到应用方案的“复合元素概述”、“复合元素详细介绍”等其它相关部分,以及XML Schema(如果采用XML作为编码语言)等表现形式中。
本规则适用于数据应用环境各建设单位研究和制定本参考模型中定义的元数据与参考模型外元数据的映射。
目前各元数据方案在适用领域、适用范围和复杂程度上各不相同,这给元数据集之间的互操作带来了问题。因此,作为本参考模型之外的其他元数据,我们需要研究它们和参考模型内元数据之间的相互映射关系,从而便于本参考模型内的元数据与参考模型外元数据之间的互操作。
由于不同的元数据在广度、深度、侧重点和覆盖范围等方面都存在不同之处,所表达的概念也难以完全对等,例如可能源标准中的一个或多个元素在目标标准中找不到相应的元素;有可能某元素在源标准中为可重复元素,具有多个值,但在目标标准中却不可重复;还有可能元素语义取值范围存在差异,如源标准中可用自由文本描述,而目标标准要求必须使用规范代码表,因此实际映射时需要根据具体情况做出合适的处理方式。本建议不涉及具体的元数据映射规则,只对元数据映射的概念、内容和方法作出阐述,对元数据映射的行文格式作出规定,具体的映射细节将在具体的元数据中作为附录给出。
元数据映射(Metadata Mapping)是实现元数据互操作的一种手段,其具体含义是指分析元数据中的元素,将不同标准中相同或相似含义的元素联系起来建立对应关系。元数据之间元素映射形成的集合称为元数据映射表(Metadata Crosswalk),也可称为元数据映射字典。
元数据映射可分为语义映射和结构映射两个方面。语义映射主要针对不同的元数据(如DC、EAD、TEI等),分析标准中的元素含义,建立元数据映射表,近似的实现数据资源的“跨库”揭示。结构映射主要解决不同元数据之间的对应关系,更多地表现为一种“格式转换”,例如将RDF转换成XML Schema形式,以此来提供异构系统的互操作。下面对语义映射的主要内容进行说明。
元数据映射可以采取动态和静态的方式。动态方式根据元数据映射表建立元数据转换中间件,将相应的查询请求中的有关内容转换成资源站点支持的元数据模型或可以识别的元数据格式,返回时再转换成本系统支持的元数据格式,以支持本系统的查询结果处理。静态转换类似于目前的搜索引擎,将资源站点的数字对象抓取到本地,按照本地的元数据模型建立索引,提供服务。
由于元数据映射只能是一种近似的映射,所以各单位在制定元数据时,只能根据实际情况和项目外标准建立一种相对合理的映射方案。本部分只对行文中映射部分需要包含的内容作出最小约定。
与项目外标准的映射可以作为可选性附录置于元数据文末,具体内容应该包括以下两部分:
一致性测试适用于本参考模型中定义的所有元数据以及由上述标准发展而来的任何元数据应用方案,用于保持数据应用环境元数据参考模型中所定义的元数据及其扩展应用方案的一致性。数据应用环境项目内定义的任何元数据或应用方案应当按照接受测试标准或应用方案的相应部分提供元数据,用户扩展的元数据应当遵循本参考模型中所定义的元数据扩展规范确定和提供元数据,并通过一致性测试。
本一致性测试规则作为仅适用于元数据与其扩展应用方案的一致性测试,而不适用于:
一致性测试则是保证系统建设和应用服务在采用元数据方案方面的一致性所应实现的功能要求,是元数据方案得以贯彻执行的保障。