2019-09-17 Data on the Web Best Practices: Data Quality Vocabulary

1. Introduction

关于Web最佳实践的数据指出了发布关于Web上发布的数据质量的信息的相关性。因此,W3C关于Web最佳实践的数据工作组已获得授权,以创建表示数据质量的词汇表。本文档中提出的数据质量词汇表(DQV)被认为是DCAT词汇表[vocb - DCAT]的扩展,涵盖数据质量、更新频率、是否接受用户更正、持久性承诺等。当发布者使用这个词汇表时,它将在开发人员之间促进对数据的信任。

这个词汇并不寻求确定“质量”的含义。我们相信品质在于观察者的眼睛;没有一个客观的,理想的定义。一些数据集将被一些数据消费者判断为低质量的资源,而另一些数据集将完全满足其他人的需求。同样,我们非常重视允许许多参与者评估数据集的质量,并发布他们对数据集的注释、证书和意见。数据集的发布者应该设法发布元数据,以帮助数据消费者确定他们是否可以使用数据集为他们的利益服务。然而,在像Web这样的开放环境中,发布者不应该是唯一对发布的数据质量有发言权的人。认证机构、数据聚合器、数据消费者也可以进行相关的质量评估。

我们希望通过使数据集生命周期的每个步骤更容易地发布、交换和使用高质量的元数据来刺激这一点。这就是为什么数据质量词汇表除了非常期望的结构(如质量度量)之外,还强调反馈、注释、策略和证书。

DQV的灵感来自于表示数据质量的现有工作,并与之保持一致,尤其是用于表示关于链接开放数据集质量的信息(特别是度量)的daQ本体[daQ]。daQ本身锚定在RDF数据立方体框架中,用于发布统计数据[Vocab-Data-Cube]。注意,DQV元素不仅可以用来表示数据集质量的元数据;它们还可以用来表示关于元数据本身质量的语句。在表示元数据的来源或其与已建立的元数据标准的一致性时,尤其如此。

与DQV相关的实现的列表(包括对扩展DQV的词汇表的引用、在DQV中序列化质量结果的工具、在DQV中公开数据质量的门户以及引用DQV的论文)保存在DQV实现wiki页面上。如果您有任何实现需要报告,请随时与编辑联系。

2. Namespaces

he namespace for DQV is http://www.w3.org/ns/dqv#

文档中用到的所有命名空间和前缀。

2019-09-17 Data on the Web Best Practices: Data Quality Vocabulary_第1张图片

3. Vocabulary Overview

以下词汇表基于DCAT [vocab-dcat],它扩展了许多附加属性和类,这些属性和类适合表示数据集的质量。

给定数据集或分布的质量是通过一些观察到的属性来评估的。例如,人们可能认为数据集具有高质量,因为它符合特定的标准,而对于其他用例,数据的质量将取决于它与其他数据集的互连级别。要表示这些属性,dcat:Dataset或dcat:Distribution的一个实例可以与以下类表示的五种不同类型的质量信息相关:

           dqv:QualityAnnotation:表示关于数据集或其分布给出的反馈和质量认证。

           dcterms:Standard :表示数据集或其分布符合的标准。

           dqv:QualityPolicy:表示主要受数据质量问题控制的策略或协议

           dqv:QualityMeasurement :表示提供有关数据集或分布的定量或定性信息的度量值。

           prov:Entity:表示与数据集或分布的起源有关的实体。

DQV将质量度量定义为质量度量的特定实例,采用daQ质量框架[daQ]、[daQ - rdfcube]。它依赖于质量维度和质量度量。

质量维度(dqv:Dimension)是与消费者相关的数据集的质量相关特性(例如,数据集的可用性)。

质量度量(dqv:Metric)给出了通过观察具体的质量指标来测量抽象的数据质量维度的过程。通常每个维度有多个度量;例如,可用性可以通过SPARQL端点或RDF转储的可访问性来表示。

度量的值可以是数值的(例如,对于度量“类、属性和实体的人类可读标记”,具有rdfs:label或rdfs:comment的实体的百分比)或布尔值(例如,是否可以访问SPARQL端点)。

除了质量度量,DQV还考虑证书、标准和质量策略,这些也可以根据维度进行组织。质量元数据容器(dqv:QualityMetadata)可以将不同的质量语句组合在一起,从而可以共同跟踪它们的来源。

2019-09-17 Data on the Web Best Practices: Data Quality Vocabulary_第2张图片

质量信息可以从其他质量信息中得到。例如,可以从标准或质量度量中派生出质量注释。质量度量可以从其他度量中派生出来。度量可以从其他度量派生出来。一个标准可以建立在另一个标准或(一组)度量标准之上。DQV通过属性prov:wasDerivedFrom对这种派生进行建模,如下图所示。


2019-09-17 Data on the Web Best Practices: Data Quality Vocabulary_第3张图片
Fig. 2 Using the property prov:wasDerivedFrom to interrelate quality metrics and other quality statements.

请注意

DQV和W3C的起源本体[provo]之间的子类化在本文档中没有明确说明,因为可以通过使用provo关系推断出provo类。本编辑选择并不意味着以任何方式限制使用provo与DQV。事实上,已经包含了provo开发的具体示例,以表达质量度量、度量和注释之间的派生关系,并记录了质量元数据和单个质量度量的来源。

4. Vocabulary specification

请注意

这里包含了来自第三方词汇表的一些属性,如Dublin Core [dubl -Core]、RDF Data Cube [Vocab-Data-Cube]和WebAnnotation [WebAnnotation],以便使文档更加自包含,可读性更好。这些属性的定义是从它们的原始规范中复制的,DQV用法说明了在数据质量词汇表上下文中应该如何使用这些属性。

你可能感兴趣的:(2019-09-17 Data on the Web Best Practices: Data Quality Vocabulary)