数据溯源 Why and Where: A Characterization of Data Provenance?

Why and Where: A Characterization of Data Provenance?

` 数据溯源

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • Why and Where: A Characterization of Data Provenance?
  • 前言
    • 1介绍
    • 2 确定性模型
    • 2.2 关系的编码
    • 3.查询语言


前言

提示:这里可以添加本文要记录的大概内容:

—摘要

提示:以下是本篇文章正文内容,下面案例可供参考

随着数据库视图与数据库增加,那些数据片段来自哪里和是如何到达数据库的变得越来越重要。本文中描述了一种方法,当目标数据是通过数据库查询创建的时,计算出处的方法。 我们采用了一种语法方法,并给出了适用于关系数据库以及XML等分层数据的通用数据模型的结果。其中使用一个新奇的方面区分Why provenance(指的是源数据对已存在数据的影响)和 Where provenance(数据被提取出来时的位置)

1介绍

数据来源是对一段数据的起源及其到达数据库的过程的描述。大多数数据库都属于源数据库的视图。
了解起源和记录过程是一个复杂的问题。假设我们通过一个应用于数据库(D)的查询Q创建了一个数据库视图V, 表示为V = Q(D )。我们需要对视图(v)中的数据片段d的溯源:数据库D中的那些部分促成了d
例如:如果你在输出中看到元组(“John Doe”,1234),你可能会认为每个元组都有贡献,因为修改员工关系中的任何元组可能会影响结果中(“John Doe”,1234)的存在。
Where-provenance 对知道数据的错误来源和在查询时携带注释非常重要。

2 确定性模型

此模型中,其任何数据片段都能路径唯一的描述。该模型对半结构化数据使用了现有边缘标记树模型的变体
结构化数据:二维表(关系型)
半结构化数据:树、图,结构会变化,
非结构化数据:无

其更多限制每个节点的外边缘都具有不同的边界(因为是半结构化数据);而限制较小是因为标签本身就是半结构化数据。确定性树中的任何节点都是从根节点到该节点的边标签路径唯一确定的。路径相当于代码中的I值;我们将很快描述如何在这个模型中通过使用关键点作为边缘来投射关系。任何面向对象或半结构化的数据库,都可以表示所有结构的持久对象标识符。
2.1 语法和运算
使用符号x:y表示一对,其中标签是x,值为y。也可以把x看作为边,y看作它下面的子树。使用{x1:y1,…,xn:yn}表示一组这样的对。因为当中的标签不同,描述了一个从一个值的有限部分函数。可以将集合中的每个元素映射到某个标准常量。

定义一:(基础)w是v的基础,所以w的路径表示,就是v的路径表示的子集

定义二:(深度联合)

2.2 关系的编码

我们可以把关系归纳如下。每个关系名称构成根节点传出边的标签,而根节点又映射到该关系中的关键帧集。 然后,关系的每个键都映射到它在关系中标识的对应元组。如果没有键,则元组将被建模为一个集合,也就是说,整个元组b将成为一个边标签。

3.查询语言

Pi为一种模式。其表达式e基本上于模式相同,但可能会包含嵌套查询,
数据溯源 Why and Where: A Characterization of Data Provenance?_第1张图片
这种解释相当笼统,但为了精确起见,我们必须(a)定义“并集”的含义,(b)说明变量可以绑定到哪些值(常数、任意值或介于两者之间的值)。
在这里插入图片描述
其中c的范围是常数,x的范围是变量,p的范围是模式,条件的范围是条件。
定义3(良好查询)A)没有模式Pi 则是单变量,
B)ei表达式要么是一个嵌套查询,要么是一个不涉及查询的表达式
C)每个比较仅在变量之间或变量与常量之间进行

定义4(奇异表达式)对于任何非空且不同于表达式e 1和e 2,如果e不等于(e 1 U e 2),则表达式e是单数的。

你可能感兴趣的:(大数据)