Data Quality Services

Data Quality Services 简介

SQL Server 2012
其他版本

使用 Data Quality Services (DQS) 提供的数据质量解决方案,数据专员或 IT 专业人员可以维护数据的质量并确保数据满足业务使用的要求。 DQS 是一种知识驱动型解决方案,该解决方案通过计算机辅助方式和交互方式来管理数据源的完整性和质量。 使用 DQS 可以发现、生成和管理有关您数据的知识。 然后可以使用该知识执行数据清理、匹配和事件探查。 还可以在 DQS 数据质量项目中利用引用数据访问接口的基于云的服务。

本主题内容
  • 针对 DQS 的业务需要

  • 使用 DQS 满足需求

  • 知识驱动型解决方案

  • DQS 组件

  • Integration Services 和 Master Data Services 中的数据质量功能

针对 DQS 的业务需要

用户输入错误、传输或存储过程中的数据损坏、不匹配的数据字典定义以及其他数据质量和处理问题都会导致不正确的数据。从使用不同数据标准的不同来源聚合数据可能导致数据不一致,因为可以应用任意规则或覆盖历史记录数据。 不正确的数据会影响企业履行各项企业职能,影响为客户提供服务,导致名誉和收入受损,招致客户不满以及引起遵从性问题。 自动化的系统通常无法处理不正确的数据,需要另外花费时间和人力进行人工处理。 不正确的数据会对数据分析、报告、数据挖掘和仓库造成不良影响。

高质量的数据对任何企业和机构的效率都是至关重要的。 任何规模的组织都可以使用 DQS 来提高数据的信息价值,使数据更符合实际使用的需要。 数据质量解决方案可以使数据更可靠、更易于访问和可重用。 它可以提高您的数据的完整性、准确性、遵从性和一致性,解决商业智能或数据仓库工作负荷以及运行的 OLTP 系统中不正确数据导致的各种问题。

利用 DQS,企业用户、信息工作者或 IT 专业人员(既不是数据库专家,也不是编程人员)可以创建、维护并执行组织的数据质量操作,而不会花费较长的安装或准备时间。

用于“返回首页”链接的箭头图标 [返回页首]

使用 DQS 满足需求

不采用绝对字词来定义数据质量。 它取决于数据对于其使用方式是否适用。 DQS 标识可能不正确的数据,并向您提供数据确实不正确的可能性评估。 DQS 向您提供数据的语义理解,以便您确定它的适合程度。 使用 DQS,您可以解决涉及不完整、不遵从、不一致、不准确、无效和数据重复的问题。

DQS 提供以下功能来解决数据质量问题。

  • 数据清理:使用计算辅助方式和交互方式修改、删除或充实不正确或不完整的数据。 有关详细信息,请参阅数据清理

  • 匹配:使用基于规则的过程标识语义重复项,使您可以确定哪些项是匹配项并消除重复项。 有关详细信息,请参阅数据匹配

  • Reference Data Services:使用引用数据访问接口的服务验证数据的质量。 可以使用 Windows Azure Marketplace DataMarket 的 Reference Data Services 来轻松地清理、验证、匹配和充实数据。 有关详细信息,请参阅 DQS 中的 Reference Data Services

  • 事件探查:分析数据源以在知识发现、域管理、匹配和数据清理过程的每个阶段了解数据的质量。 事件探查是 DQS 数据质量解决方案中的强大工具。 您可以创建一个数据质量解决方案,在该方案中事件探查与知识管理、匹配或数据清理同等重要。 有关详细信息,请参阅 DQS 中的数据事件探查和通知

  • 监视:跟踪和确定数据质量活动的状态。 通过监视,您可以验证数据质量解决方案是否达到设计目的。 有关详细信息,请参阅 DQS 管理

  • 知识库:Data Quality Services 是知识驱动型解决方案,它根据您使用 DQS 生成的知识分析数据。 这使您可以创建数据质量过程,这些过程不断增强有关您的数据的知识,从而不断提高数据质量。

下图显示了 DQS 过程:

Data Quality Services_第1张图片

用于“返回首页”链接的箭头图标 [返回页首]

知识驱动型解决方案

DQS 知识库是包含三种类型的知识的存储库:现有知识、数据质量服务器生成的知识和用户生成的知识。 DQS 使您可以在知识库中存储有关您的数据的知识,在适当的时候添加业务规则和修改知识,然后应用它以测试数据的完整性和正确性。 在生成知识库后,可以不断改进它,然后在多个数据质量改进过程中重用它。

知识库中的知识标识可能不正确的数据并提供对该数据的更改建议。 它可以查找数据匹配项,使您能够消除重复数据。 它会将源数据与数据质量访问接口维护和保护的基于云的引用数据进行比较。 数据专员或 IT 专业人员验证知识库中的知识和要对数据进行的更改,然后执行清理、消除重复和 Reference Data Services。

知识库存储与特定类型的数据源有关的所有知识。 例如,您可以为客户数据库维护一个知识库,为员工数据库维护另一个知识库。 知识包含在一个或多个数据域中,每个数据域都是数据字段中某种数据类型的语义表示。 客户数据库的知识库可能包含公司名称、地址、联系人、联系信息等的域。 域包含可信值、无效值和错误数据的列表。 域知识包括同义词关联、字词关系、验证和业务规则以及匹配策略。 利用这些知识,数据专员可以做出关于是否更正域中值的特定实例的明智决策。

DQS 允许您执行知识库的导入和导出操作。 可以使用 DQS 文件导入或导出域或知识库。 可以从 Excel 文件导入值或域。 还可以根据知识库将清理过程找到的值导入回域。 通过这些操作,您可以不断改进知识库,确保通过决策和发现获得的知识传送回知识库。

DQS 知识驱动型解决方案使用两个基本步骤来清理数据:

  • 用于生成知识库的“知识管理”过程

  • 根据知识库中的知识提出源数据更改建议的“数据质量项目”。

有关详细信息,请参阅 DQS 知识库和域数据质量项目 (DQS)

用于“返回首页”链接的箭头图标 [返回页首]

DQS 组件

Data Quality Services 由数据质量服务器和数据质量客户端组成。 这些组件使您可以单独执行 Data Quality Services,与其他 SQL Server 操作分隔开。 这两个组件都通过 SQL Server 安装程序来安装。

数据质量服务器作为三个 SQL Server 目录实现,您可以在 SQL Server Management Studio 中管理和监视它们(DQS_MAIN、DQS_PROJECTS 和 DQS_STAGING_DATA)。 DQS_MAIN 包括 DQS 存储过程、DQS 引擎和已发布的知识库。 DQS_PROJECTS 包括知识库管理和 DQS 项目活动所需的数据。 DQS_STAGING_DATA 提供临时数据库,您可以从中复制源数据来执行 DQS 操作,然后导出已处理的数据。

数据质量客户端是一个独立的应用程序,使您可以在一个用户界面中执行知识管理、数据质量项目以及进行其他管理。 该应用程序设计用于数据专员和 DQS 管理员。 它是一个独立的可执行文件,负责执行知识发现、域管理、匹配策略创建、数据清理、匹配、事件探查、监视和服务器管理。 数据质量客户端既可与数据质量服务器安装和运行在同一台计算机上,也可以远程安装和运行在不同的计算机上。 数据质量客户端中的很多操作由向导指引,易于执行。

用于“返回首页”链接的箭头图标 [返回页首]

Integration Services 和 Master Data Services 中的数据质量功能

Data Quality Services 提供的数据质量功能内置到 SQL Server Integration Services (SSIS) 的一个组件和 Master Data Services (MDS) 的功能中,使您可以在这些服务中执行数据质量过程。

Integration Services 中的 DQS 清理组件

Integration Services 中的 DQS 清理组件使您可以将数据清理作为 Integration Services 包的一部分执行。 运行该包时,数据清理作为批处理文件运行。 这是在数据质量客户端应用程序中运行清理项目的一个替代方法。 您可以自动确保您的数据的质量。 不必在数据质量客户端应用程序内执行数据清理项目的交互式步骤。 您可以在包含其他 Integration Services 组件的数据流中纳入数据清理过程。 有关详细信息,请参阅DQS 清除转换

Master Data Services 中的数据质量过程

Data Quality Services 功能已集成到 Master Data Services (MDS),因此您可以在 Microsoft SQL Server 2012 Master Data Services Microsoft Excel 外接程序中对源数据和主数据执行消除重复操作。 要执行匹配,请将 MDS 管理的数据加载到 Excel 工作表,将它与不受 MDS 管理的数据合并,然后在 Excel 内执行匹配。 数据质量服务器组件必须随 MDS 一起安装。 有关详细信息,请参阅用于 Excel 的 MDS 外接程序中的数据质量匹配


Data Quality Services 概念

SQL Server 2012
其他版本

本文简要概括知识管理、数据质量项目和数据质量管理中的 Data Quality Services (DQS) 概念。

本主题内容
  • 知识管理概念

  • 数据质量项目概念

  • 数据质量管理概念

知识管理概念

DQS 知识库是一种元数据存储库,它由数据专员或 IT 专业人员创建,旨在通过数据清理或数据匹配提高数据质量。 DQS 知识管理包括用于在计算机辅助方式和交互式方式中创建和管理知识库的过程。

知识发现

知识发现是分析您组织的数据样本以建立有关数据的知识的计算机辅助过程。 一旦得到了分析结果,您就可以验证并改进知识,然后应用知识来执行数据清理、数据匹配和事件探查。 有关详细信息,请参阅 DQS 知识库和域

域管理

通过域管理过程,您可以更改或增加由知识发现过程生成的知识。 您可以通过交互方式编辑、更新和查看知识库中的知识。知识库由数据域构成,这些数据域包含域值及其状态、域规则、基于字词的关系以及引用数据。 在域管理中,您可以更改域属性、将引用数据附加到域、管理域规则、管理域值并输入数据关系以及创建、删除、导入或导出域。 还可以使用聚合多个单一域的复合域。 有关详细信息,请参阅 DQS 知识库和域

匹配策略

匹配策略包含用于消除数据重复的匹配规则。 通过匹配策略过程,您可以创建匹配规则、基于匹配结果和事件探查数据优化规则,并将策略添加到知识库。 有关详细信息,请参阅数据匹配

Reference Data Services

可以使用引用数据来验证、更正和丰富您的数据,同时利用可保证其引用数据质量的公司所提供的服务。 您可以使用 Windows Azure MarketPlace 的服务连接到引用数据提供程序,也可以直接连接到提供程序。 有关详细信息,请参阅DQS 中的 Reference Data Services

有关 DQS 中的知识管理的详细信息,请参阅DQS 知识库和域

用于“返回首页”链接的箭头图标 [返回页首]

数据质量项目概念

数据专员在数据质量客户端应用程序中使用数据质量项目来执行数据质量操作(清理和匹配)。

数据清理

DQS 中的数据清理需要根据 DQS 知识库中的知识来执行。 DQS 中的数据清理是一个两步过程:

  • 计算机辅助清理:DQS 对清理项目使用所选知识库中的知识,用来对数据源中的值提出更正/建议。

  • 交互式清理:数据专员可以执行交互式清理过程,以更改或增强由计算机辅助数据清理过程提出的数据更正。 为此,数据专员将使用由数据清理过程确定的置信度和统计信息,或在项目中手动输入自己的更改。

完成数据清理后,数据专员可以将已处理的数据导出到 SQL Server 数据库、.csv 文件或 Excel 文件。 有关详细信息,请参阅数据清理

数据匹配

借助匹配过程,数据专员可以比较数据,以便通过消除重复过程整理类似但稍有不同的数据。 DQS 基于知识库中包含的匹配规则执行消除重复操作;数据专员从数据质量项目中为匹配过程指定参数。 有关详细信息,请参阅数据匹配

事件探查和通知

数据事件探查可为数据专员提供有关正由 DQS 处理的数据的实时统计信息和其他信息,可帮助在运行数据质量项目期间执行清理和匹配活动。 数据事件探查可帮助您评估数据质量项目中的清理或匹配活动的有效性,并且提供通知,帮助用户采取措施来改善数据清理和数据匹配活动。 有关详细信息,请参阅DQS 中的数据事件探查和通知

有关 DQS 中的数据质量项目的详细信息,请参阅数据质量项目 (DQS)

用于“返回首页”链接的箭头图标 [返回页首]

数据质量管理概念

DQS 管理员可以使用数据质量客户端应用程序执行各种管理任务。

活动监视

活动监视可显示在数据范围内执行的每个活动的状态,提供每个活动的数据,并使 DQS 管理员能够控制活动。 有关详细信息,请参阅监视 DQS 活动

配置

配置选项支持您:

  • 配置引用数据服务设置。 有关详细信息,请参阅将 DQS 配置为使用引用数据

  • 设置清理和匹配活动的阈值。 有关详细信息,请参阅配置清理和匹配活动的阈值

  • 启用/禁用事件探查通知。 有关详细信息,请参阅在 DQS 中启用/禁用事件探查通知

  • 在基于活动的级别或基于更高级模块的级别配置 DQS 日志文件的严重性级别。 有关详细信息,请参阅为 DQS 日志文件配置严重级别

DQS 安全性

您可以使用 SQL Server 安全机制中的角色来确保 DQS 安全。 有三种 DQS 角色决定数据质量客户端应用程序中用户的访问级别:dqs_administrator、dqs_kb_editor 和 dqs_kb_operator。 您不能使用数据质量客户端应用程序向用户授予角色;角色是通过 SQL Server Management Studio 授予的。 有关详细信息,请参阅 DQS 安全性


Data Quality Services 功能和任务

SQL Server 2012
其他版本

查找任何人(数据管理人员、Data Quality Services 管理员或 SQL Server 管理员)为准备和执行数据质量项目所需的信息。

小文件文件夹图标  设计和实现数据质量解决方案

数据质量客户端应用程序

DQS 知识库和域

数据质量项目 (DQS)

数据清理

数据匹配

DQS 中的 Reference Data Services

DQS 中的数据事件探查和通知

小文件文件夹图标  管理 Data Quality Services

DQS 管理

DQS 安全性


你可能感兴趣的:(大数据)