随着大数据的持续增长,许多人开始担心提取、转换和加载(ETL)的常规过程是否依然适用。这样的担心是否多余呢?
随着分析技术面临数据量迅速增长的挑战,有人担心传统的提取、转换和加载过程(ETL)是否依然适用。
ETL 工具可以快速“入侵”移动 App 和 Web 应用程序,因为它们可以非常有效地访问数据。最终,ETL 应用将积累行业标准并得以壮大。
本文中我们来讨论一个比较新的话题——能够轻松构建一个敏感的、并且能够使数据仓库变得动态且适应性强的数据模型:Data Vault。
企业数据仓库(EDW)系统旨在维持数据驱动型企业的真实商业智能(BI)。公司必须熟知这些重要动态数据中的关键指标。
ETL 由于传统数据建模而面临的五大挑战有:
现在,我们来讨论应对上述所有潜在挑战的方案:Data Vault混合数据建模的方法。
Dan Linstedt 将 Data Vault 模型定义如下:
Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方法。其设计理念是要满足企业对灵活性、可扩展性、一致性和对需求的适应性要求,它是一种专为企业级数据仓库量身定制的建模方式。
Data Vault 非常优雅、简单且易于执行。它建立在一套多结构和审计规则之上。通过利用 data vault 原则,你的项目能够轻松满足可审计性、可扩展性和灵活性。
以下规定的标准将帮你构建 data vault:
建立 data vault 非常简单,最终将会突破企业集成架构中通常使用到的常规方法。该模型的建立方式还可以根据需求进行有效扩展。
“业务灵活性具有根据持续的变化进行自我改善的能力。”
我们来看看 data vault 如何适应变化。
通过 data vault 中的业务主键和描述性属性之间的业务主键关联,data vault 可以解决环境变化的问题。
将这些主键设置为数据仓库的结构主干,所有关联的数据都可以围绕它们进行组织。这些枢纽表(业务键)、连接表(关联)和 SAT(描述性属性)产生适应性很强的数据结构,同时保持强大的数据完整性。特定的链接就像突触(向相反方向的向量)。只要业务关系能够根据需要转换数据模型而自动进行更改而不影响现有的数据结构,就可以创建或删除它们。
接下来让我们来看看 data vault 如何应对大数据的 ETL 挑战。
Data Vault 将大数据技术和建模、方法、架构和实践融合在一起。随着数据量的不断增大,数据可以很容易地融入到 data vault 数据模型中,以纳入像 Hadoop、MongoDB 以及各种其他 NoSQL 品种的产品中。消除星型模式设计的清洁规范,data vault 通过减少耗尽和维持影响大数据系统潜力的相关插入,从而在巨大的数据集上展现优势。
Data Vault 也可以通过简化来解决复杂性的挑战,我们来一探究竟。
了解了三种核心表格类型(枢纽表、卫星表、连接表)之后,就可以立即实现一个动态的 data vault 模型。首先要确定业务主键和枢纽表。“枢纽-卫星表” 与连接表相连,其模拟源表列可以更改。连接-卫星表也同样可行。
Data Vault 模型构建完成之后,下一个任务就是通过 ETL 构建数据集成过程(即从源系统将数据填充到目标系统中)。因此,使用 data vault 设计,你可以连接数据驱动型企业并实现数据集成。
ETL 以其简化的开发流程,降低了开放平台的总成本。ETL 同样可以用来填充和维护建立在 data vault 模型上的强大的 EDW 系统。
可以通过任何市场上可用的突出的 ETL 工具来实现。
Data Vault 通常指定企业的前景、价值观,分析和细化业务领域和关联范围内的关系。在填充星型模式之前必须完成业务规则。通过 Data Vault,你可以在 EDW 并入、摄入后,将业务规则下载到下游。另一个 data vault 的理念是:任何数据都是重要的,即使它看起来不相干。Data Vault 的理论是获取任何类型(好或坏)的源数据。
该数据模型专门设计用于解决和满足最新 EDW、BI 系统的绝对需求。
Data Vault 具有足够的灵活性,可以采用新的不可预知的和非计划的来源,而不影响现有的数据模型。
Data Vault 方法基于SEI、CMMI Level-5 流程和实践,并且包括构成六西格玛、全面质量管理(TQM)和SDLC(敏捷)等突出特征的各种组件。Data Vault 项目具有简短且可观的发布周期,通常采用 CMMI 5级预期的可重复、定义、可管理、一致和优化的项目。在添加新的数据源时,类似的业务主键和新枢纽表、卫星表和连接表先是被添加,然后才链接到现有的 data vault 结构,而不会对底层模型产生任何影响。
与非数据库 ETL 程序不同,一般测试策略是使用适合 data vault 采用的程序。然而,通过使用原始的 Data Vault 加载,我们可以通过允许的负载错误将整个 ETL 过程中的转换降至最低水平。
ETL、数据仓库测试应当注重如下项目:
以下是为 data vault 、ETL、DWH 项目执行测试时应当坚持的五项基准指标:
利用各种创新方法将业务趋势可视化,再加上实质性证据,将会在 ETL、大数据业务中发挥巨大作用。
尽管讨论解决挑战的 ETL 趋势很重要,但还不够。我们需要反思和扩展自动化解决方案,以使用组件库(比如 RowGen)为任何 ETL 需求创建测试数据。
原文:Emerging Trends Of ETL: Big Data and Beyond
作者:Sree Lakshmi
译者:安翔