一文看懂“数据治理”和“可观测性”

这篇文章将带我们深入了解数据可观测性(Observability)和数据治理(Data Governance)的来龙去脉——这两个是企业建立数字化基础的关键。

在数字化赋能企业业务和效率的大背景下,数据治理和数据可观测性被越来越多的企业所采用,因为它们是构成复杂但易于操作的数据管道(Data Pipeline,是一种允许数据通过数据分析过程从一个位置高效流向另一个位置的技术)的基础。

这些年,企业在人工智能(AI)领域创建了足够多的概念,来向用户展现AI之于企业竞争的必要性。然而,AI 是一门严谨的科学,任何一个简单的功能或数据维度的差异都会造成巨大的差距,这些差距很容易使某一方在竞争中占据优势。

当下,基于 AI 的功能已成为热门话题,并已成为保持竞争的必要条件。这就是为什么今天的组织专注于建立坚实的数据基础,以便数据解决方案无缝且与常规软件的生产一样高效。

因此,让我们深入了解数据可观测性和数据治理的来龙去脉——这是建立更强大数据基础的关键因素。

什么是数据可观测性?

数据可观测性(Observability)是近几年来才从控制理论中借用的舶来概念,常讨论于计算机科学领域,指如何从外部输出推断及衡量系统内部状态,强调以更加“白盒”的方式替代现存于复杂信息系统的“黑盒”,解决不断增长的数据需求,帮助我们更好的观察系统的运行状况,快速定位和解决问题。

随着企业对数字化的不断探索和广泛采用,托管数据解决方案的技术堆栈变得越来越高效。与此同时,它们也变得更加复杂和精细,这使得它们难以维护。

组织面临的最常见问题是数据停机时间。除了数据中心的电源和散热问题、基础设施漏洞、事故、人为错误以外,硬件维护、服务器迁移和固件更新也都可能导致代价高昂的数据中心停机事件(eg. 硬件维护、服务器迁移和固件更新都需要将物理服务器停机)。更可怕的是,据艾默生网络能源(Emerson Network Power)委托 Ponemon 研究所于2010年9月发起的“数据中心停机“研究显示,数据中心停机会造成大约每分钟$5,600或每小时$336,000的损失,这些损失主要产生在包括但不限于数据丢失或损坏,生产力损失,设备损坏,根本原因检测和恢复措施,法律和法规影响,收入损失、声誉和信任的长期影响等因素。数据停机时间是数据不可靠的时间段。它可以是错误的数据、不完整的数据或不同来源的数据差异。没有可靠的数据,就不可能有最先进的解决方案。

这种不断增长的数据可靠性需求导致了可观测性工程的新兴领域,该领域具有三个高级组件。简单来说,这些组件是数据可观测性用来聚合数据的格式:

  • 指标:指标是在给定时间范围内测量的数据的累积度量。

  • 日志:日志是跨不同时间点发生的事件的记录。

  • 跟踪:跟踪是分布在分布式环境中的相关事件的记录。

为什么需要数据可观测性?

数据可观测性提供了预测数据行为和异常的额外优势,这有助于开发人员设置资源并提前做好准备。数据可观测性的关键能力是找出导致记录数据性能的原因。例如,如果欺诈检测模型的敏感性得分较低,则数据可观测性将深入数据,分析得分较低的原因。

这种能力至关重要,因为与大多数结果都在代码控制之下的常规软件不同,在 ML(机器学习,是人工智能的应用程序,是计算机程序使用算法来查找数据中的模式) 软件中,大部分结果都超出了解决方案的控制范围。这是因为数据是一个独立的因素,甚至可以通过一个异常事件使解决方案无效。这种数据中断的一个例子将是破坏就业率、股票趋势、投票行为等的大流行。

在给定数据组(例如,来自特定状态的数据)上始终运行良好的解决方案也很可能在另一个数据组上严重失败。

因此,在评估任何数据解决方案的输出时,了解性能背后的原因成为重中之重。

数据可观测性与数据监控有何不同?

可观测性通常被称为监控 2.0,但它是监控的一个更大的超集。可观测性更像是工程师的助手,通过考虑系统的深层底层状态来确定系统是否按照设计的方式工作。让我们回顾一下将可观测性与监控区分开来的几点:

语境

可观测性不仅仅跟踪/监控系统中的给定脉冲。它还考虑了影响功能的那些脉冲的背景。

深度

监控跟踪系统的表面水平脉冲以了解性能。相比之下,可观测性记录跟踪(或相关事件),建立必要的链接,并整体跟踪系统的深层内部状态。

行动

虽然监控的输出主要是反映系统性能或资源消耗的数字,但可观测性的输出是行动建议。例如,监控会指出系统已经消耗了 100 GB 的内存。相反,可观测性将说明内存消耗是否是次优的,以及是否需要开发人员的干预来进行优化。

ML 监控与 ML 可观测性

长期以来,可观测性一直是 DevOps 框架的一部分。然而,MLOps (Machine Learning Operations,用于数据科学家和运维人员之间协作和沟通的最佳实践)社区对它的需求也越来越明显。此外,随着数据变得越来越复杂,数据管道变得更加复杂且难以跟踪。因此,虽然我们将可观测性集成到机器学习世界中,但定义 ML 监控和 ML 可观测性之间的关键区别很重要。

可观测性的核心要素在 ML 可观测性中端到端体现。ML 监控仅收集有关解决方案的高级输出或成功指标(如灵敏度和准确性)的数据。之后,它会根据预编程的阈值发送警报。

另一方面,ML 可观测性更深入地研究并寻找记录性能背后的原因。最后,通过评估与验证、测试和传入数据之间的洞察力相关联的数据行为,深入研究根本原因。

数据可观测性的支柱

数据可观测性是并行运行以改善数据健康的几个关键特性或支柱的总和:

一文看懂“数据治理”和“可观测性”_第1张图片 数据可观测性的支柱 | 作者创建的图像

数据新近度

众所周知,任何 ML 解决方案都与数据一样好。因此,确保数据是最新的至关重要,因为旧的和不相关的数据是组织资源、硬件和劳动力的负担。数据可观测性旨在提供更新数据表的最佳途径,并有助于确定最佳更新频率。

数据分布

数据分布是机器学习最基本的概念之一,因此被高度视为数据可观测性的支柱之一。数据分布是了解手头数据是否在所需范围内的方法。换句话说,这是一种检查数据采样是否正确的方法。

数据量

数据量只不过是对传入和传出数据事务的数据量的跟踪。因此,应跟踪数据量的突然上升或下降,并确保所有可用数据源的正常运行。

架构

模式是存储数据的框架。任何组织中的多个团队都可以访问每个数据模式,每个团队都具有不同的访问级别(编辑、查看等)。因此,对数据的更改是不可避免的,并且必须使用适当的数据版本控制工具进行跟踪。应该考虑诸如谁进行了更改、何时以及为什么进行更改等因素。如果架构不具备处理此类情况的能力,同时更改可能会导致数据差异。

数据沿袭

简单来说,数据沿袭就是数据的故事。它讲述了数据如何从 A 点到 B 点。是因为传入数据源的变化、模式中数据处理的差异,还是手动更改?强大的数据沿袭可以回答此类问题等等。跟踪数据沿袭的主要目标是准确知道数据中断时应该去哪里。由于机器学习管道由于涉及多个实验而变得复杂,因此实验跟踪工具和平台非常方便地了解跨多个实验、模型和数据版本的数据的使用和旅程。

数据隐私和安全

如前所述,数据访问通常因团队和个人而异。数据安全和隐私是确保数据健康的一些重要指标。数据更新中的一个新手错误或数据落入坏人之手可能会破坏整个数据沿袭,并可能成为组织的巨额成本。

元数据

元数据是关于数据的信息。数据可观测性是数据监控的超集,它不仅可以查看数据以追踪中断的根本原因,还可以观测元数据以发现数据变化的趋势。元数据存储确保每个关键 ML 阶段的元数据都以易于阅读和访问的方式进行跟踪和存储,以建立可靠和可重复的机器学习管道。

在构建和管理公司数据主干的基础时,数据可观测性的支柱至关重要。

一个好的数据可观测性解决方案如何帮助您的组织?

在选择数据可观测性解决方案时,必须牢记数据可观测性的支柱。一个好的解决方案可以显着改善组织数据生态系统的健康状况。一个好的解决方案可以帮助改变组织的动态的一些方法是:

主动避免数据问题

由于数据可观测性通过元数据和性能检查来跟踪数据行为的变化,因此它可以提前提醒 ML 工程师通过启动主动修复来防止出现关键数据情况。

映射协助

一个好的数据可观测性解决方案不需要被告知它需要监控哪些指标。事实上,在机器学习模型的帮助下,它有助于识别关键指标、依赖关系、变量、传入和传出资源。元数据存储和实验跟踪功能对于维护具有高清晰度的映射是必要的。

监控静态数据

不必为数据可观测性加载静态数据以对其进行监控。这通过节省内存、处理器,当然还有时间等资源来节省大量成本。这也允许数据解决方案在不影响性能的情况下变得可扩展。

语境

数据可观测性的关键功能之一是通过跟踪数据和结果之间的适当联系来找到根本原因。当您有一个 AI 助手指出特定行如何出现错误及其原因时,它会将上下文带入图片并快速修复数据问题。

安全

安全性是数据可观测性的支柱之一,自然是关键问题之一,因为它可能导致数据大规模中断。因此,数据可观测性确保了最佳的安全性和合规性。

自动配置

数据可观测性解决方案使用 ML 模型来评估数据、元数据和 ML 解决方案,以找出诸如环境、关键指标和可能的危机(如性能下降到特定阈值以下)等因素。因此,它消除了维护和找出几乎总是在变化的复杂规则的需要。

轻松合身

一个好的数据可观测性解决方案灵活且易于集成到预先存在的 ML 堆栈中。除非 ML 堆栈组织不良,否则团队无需进行任何更改或重新编写模块。这很好,因为它节省了很多资源。它还具有评估不同解决方案和快速找到合适方案的优势。

数据可观测性是一个广阔的领域,以上几点只是解决了共同关心的问题。所以,现在,让我们深入研究数据治理,看看它如何适合创建完美的数据管道。

什么是数据治理?

数据治理(Data Governance)是指为确保数据安全、私有、准确、可用和易用所执行的所有操作,它在提高企业数据的可用性、质量和安全性上扮演着重要角色。

数据治理是一组标准和规则,旨在维护整个数据管道的数据质量。由于 AI 和 ML 等新兴技术严重依赖于作为自变量的数据,因此验证数据的质量至关重要。

重要的是要注意,数据治理不是关于数据管理,而是关于围绕最佳执行和分配正确的角色和责任制定战略和政策。

数据治理的好处

在当今数据解决方案之间日益激烈的竞争中,数据治理是必不可少的。下面的好处将更好地说明为什么会这样:

一文看懂“数据治理”和“可观测性”_第2张图片 数据治理的好处 | 作者创建的图像

端到端视图

数据治理在数据方面努力实现单一真理。但是,数据通常在新发展的组织中的各个团队和利益相关者之间共享,而没有任何跟踪。这导致多个数据版本导致数据差异和最终客户不满意。为所有团队提供 360 度视图的单一事实来源是解决上述问题的关键。

更好的数据质量

数据治理确保数据完整,数据来源可靠。它还负责数据的正确性。

资料图

多个团队经常出于其他目的访问用于特定解决方案的数据。例如,咨询团队可能会访问数据转储以解决升级问题。因此,为防止任何混淆,需要所有利益相关者或用户都可以引用的一致密钥。

更好的数据管理

数据治理通过引入最新技术和自动化来提高效率并减少错误,从而提升了现有的数据管理方法。

安全

数据治理负责处理数据安全问题并解决所有合规性要求。这导致端到端数据管道的中断最小化,因为安全问题是主要障碍并且需要很长时间才能得到解决。

数据治理挑战

数据治理是一门相对较新的学科,因此组织在初始设置阶段面临一些常见挑战。他们之中有一些是:

缺乏业务理解

数据通常被认为完全由 IT/开发团队拥有和管理。这有一个重大缺陷,因为 IT 团队没有端到端的业务视角,也无法拨打关键电话。因此,当客户提供必要的数据时,甚至在从其他来源收集数据时,数据收集过程中都会出现间隙。

由于缺少只有全面的业务团队才能识别的功能,因此数据不是最理想的。除非将业务理解整合起来,否则利益相关者在传达结果时也会存在相当大的差距。

无法识别痛点

数据治理的工作是解决数据管道中的问题。但是,如果参与者无法确定优先级和痛点,则由于反复试验循环,数据治理标准可能需要更长的时间。

缺乏灵活性

数据管理通常需要对各种操作进行多次批准。例如,在处理客户端请求时,可能会发现客户端的数据会占用相当大的空间,这超出了可用的硬件限制。这启动了整个层次结构的一系列批准。尽管这是一个简单的过程,但由于对时间的影响很大,因此效率低下。

预算限制

数据解决方案通常需要复杂的资源,例如内存负载和高处理能力。不幸的是,这些资源可能对团队来说是禁区,特别是在数据团队仍然是新的和不断发展的组织中。为了弥补预算和资源的不足,必须设计一个低于标准的解决方法,这会影响数据生态系统的健康。

如果我们深入研究,将会发现许多新的和不同的挑战。每个组织都有不同的个性,面临着各种各样的挑战。关键是要开始并解决问题。

数据治理工具

在考虑选择哪种数据治理工具时,最好从经济高效且快速的选项开始。因此,可靠的开源解决方案或基于云的平台可以进行繁重的工作,非常适合进行实地测试。繁重的工作包括轻松添加新功能、简单集成、即时可用的硬件或服务器功能等等。

让我们看看在缩小数据治理工具范围时应该考虑的一些要点:

  • 提高数据质量:数据治理工具应该在没有干预的情况下清理、优化和验证数据。

  • 无缝管理数据:该工具应集成高效的 ETL(提取转换负载)流程,以便轻松跟踪数据沿袭。

  • 记录数据:文档是任何流程中最被低估的执行者,即使它为团队保留并传递了最大的价值。记录数据是必要的,这样可以提高可重复性、可搜索性、访问性、相关性和连接性。

  • 具有高透明度:该工具应向管理或使用它的任何人提供高透明度。它应该像一个助手一样,通过清楚地指出任务、沟通点和不作为的影响来帮助用户执行任务。

  • 审查数据:数据、数据趋势、访问点和数据健康状况不断变化,需要密切监控。因此,定期审查可以使数据保持最新,并且不会出现看似合理的故障。

  • 捕获数据:数据治理工具应自动发现、识别和捕获关键数据点。

  • 提供敏感的洞察力:数据治理工具应该理解数据并最终提供关键洞察力,帮助构建数据管道的后续步骤。

总体而言,在选择数据治理工具时,易用性也应该是主要关注点之一,因为用户和工具之间的高摩擦最终会减慢流程。

15 个数据治理最佳实践

尽管最佳实践是主观的并且取决于组织的当前状态,但以下是前 15 种常见的数据治理实践入门:

  1. 开始:迈出第一步,通过制定增量计划从小处着手。

  2. 定义目标:增量计划必须有明确的目标,不仅分配给数据治理的参与者,而且分配给每个流程和阶段。当然,目标必须是现实的、可实现的并朝着正确的方向启动。

  3. 通过所有权确保问责制:然而,仅分配目标是不够的,数据治理的每个参与者都需要拥有流程并保证他们的成功。证明所有权的最佳方式可能是将绩效 KPI 与流程联系起来。

  4. 强调团队成长:为了团队的进步和各个参与者在不同层次的绩效水平上保持一致,高级流程所有者应直接对低级流程所有者负责。这可以再次激发责任感、团队合作精神,从而提高效率。

  5. 让利益相关者参与进来:业务利益相关者的洞察力对于确保他们贡献自己的力量而没有任何含糊或混淆至关重要。因此,最好对他们进行有关数据治理架构的教育。

  6. 整合业务理解:理解业务目标和组织目标对于构建组织的数据主干至关重要。例如,公司的目标是短期成功还是长期坚持?对公司具有约束力的合规要求是什么?公司期望从其数据解决方案中获得的利润百分比是多少?在制定数据治理策略之前,必须收集此类数据。

  7. 融入框架:数据治理必须明智地集成到组织的预先存在的框架和基础设施中。除非组织是一家初创公司并且有能力改组流程,否则不建议进行重大中断。

  8. 优先级:在数据治理的实施过程中会出现大量问题。应该是领导的号召,找出需要尽早解决的问题和可以等待的问题。

  9. 标准化:标准化数据管道在初始阶段可能是一个代价高昂的过程,但从长远来看,它可以节省大量成本。标准化在各个方面都有帮助,包括消除数据差异、一次性数据载入、更少的来回通信、有效使用可用硬件等等。

  10. 定义指标:我们得到我们测量的东西,即使在数据治理的情况下也是如此。确定可以定义流程成功和失败的关键指标,并非常谨慎地选择阈值。确保指标与业务 KPI 和结果直接相关。这将有助于业务团队更好地理解指标。

  11. 业务提案:准备好业务提案,其中包含数据治理可以为组织带来的优势和好处。预算谈判、顶线和底线目标以及节省的时间应该估计并提交给当局。

  12. 无缝沟通:确保团队之间的无缝沟通,因为高效的沟通是运行每个流程的关键杠杆。通常,团队间的沟通很复杂,因为人们不确定为了特定目的应该联系谁。确保定义了流程所有者,并且分配高度透明,以便个人可以快速找出联系点。

  13. 确保合规性:遵守合规性规则的预先计划的策略非常适合顺利运行。但是,在流程中途出现意外的合规问题可能会很复杂,而且肯定会花费大量时间。

  14. 引进专家:由学习者和专家组成的团队是提高效率的最佳选择。来自外部的专家从行业中引入了额外的数据治理知识,内部参与者与他们合作,以 360 度全方位了解组织的动态。这两种类型的知识结合起来,可以激发出卓越的观点和洞察力。

  15. 制定 B 计划:考虑预算申请未获批准或重要资源失败的情况。记下针对此类情况的最快和高质量的解决方法。

总的来说,重要的是要记住一种尺寸并不适合所有人。因此,注意行业的最佳实践是很好的,但不建议回避实验以找到最适合您的组织和文化的实践!

最后的想法

由于无休止的数据量和越来越多的不可靠来源,数据可靠性日益受到关注。因此,数据作为机器学习解决方案性能的主角,需要具有强大的生命力。如果没有高质量的数据支持,即使是最先进的解决方案也可能失败。

在 AI 时代的最初几年,在数据解决方案中执行多个 POC 后,组织已经开始意识到这一点。不幸的是,结果是解决方案在给定的时间内对给定的数据集运行良好,但很快就会失败并且即使再训练也变得无关紧要。这就是为什么开发人员希望了解故障背后的原因,这可以通过主动监控和深入分析来证明。

在当今快节奏的竞争环境中,数据治理和数据可观测性都变得至关重要。尽管它们是相对较新的学科,但它们与一些成熟的领域交叉,例如云数据架构、虚拟框架、机器学习等。跨行业的采用率将很快将它们带到最前沿。在那之前,让我们为即将发生的事情打下基础!


​原文链接:Data Governance and Observability, Explained

翻译&编辑:一路孙

你可能感兴趣的:(devops,数据库)