概述
随着越来越多的数据在企业中被复制和移动,数据管道成为了数据的高速公路。数据管道的有效性和可靠性将愈发的重要。数据的可观测性侧重于管理数据的健康,不仅仅是监控它。在数据管道中的每一个节点去检测数据质量以保证及时地发现问题,因此数据可观测性将更有效地保证可靠有效的数据流,以确保业务团队和公司高管能及时做出重要决策和采取行动。
为什么需要数据可观测性?
数据指数级增长
由于全球性的数字化转型和现代数字经济,数据量继续呈指数级增长。根据 IDC的数据,2020年,全球范围内创建、捕获、复制和消费的数据超过59 zettabytes(ZB)。预计强劲的数据增长将持续到2024年,五年复合年增长率(CAGR)为26%。
数据增长的一个主要因素是企业内的复制数据,这些数据通常用于分析。IDC估计数据(创建和捕获)与复制数据(复制和消耗)的比率约为1:9。IDC预计,到2024年,这一比例将增长到1:10,复制的数据将会更多。
随着越来越多的数据被复制和移动,数据在流动过程就会不可避免地出现丢失,格式转换等问题,从而就会导致整个数据管道出错或者最后的数据交付出错,这对企业决策来说是非常严重的问题
数据源类型和数量增长快
随着业务的发展,公司接入越来越多的外部数据源和内部数据源用于数据分析,一旦其中任意一个数据源发生某种意料之外的变化,那么所分析的结果将会出现失之毫厘谬以千里的错误
数据管理越来越复杂
数据管道越来越复杂,一条普通的数据管道可能会存在成十上百个节点,这些节点又可能依赖于很多的数据集。数据工程师在开发过程对于他们管道中所依赖的数据集可见性又很低,任意一个数据集所做的任何更改都可能产生意想不到的后果,影响依赖数据资产的正确性。
数据问题类型多
数据问题可能由多种原因引起,但最常见的是:
数据监管
数据隐私或其他数据法规的变化可能需要修改数据的收集、摄取、转换或存储方式,这可能会产生无法预料的问题。
人为错误
通常,数据问题是由简单的人为错误引起的。有人在没有意识到的情况下意外删除了字段或列,或者在更新应用程序时引入未经测试的逻辑。
业务需求
对于同一份数据不同的使用者他们可能需要用到的数据是不一样的。有些业务用户可能不需要用到某个列就可能要求把它删除掉,但是,使用相同数据集的其他人可能需要这个列的值,因此当这一列的数据信息被删除时,他们此时的分析就会不正确的。
关于导致数据问题的原因,最具挑战性的方面之一是参与创建数据或更新应用程序的人员通常没有意识到他们所做更改的含义。并且不幸的是,这个问题通常要到数据价值链的末端才会被发现。
数据团队规模逐渐变大
随着公司的发展规模逐渐扩大,数据团队的规模会逐渐扩大,分工也会更加细,每个成员都专注于自己所负责的那部分工作内容。跨团队的协作必然会面临沟通不畅或者通知不及时的问题,一旦上游团队对数据管道中的某些数据或者数据集Schema进行修改而没有及时通知管道下游团队,那么可能就会损坏下游团队的数据管道从而导致数据错误问题
数据可观测性带来什么
建立有效可靠的的数据管道
- 跨各种数据库、数据仓库和数据湖地主动管理数据
- 持续监控数据流动,在数据流动过程中的每个节点自动执行数据质量检查
- 提供真正的端到端可靠性
及时且正确地交付数据
- 确保数据在复制、转换过程中始终保持完整、及时、准确和有效,让使用方可以在完整的背景下做出更准确的决策,同时也更有效帮助企业管理数据风险,避免数据违规。
让数据驱动行动更有信心
- 保证数据的准确性能够提高使用者对数据的信心,能够更加有信心地根据数据得到的决策去进行行动
提高团队问题处理能力
- 能够更快更精准地定位问题,减少找寻问题根源的原因
- 能够更精确地进行告警,减少误判带来的告警烦扰
数据可观测性在观察什么?
当谈到数据健康程度时,我们可能会提出包括不仅限于以下问题:
- 数据准时到了吗?
- 所有的数据都到了吗?
- 数据送到哪里了?
- 数据的格式正确吗?
- 数据目前的最终格式的是怎么得到?
- 数据是否存在任何风险?
- 数据质量的程度如何?
- 这些数据有多有用和完整?
回答这些问题可以全面了解数据和数据管道的运行状况。它还允许您的组织衡量数据的有效性和有效使用。让我们更详细地探讨其中的每一个。
及时性
及时交付数据可以确保分析师和业务团队利用新数据做出决策,并尽可能实时地看到趋势。为了确保及时性,需要在基础设施允许的情况下尽可能频繁地自动化和运行数据健康管理
数据量
数据管道中不稳定的数据量生产可能是管道破裂的一个指标,并可能在结果分析中造成不可预见的错误。因此不仅需要监控总体数据量,还需要在管道内的不同点设置检查点,以便深入调查并确定数据管道的损坏位置。
数据传输
对于最终数据集和中间数据集,数据管道可以有多个交付点,分析师还可以扩展数据管道以生成衍生数据集。这需要监控数据集是否正确交付到目的地,以及这些目的地是什么,以确保数据的正确使用。
格式
具有多个源和目的地的数据管道将以不同的格式处理和交付数据。这需要监控格式和Schema的更改,防止它们破坏管道,并根据需要调整管道逻辑。
数据血缘
数据管道的端到端血缘非常重要,原因有很多,包括数据治理、法规遵从性,以及建立对数据的信任。这需要一个完整、详细的数据血缘,以跟踪每个源、转换和目标。
数据风险
数据风险考虑了从安全、隐私和监管控制中暴露数据的风险。虽然数据隐私团队可以管理整个过程,但数据管理团队应持续监控、评估和管理其数据管道内的风险。
数据质量和一致性
不完整且不一致的数据会在最终分析中造成潜在漏洞,导致决策不理想,企业对数据的信任度较低。数据管理团队需要不断测量和监控数据质量和完整性,并能够深入了解、识别和修复问题。
数据完整性
同样,数据质量差会阻碍数据的使用和信任,数据完整性也会提高决策的准确性和上下文。数据管理团队需要监控数据的完整性,并与分析和业务部门合作,以最大限度地提高有用性和完整性。
数据可观测性的特性
必备的特性
- 对数据管道中执行的抽取、转换、分析等作业都能进行耗时、数据量等监控
- 在从源到中间到目标的数据管道中,每个节点都有一组丰富而详细的用于数据质量监控的数据剖析,进行全面查看和深入研究
- 拥有数据管道中从源到转换到目的地完整的数据血缘
- 在源数据和目标数据之间执行行、列、一致性和值检查等,以识别丢失的记录和破裂的关系。
- 拥有可操作的警报和通知,可以与邮箱、微信、Slack等任何生产效率和协作工具集成,实现对所有数据的持续监控
- 变化监控,帮助您监视对属性或特定数据集所做的任何更改。它还监视并提醒您对数据中的逻辑结构或模式对象集合所做的任何更改。
- 能够集成到数据集成工具中用于检查数据质量
高阶的特性
- 自动发现和自适应数据质量规则
- 利用机器学习生成可解释且自主的数据质量规则。减少手动规则编写和错误,以增加对数据的信任。
- 统一计分和个性化告警
- 利用统一的评分系统跨所有数据源生成数据健康报告,发送个人警报,允许用户主动检测、上报和纠正数据质量问题。
- 数据屏蔽
- 自动理解语义模式,以便在数据质量检查期间对敏感数据进行分类和屏蔽。
- 现成的自适应阈值
- 提供现成的自适应自动阈值,消除了手动规则和微调的需要。使用此功能和漂移规则配置功能对整个组织中的任何属性进行基准测试和监视。
- 创建自己的行为分析
- 数据质量监控功能允许您创建自己的行为分析,使用时间序列比较进行多属性、预测、分析和可视化。
- 拥有每个数据管道内数据的数据安全和隐私方面的完整视图,用于数据风险评估和观察
开始数据可观测性的5个步骤
您可以采取下面5个步骤来开展数据可测性工作:
了解数据资产和数据治理
- 数据资产管理是关于如何将数据以及数据产生的信息为企业资产以达到企业目标的一组业务职能。数据治理与数据资产管理齐头并进,以确保使用方能访问在整个生命周期中被正确理解并在正确上下文中使用的可信数据。
了解数据质量
- 了解数据质量主要检查什么,如何去改进数据质量问题,以及数据可观察性如何帮助大规模修复数据质量。
确定组织中的角色和职责
- 数据工程师和 DataOps 工程师监控和防止数据质量错误,管理数据质量流程,并专注于提高系统性能。
- BI 分析师、数据分析师和数据科学家有助于提高跨数据源和模型的质量。
- 数据战略家和业务领导者确保业务和数据战略的正确对齐,优化资源并领导拟议的计划。
评估数据:
对数据可观测性的五个支柱的数据进行评估:
- 数量:您的数据是否符合要求?是否完整?该支柱提供对健康状况或您的数据系统的洞察,在健康状况受到损害时发出警报。
- 新鲜度:您的数据是最新的吗?它的新鲜度是多少?有没有差距?数据的新鲜度对于分析和数据驱动的决策至关重要。
- 分布:您的数据字段值是否在可接受的范围内?数据的值在适当范围内能建立对数据的信任。空值或任何异常值都可能表明数据的运行状况存在问题。
- Schema:您的数据管理系统的数据结构是否发生了变化?如果改变了,谁做了什么改变,什么时候改变?这些数据表明数据系统的健康状况。
- Lineage:您是否全面了解您的数据环境?您的上游和下游数据源是如何关联的?您知道谁在哪个阶段与您的数据交互吗?数据血缘提供了对治理以及是否遵循正确做法的理解。
这些支柱与数据质量维度密切相关。
选择工具
选择一个可扩展、自动化和预测性的数据质量工具,让所有人都能在错误损害您的业务之前发现它们
最后,开始你的数据可测性之旅吧
参考:
https://www.montecarlodata.com/data-observability-the-next-frontier-of-data-engineering/
https://blog.panoply.io/data-observability-platforms
https://www.kensu.io/blog/ebook-a-guide-to-understanding-data-observability
https://www.castordoc.com/blog/data-monitoring-and-observability
https://analyticsindiamag.com/top-data-observability-platforms-for-monitoring-data-quality-at-scale/
https://www.collibra.com/us/en/blog/defining-data-observability
加入我们
Datavines 的目标是成为更好的数据可观测性领域的开源项目,为更多的用户去解决元数据管理和数据质量管理中遇到的问题。在此我们真诚欢迎更多的贡献者参与到社区建设中来,和我们一起成长,携手共建更好的社区。
- 项目地址: https://github.com/datavane/datavines
- 问题和建议: https://github.com/datavane/datavines/issues
- 贡献代码: https://github.com/datavane/datavines/pulls
关于Datavane
Datavane
是一个专注于大数据领域的开源组织(社区),由一群大数据领域优秀的开源项目作者共同创建,旨在帮助开源项目作者更好的建设项目、为大众提供高质量的开源软件,宗旨是:只为做一个好软件。目前已经聚集了一批优质的开源项目,涉及到数据集成、大数据组件管理、数据质量等。
在 Datavane
社区中,所有的项目都是开源开放的,代码质量和架构设计优质的潜力项目。社区保持开放中立、协作创造、坚持精品,鼓励所有的开发者、用户和贡献者积极参与我们的社区、共同合作,创新创造,建设一个更加强大的开源社区。
Github: https://github.com/datavane