OushuDB 小课堂丨如何评估现代数据管道的数据质量准备情况

对于具有增长意识的组织而言,有效应对市场条件、竞争压力和客户期望的能力取决于一项关键资产:数据。但仅仅拥有海量数据是不够的。真正数据驱动的关键是能够访问准确、完整和可靠的数据。事实上,Gartner 最近发现,组织认为数据质量差是造成平均 每年损失 1500 万美元 – 一个可以削弱大多数公司的数字。不幸的是,确保和维护数据质量可能非常困难。组织的数据架构选择加剧了这种情况。遗留架构通常缺乏扩展能力来支持不断增长的实时数据量并导致数据孤岛这减缓了整个组织从中受益所需的必要数据民主化。

现在比以往任何时候都更重要的是,最高质量和可靠的数据驱动业务决策。但确保这一点的最佳方法是什么?您是否需要改进数据质量实施?您应该从哪里开始,应该关注哪些质量指标?这个由两部分组成的博客系列提供了一个分步指南,可帮助您从数据质量准备的角度自行决定您的组织所处的位置。

了解不良数据的核心症状
重要的是要了解并非所有数据都是平等的。组织收集的数据中有多达 85% 是通过各种计算机网络操作(例如日志文件)获取的数据,但未以任何方式用于获取见解或决策。

对于许多组织来说,剩下的 12-15% 的数据对业务至关重要并且积极用于做出明智的决策,或者可以货币化,这才是最重要的。这些数据的质量和可靠性至关重要。以下是一些常见的业务场景数据质量差:

触发合规处罚的数据错误
导致错误决策的不准确风险评估(例如,批准不良信用)
行为不当的欺诈检测模型会导致过度风险或拒绝服务
高管抱怨不正确的 BI 仪表板和报告
错误数据导致的定价错误导致收入损失
您的数据合作伙伴抱怨您向他们提供不良数据
您的数据团队花费太多时间来修复损坏的数据
这些听起来很熟悉吗?

如果您遇到这些问题,很可能是您在数据质量覆盖和准备方面存在差距。现在让我们看看如何评估您的数据质量。

评估数据质量准备情况的注意事项
首先,重要的是要描述您的组织正在积极使用的数据量,以帮助获得洞察力。数据量越大, 数据质量成为问题的机会就越大。 相反,如果您处理的数据量有限或较小,则任何低质量数据对业务的直接影响就越大 。变量越少,任何个人或类型的数据质量问题对洞察力的影响就越大。无论您需要对大量数据进行基本检查,还是需要对一小组数据元素进行深入检查,数据量都会显着影响您的数据质量方法。

其次,了解数据管道的行为很有帮助,包括数据的来源、数据的转换和优化方式、数据更新的频率;并且,它是否处于可以分析和用于开发可靠业务洞察力的状态。这会告诉您数据最有可能显示缺陷的位置。

最后,了解数据环境中的这些元素如何协同工作很重要。知道要注意什么以及应该监控哪些数据质量指标 (DQI) 以确保维持数据质量,以便您的分析、决策支持仪表板或报告前端提供准确、可操作的信息。

一旦您对环境有了更广泛的了解,并且在操作数据管道时,您应该检查有助于提高数据质量的最低服务级别。

这些包括:

根据预期的更新节奏(例如,每小时、每天)按时更新
在每个数据实体的每次更新中获取预期的新数据量
确保新值填充有数据并且不会为空或缺失
确信添加到实体的新值符合预期的模式或数据类型
确认新值符合预期的数据分布并且不是无效的
证明实体中的新值与数据管道中的参考点(例如摄取点)一致
这不是一份详尽的数据质量检查列表,但它列出了人们可以在连续运行的数据管道上做出的最常见断言。这些是基本检查,如果检查失败,应发出警报。

如果您在数据质量覆盖方面遇到问题,请不要觉得只有您一个人——许多组织都没有正确解决他们的数据质量问题。在本系列的第二部分中,我们将了解如何 量化 数据质量健康状况。

欢迎大家欢迎关注 OushuDB 小课堂

你可能感兴趣的:(oushudb-hawq)