数据要素化条件之三:数据质量

原始的可机读数据能够用于数据智能,但是具体使用效果如何,则是由这些数据是否具备一定质量要求来决定的。虽然许多机构事实上控制了丰富的数据,但这些数据在带来多样性价值的同时,也带来了数据类型和数据结构的差异性与复杂性,甚至存在准确性差、真实性存疑等质量问题。这就导致了这些数据往往是无法被有效分析以产生有用的信息来支持目标设定、决策、监控或其他处理实践的。因此,随着数据量的巨大增长,数据质量的良莠不齐,甚至可以说更多的数据往往意味着更多棘手的问题。影响数据质量的根本原因源于大数据本身的多源异构性。从不同的异构来源生成大量非结构化数据本身就需要治理才可以使用。这大大地降低了数据智能的应用效率。因此,只有满足一定质量的数据才是真正要素化的数据。

正如优质的食材才可以烹调出美味佳肴一样,作为数据智能的原料,精确地判断或预测,都是建立在正确、完整、真实的数据原料基础之上的,因此数据也必须满足一定的质量要求。计算机科学家维奈·拉奥指出,当数据满足以下条件时,它就变得有价值了:

①及时提供;

②简洁、很好组织在一起及相关性;

③它具有基于经验的意义和背景;

④它是多个数据源的集合。

因此,只有满足这些关于数据质量的要求时,数据就可以减少解决问题和帮助做出正确决策所需的时间、精力和资源,它就是一种有价值的资源,就是可以高效利用的数据生产要素。

数据质量的判断需要具体的评价指标。有研究认为,机读数据集应具备以下六个特征,包括:

①计算机可以自动处理的数据格式以及结构化数据;

②没有实体独家控制且必须按照国际标准加密;

③数据可处理,但是不丢失语义(Semantic Meaning);

④数据格式和类型具有一致性;

⑤遵循规则和命名协定的可变命名;

⑥是通过计算机代码可以查询和处理的数据 。

这应当是对数据质量较为全面的总结。

为了评判数据质量,应当建立衡量数据质量的维度框架,如准确性、相关性、完整性、一致性、及时性和格式统一性等。不过,数据质量是一个相对性的问题,并不存在单一的适用各种情形的数据质量标准,而是需要根据行业或企业需求,发展出不同要求的数据质量标准体系。因此,原始性与可机读性只是数据成为生产要素的前提条件,而数据是否满足一定的质量要求,达到可以使用的程度,则是数据成为生产要素的实质条件。

你可能感兴趣的:(数据仓库)