大数据中的数据的价值的大小的度量

大数据中的数据的价值的大小的度量

1数据的老化:如果你的电话通讯录半年没有任何更新维护,可能把一半的电话号码
打不通了,或者电话号码的主人变更了。如果是两年没有任何更新可能四分之三的
号码都失效了。这就是数据的老化。老化体现了数据的改变程度。
有两个极端,一个是时时变化的数据,例如股价,汇率等,它们被称为时序性数据。
另一个是永远不改变的数据。例如数学常数和物理学常数等。
一个数据越是不容易老化,它的价值越大。

提一个数据,它最近上了新闻,这就是圆周率。当前的世界记录是日本人创造的,小
数点后有31万亿位,占据磁盘空间170TB。从单个数据占据的空间来看,这应该是
最大的数据了吧。圆周率作为一个数学常数,它的应用十分广泛。但是从绝大多数的使用来看,
圆周率取小数点后十位,就可以得到很精确的结果值。
最有趣的事实是,圆周率这个从不老化的数据,有无限多位的值,被人类时常刷新认识,
越来越接近它的真实值。

为了计算人的年龄,我们在数据库中,存储一个人的出生日期这样的数据,而不是存储年龄值。
存储出生日期,不用更新,但是年龄值要一年更新一次。这就是数据的老化的概念的应用。

2 用途的广泛性:一个数据的用途越广泛,它的价值越大。

3 数据的冗余:为什么数据可以压缩,因为它有冗余性。这是指一组数据的情况了。对于一个数据,
没有冗余性的概念。对于一个数据,考虑的是它的精度的问题。满足应用的要求就行了,不用一定
追求高精度。数据的冗余性,天然存在,为了解决存储的问题,例如图象,我们压缩数据。
来减少冗余程度。 但是也有人为增加冗余性的。例如通信过程,由于噪声的干扰,数据会丢失,
数据会被干扰而失真,这就要用校验码等方式增加冗余性。

从数据的价值度量来看,一群数据提供一定量的价值,如果我增加一倍的冗余性,单个数据的价值就减半了。
如果我减少冗余性,数据的数量减半,每个数据的价值都翻倍了。

许多的数据经过处理,变成一条信息,许多的信息经过再处理,得到一点知识,知识经过抽象再处理,凝结成智慧。
这个过程如同采集铁矿石,经过冶炼得到生铁,再冶炼得以熟铁,再精炼 得到钢材,再经过特殊处理,得到特种钢材。
矿石有贫富之分,数据的价值同样有大小之分。总之,我们可以按照上述的三个维度,来初步评估数据的价值大小,即
用途的多少,老化的情况,数据的冗余程度。

 

 

你可能感兴趣的:(开发方法)