大数据导论(一) 6V

大数据有几个特性,最著名的是数据量(volume),速度(velocity),多样性(variety)。除此以外,还有就是准确性(veracity),连通性(valence), 和价值(value) 。

Volume

这就是大数据本身的本质,有很多数据,很大数据量。而数据量本身并不使数据变得有用,所以我们需要对它进行再次的处理。

计算机的运行速度决定了没法迅速处理如此大的数据规模,所以在大量数据领域,还有类似存储,访问和处理相关的成本,可扩展性和性能等等挑战。

Velocity

这个词我有看到几个解释,类似的翻译有很多,有人认为应该翻译成时效性,我个人不这么认为。大部分的英文解释都是关于处理数据的速度

当你处理这么多的数据时,访问速度和得到所需结果的速度是至关重要的。

举个例子,Google Flu Trends(虽然已经证明是失败的了)能够预测流感,通过实时收集数据进行运算,如果你的运算速度比较慢,处理不了那么多数据,那么在流感爆发的时候,你还没有计算出这个区域有没有流感潜伏,这就失去了时效性。所以处理速度很重要。

Variety

数据格式多样性:包含文字、影音、网页、串流等等结构性、非结构性的数据等等。

来源多样性:从动车系统传来的实时数据,从沃尔玛系统每周统计的数据等。

媒体多样性:随着多媒体的发展,用来传播的媒体也越来越多,如音频、视频、图片等等。

语义多样性:分为两个方面。一方面,举个最简单的例子,我们可以用数字来表示年龄,我们也有用小孩,青年,老人来表示年龄。另一方面,在不同语义情况下,相同的词会蕴含不用的意思。

Veracity

可疑性指的是当数据的来源变得更多元时,这些数据本身的可靠度、质量是否足够,若数据本身就是有问题的,那分析后的结果也不会是正确的。

Valence

这是最不常见到和谈到的属性。

这个属性的来源是化学里的化合价,在这里指的是数据的连接性,即连接的数据项与可能连接的总数的分数。

当两个数据相关的时候,则称这两个数据相互连接。而连接性会随着时间越来越大,导致数据关系越来越复杂,于是群体事件预测、关系变化的建模与预测等等也会越来越复杂。

Value

前面说了这么多,大数据的核心就是价值。所有的大数据的困难与问题都是如何将数据转化为价值。包括大容量和各种数据的易于访问和提供高质量分析,从而做出明智决策的价值等等。

大数据导论(一) 6V_第1张图片

你可能感兴趣的:(机器学习,&,深度学习,机器学习与数学模型)