了解大数据:不只是海量和非结构化

 

如果说大数据的特点是海量和非结构化,那也是不全面的。大数据带来的挑战还在于它的实时处理。在当今快速变化的社会经济形势面前,把握数据的时效性,是立于不败之地的关键。

  IBM公司把大数据概括成了三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。

  “大数据”是从英语“Bigdata”一词翻译而来,过去常说的“信息爆炸”、“海量数据”等等已经不足以描述这个新出现的现象,“大数据”一说就在近几年崭露头角,并首先为全球各大IT企业所重视。这些企业基于自身的商业目标,对“大数据”做出了各种解释,其中有一条已成共识:“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”

  当然,大数据首先是数据量大。过去常用的千字节(KB)容量今天已像人民币的分币,人人口中已经是兆(MB)和吉(GB),专业的则在大谈太(TB),甚至是拍字节(PB)。这从一个侧面表明,数据容量增长的速度大大超过了硬件技术的发展速度,以至于引发了数据存储和处理的危机。

  然而,大数据不只是大。海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的改变。原来的数据都可以用二维表结构存储在数据库中,如常用的Excel软件所处理的数据,称之为结构化数据。但是现在更多互联网多媒体应用的出现,使诸如图片、声音和视频等非结构化数据占到了很大比重。有统计显示,全世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,预计至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。用于产生智慧的大数据,往往是这些非结构化数据。

  如果说大数据的特点是海量和非结构化,那也是不全面的。大数据带来的挑战还在于它的实时处理。在当今快速变化的社会经济形势面前,把握数据的时效性,是立于不败之地的关键。

你可能感兴趣的:(数据库,互联网,IBM,velocity,Excel,存储)