字节(B: byte), 兆字节(MB: megabyte), 千兆字节(GB: gigabyte)…… 你大概对这些术语已经非常熟悉了吧,但是,你知道什么是“太字节”(TB: terabyte)、”拍字节“(PB: petabyte)和“艾字节”(EB: exabyte)吗?
这些比较少见的词是用来描述大数据的单位,或者描述那些普通数据软件难以在短时间获取、组织、管理及处理的数据集。试想一下,1B相当于一个字母,1MB(1024KB)就相当于一本书了。1GB(1024MB)大约是1600本书,1TB是1024GB,而1PB是1024TB。最后,1EB是1024PB,或者说相当于1,600,000,000,000本书,相当于美国国会图书馆藏书量的3000倍!
1987到2007年期间,数字储存量每年增长23%。在80年代数字化革命以前,大多数数据储存在录像带、黑胶唱片、盒式录像磁带和照片上。
1986年的时候,在纸张上的储存占数据总储量的三分之一;
然而在2000年,25%的数据通过数字的形式储存。
到2002年,数字储存的容量已经超过了模拟信号储存的容量,而2007年,94%的数据是以数字形式储存的。
现在,每天有超过2.5EB(或者说25亿GB)的数据在产生——这是一个已经相当大的数字,而且还会以一个显著的速率持续增长,其中,有更多的数据来自移动设备。一些专家提出,目前世界上90%的数据,都是近两年才产生的。
当然,大公司在其中起到了非常大的作用。举个例子,谷歌目前估计储存了超过10EB的数据,Facebook则每天收集到500TB的数据,而且在2012年已经有100PB的照片和录像。其他公司例如亚马逊、微软、Target、VMare、UPS和AWS都是大数据中的巨头。
我们也在通过各种各样的方式在日常生活中接触大数据,例如,大数据可以帮助准确地预测体育比赛和选举的结果。我们在用智能手机导航或者回答问题的时候,都是在和大数据打交道。如果你留意到有一个和你生活息息相关的Facebook广告出现在你的新闻栏里,那你就要感谢大数据带来的定制化广告和购物推荐;下一次你在去工作的路上全程绿灯,你就会知道大数据可能已经插足你的城市的交通了。
未来,云科技会被更广泛地应用;2014年的一份研究发现,94%的组织已经或者希望可以在他们的运营中采用云计算。到2020年,估计会有40ZB(zettabytes, 泽字节,等于1024EB) 的数据会产生。然而,云技术的发展会伴随着对安全的更多关注,因为安全和知识产权的窃取是云使用者的主要顾虑。我们同时可以预见,私人云计算的应用以及相应的教育、职业都会随之增长。
下面是信息图文字:
什么是大数据?
大数据包括了那些数据量很大,导致常用的数据软件工具无法在合理时间内获取、组织、管理和处理的数据集。
数据的大小
位Bit(1/8字节) 1/8个字母
|
半字节Nibble (1/2字节) 1/2字母 |
字节Byte(1字节) 1个字母 |
兆字节Megabyte(1024千字节) 1本书 |
吉字节Gigabyte (1024兆字节) 1600本书 |
太字节Terabyte(1024吉字节) 1,600,000本书 |
拍字节Petabyte(1024太字节) 160,000,000本书 |
艾字节Exabyte(1024拍字节)
1EB当于美国国会图书馆藏书量的3000倍。
1,600,000,000,000本书
只差10,000英里就能碰到月球啦!
每天有25万兆(2,500,000,000,000,000,000,中文的“兆”是“千万亿”的下一个数位)个字节的数据在产生,他们来自各个地方,从社交媒体网站的照片到气象气球,或者正在探索火星的“好奇号”探测器。
比大数据更大
泽字节(Zettabyte) (=1024EB)
尧字节(Yottabyte)(=1024ZB)
Googolbyte (理论值)(10的1000次方)
大公司中的大数据
谷歌每天处理35亿个数据请求,这要求巨量的数据储存量。谷歌凭它大量的产品和功能被认为是世界上最大的大数据公司之一。在2009年,谷歌在准备拥有超过1EB的数据。而今,它被认为有超过10EB的数据量。 | |
Facebook每天收集500TB的数据,包括25亿段文字,27亿个赞,3亿张照片。2012年,Facebook公布他们已储存100PB的照片和录像。 | |
Amazon | 亚马逊从1.52亿谷歌购买记录中抓取数据帮助用户决定购买什么商品。他们使用百万名顾客的历史数据来准确预测购物需求。亚马逊估计大约储存了1EB的数据。他们没有直接公布数据储存量的大小,只是承认大约有一百万的“物品”。平均来说,每个“物品”会有1MB的数据,这样推算他们大概有1EB的数据。 |
Microsoft | 微软在他们的数字上也有些模糊。2013年CEO Steve Ballmer 宣布微软有超过一百万个服务器,他们只是模糊地透露到,Hotmail——他们的电子邮箱客户(后来改名为Outlook.com) 在百万以上的邮箱中储存了数百PB的数据。 |
其他大数据公司
Target | Target把注意力放在消费者的购买历史、预估的收入、年龄和婚姻状况来估计潜在的购买习惯。Target曾经试图判断女顾客是否怀孕来寻找他们的广告目标用户并合理安排他们的存货,一度引起争议。 |
VWare | VWare是一个专注于云和可视化软件的公司。他们为其他企业提供服务器空间和虚拟机器软件来储存和处理大数据。他们运用于招聘的综合云计算系统技术近来受到了肯定。这允许公司同时利用多重云,包括私有的和公共的。 |
UPS | 2013年UPS推出ORION,这款软件运用了送货期间收集的关于消费者、交通和驾驶的数据来优化路线。2013年底,他们已经节省了150万加仑汽油并且减少了14000公吨二氧化碳排放。 |
AWS | 根据亚马逊的消息,有超过6万公司在使用AWS。AWS正在使用比亚马逊更多带宽。在亚马逊的57亿美金年收入当中,AWS占了其中的1.31亿。AWS每秒钟处理65万S3(Simple Storage Service)请求,而且拥有超过900,000,000个对象。*谁在使用AWS? 三分之一的互联网使用者每天至少会进入一次用AWS基础搭建的网站。百分之一的网络传输通过AWS的基础架构。 |
大数据的过去、现在与未来
过去:数码储存在1986到2007年期间每年增长23%
大部分数据储存在录影带里(如八十年代数字化革命前的盒式磁带录像带)、黑胶唱片、影视录像磁带等,还有一部分储存在照片上。
1986年, 纸张上的储存占数据总储量的33%。
2000年,世界上25%的数据通过数码储存。
2002年是数码储存量超过模拟信号储存量的第一年。
2007年,94%的数据通过数码形式储存。
现在:
今天,每天有超过2.5EB(或者说25亿GB)的数据在产生,这数字还会持续增长,其中有更多的数据来自移动设备。
一些专家提出,目前世界上90%的数据,都是近两年才产生的。
云技术的未来:
到2020年,估计会有40ZB(zettabytes, 泽字节,即1024EB) 的数据会产生。
更多企业采用:2014年的一份研究发现,94%的组织已经或者希望可以在他们的运营中采用云计算。
更加关注安全:研究表示,云使用者把安全列在他们对云计算顾虑中的前五位。知识产权的窃取首要的安全隐患。
更多私有云计算应用:目前,有7%的企业正在使用全私有化的云计算,58%使用私有和公共云计算的结合。
但是,24%的受访者表示他们对探索私有云的应用更感兴趣,因为公共云计算涉及许多法律及管制。
更多的与云计算相关的教育和职位:
一项调查显示,66%的美国和英国组织对提高他们组织的计算机能力、更好地掌握云计算很感兴趣,但是56%表示他们并不知道哪里有任何与云计算有关的课程。
42%的美国和英国组织表示他们已经为了云计算相关技术聘请了相关的计算机专业人士,但43%表示寻找拥有云计算技术的人才非常困难。
79%的美国和英国组织表示他们相信大学课程中有必要加入更多云计算的内容。
大数据如何影响我们的日常生活:
体育赛事预测:大数据在预测体育赛事中已经被证实是有效的。2012年,大数据预测美国会在夏季奥运会中获得108枚奖牌,而最后美国获得了104枚奖牌。
选举预测:大数据已经被运用在选举结果预测上。统计学家Nate Silver准确地预测了2012年的总统选举。
智能手机:当一部智能手机用户在导航、大声对手机问问题或者任何其他功能,这都是大数据分析的结果。
个性化广告和购物推荐:大数据的其中一个重要应用是在购物推荐和网站上的个性化广告。一项研究发现,点击广告栏比完成 “海豹突击队”(美国一作战部队)训练的可能性还要小。消费者和企业都会从个性化广告中获益。
优化的交通:一些公司和城市已经利用大数据优化他们城市的交通流量。使用司机的GPS信号得到的数据来对实时交通情况、天气、事故等作出调整,从而保持交通的顺畅。
流行病检测与预防:谷歌已经在实际中运用大数据,最近,传统的医药公司也运用大数据来预测哪里可能会有如流感病毒等流行病毒的爆发。
原文标题:The surprising things you don’t know about Big Data
转自:36大数据(36dsj.com)