译自:ChinaKDD
数据革命--日益增长的大型传感器、数码设备、企业数据库,和社交媒体网站--改变了一切,仅仅过去两年就新增了90%的数据。从营销人员到政策制定者都已开始接纳诸如大规模数据集和大数据之类松散的定义了。
1887-- 1890
美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
1935-1937
美国总统富兰克林•罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目,IBM最终赢得竞标,即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说,“要整理如此繁多的职工档案,还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”
1943年
一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”,为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后,帮助盟军成功登陆了诺曼底。
1961年
美国国家安全局(NSA),一个刚成立9年就拥有超过12000密码学家的情报机构,在间谍饱和的冷战年代,面对超量信息,开始采用计算机自动收集处理信号情报,并努力将仓库内积压的模拟磁盘信息进行数字化处理(仅1961年7月份,该机构就收到了17000卷磁带。)
1965-1966
美国政府一项秘密研究计划将所有政府记录进行格式转换——包括7.42亿条税单和1.75亿套指纹-—转换为磁式计算机磁带存放在唯一的国家数据中心,尽管该计划后来因为遭受公众抗议而被取消了。该计划激发1974年的隐私法案,这一法案限制了联邦机构分享个人信息的行为。
1989年
英国计算机科学家蒂姆·伯纳斯·李在20世纪60年代提出通过开创了一个叫做万维网的超文本系统在全球范围内利用互联网实现共享信息。
1996年8月
“我们正在开发一台超级计算机,它在1秒钟内的计算量将要比人工手算耗时3万年的计算量还要大”——美国总统比尔·克林顿。
1997年
美国宇航局研究员迈克尔•考克斯和大卫•埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战:超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。”他们称之为“大数据问题。”
2002年
在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。
2004年
9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”,以便能快处理应接不暇的数据。到2010年,美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据,沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。
2007 - 2008
随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”
2009年1月
印度政府建立印度唯一的身份识别管理局,对12亿人的指纹、照片,和虹膜进行扫描,并为每人分配12位的数字ID号码,将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用,但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。
2009年5月
美国总统巴拉克•奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。
2009年7月
应对全球金融危机,联合国秘书长潘基文承诺创建警报系统,抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。
2010年8月
“自人类文明开创之期到2003年,全球范围内的信息量总计5艾字节。而当前,每隔两天都会积累这么多新信息。”——谷歌CEO Eric Schmidt。
2011年2月
扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”
2012年3月
美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时,不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。
2012年7月
美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时,就更倾向于采取行动来解决它们,因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧。
读后感:
一直以来,不断增长的数据都是一项挑战。19世纪末,人口普查员不知道如何统计和分类快速增长的美国人口。1890年的人口普查活动促使美国统计学家赫尔曼•霍尔瑞斯发明了电动读卡器,只用一年时间就完成了这项原本耗时8年的项目,并由此开创了数据处理的新纪元。赫尔曼•霍尔瑞斯的这项技术也成为IBM的基础。
大规模的数据信息的价值很早就得到人们的认可,当时罗斯福利试图开展美国最雄心勃勃的大规模数据搜集项目,但由于搜集技术方面采用雇佣大规模情报员的方法遭到了反对党的嘲讽。
大数据处理和存储技术方面,起初主要源于军事方面的需求得以推进,例如二战期间,英国研发了能进行大规模数据处理的机器;二战后美国致力于对搜集得到的大量情报信息进行数字化处理。后来随着互联网技术和超级计算机的出现,新的大数据处理问题陆续出现,例如航空方面,“模拟飞机周围的气流——是不能被处理和可视化的。其数据集通常之大,超出了主存储器、本地磁盘,甚至远程磁盘的承载能力。”9.11事件后,美国政府就开始涉及大数据挖掘领域,组建了用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。之后又呼吁统一组建“一个基于网络的信息共享系统”应对大规模数据问题。
大规模数据分析技术方面,主要源于社交网络导致各种数据激增,大量数据和应用算法也日益渗透到世界范围内,曾一度导致人们误认为面临了“理论终结时代”的到来。
大数据应用方面,起初许多科学家和工程师都嘲笑“大数据”只不过是一个营销术语。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。他们的认可对“大数据”术语提供了智力支持。它使人们的思维不仅局限于数据处理的机器,“大数据真正重要的是新用途和新见解,而非数据本身”。2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。
总的来看,对大规模信息的处理需求从根本上推动了大数据相关技术的发展,虽然起初对大数据技术的推动力主要源于国家安全方面,例如超级计算机的发明,大数据的存储和处理技术、以及大数据分析算法的研发,最终导致了教育、金融、医疗等多方面开始实施大数据的广泛应用。