对数字在行?对数据着迷?那么你听到的是机遇的敲门声。
周墨(音译,Mo Zhou)去年夏天刚刚完成耶鲁大学的MBA学业就被IBM抢走,加入了这家技术公司快速发展的数据顾问的队伍当中。他们帮助企业弄清楚数据爆炸的意义—Web流量、社交网络上的评论,以及监控货物、供应商及客户的软件和传感器上的数据,以提供决策指南、削减成本、拉动销售。“我一直对数字情有独钟,”周小姐说。她是数据分析师,这个职位跟她的技能很配。
为了开发利用好这股数据洪流,美国需要大量像她这样的人。去年,咨询公司麦肯锡的的研究机构麦肯锡全球研究所进行了一项调查,调查预计,美国需要14万至19万名以上具备“深度分析”专长的人员,而对具备数据知识的经理的需求超过150万,无论是招聘的还是再培训的都行。
数据丰富的影响延伸到商业之外。比如说Justin Grimmer就是新生代的政治学者中的一员。作为斯坦福大学的一名28岁的助理教授,他看到了“一个机遇,因为学科正变得越来越趋于数据密集”,所以在自己的大学及研究生研究当中,他把数学运用到了政治科学里面。他的研究包括对博客发文、国会演讲以及新闻发布、新闻内容的自动计算机分析,以便深入了解政治观念是如何被传播出去的。
其他领域,如科学、体育、广告及公共卫生,发生的故事也类似—即数据驱动发现和决策的趋势。“这是一次革命,” 哈佛量化社会科学研究所主任Gary King说:“我们的确正在起航。不过,在庞大的新数据来源的支持下,量化的前进步伐将会踏遍学术、商业和政府领域。没有一个领域可以不被触及。”
欢迎来到大数据时代。硅谷的新宠,前有Google,后有Facebook,都是驾驭Web数据的大师—它们都擅长于给在线搜索、文章和消息披上互联网广告的外套。上个月,在瑞士达沃斯举行的世界经济论坛上,大数据是框定的主题之一。该论坛的一份报告,《大数据,大影响》,宣告了数据成为一种新型的经济资产,就像货币或者黄金一样。
里克·斯莫兰(Rick Smolan),《生活中的一天(Day in the Life)》系列摄影的作者,正计划在今年晚些时候启动一个名为《大数据的人类面孔》的项目。斯莫兰先生是一位狂热份子,称大数据有可能成为“人类的仪表盘”,能够作为一项智能工具帮助与贫穷、犯罪以及污染作战。隐私的倡导者则持怀疑的态度,警告说大数据就是老大哥(注:Big Data is Big Brother,看过乔治·奥威尔的《1984》的诸位对‘Big Brother’应该不会感到陌生),只不过是披上了企业的外衣。
什么是大数据?这是一种文化基因(meme),一个营销术语,确实如此,不过也是技术领域发展趋势的一个概括,这一趋势打开了理解世界和制定决策的新办法之门。根据技术研究机构IDC的预计,大量新数据无时不刻不在涌现,它们以每年50%的速度在增长,或者说每两年就要翻一番多。并不仅仅是数据的洪流越来越大,而且全新的支流也会越来越多。比方说,现在全球就有无数的数字传感器依附在工业设备、汽车、电表和板条箱上。它们能够测定方位、运动、振动、温度、湿度、甚至大气中的化学变化,并可以通信。
将这些通信传感器与计算智能连接在一起,你就能够看到所谓的物联网(Internet of Things)或者工业互联网(Industrial Internet)的崛起。对信息访问的改善也为大数据趋势推波助澜。比如说,政府数据—就业数字等其他信息正在稳步移植到Web上。2009年,华盛顿通过启动Data.gov进一步打开了数据之门,该网站令各种政府数据向公众开放。
数据不仅变得越来越普遍,而且对于计算机来说也变得更加可读。这股大数据浪潮当中大部分都是桀骜不驯的—都是一些像Web和那些传感数据流的文字、图像、视频那样难以控制的东西。这被称为是非结构数据,通常都不是传统数据库的腹中物。
不过,从互联网时代浩瀚的非结构数据宝藏中收获知识和洞察的计算机工具正在快速普及。处在一线的是正在迅速发展的人工智能技术,像自然语言处理、模式识别以及机器学习。
那些人工智能技术可以被应用到多个领域。比方说,Google的搜索及广告业务,还有它那已经在加州驰骋了数千英里的实验性机器人汽车, 这些都使用了一大堆的人工智能技巧。这些都是令人怯步的大数据挑战,需要解析大量的数据,并要马上做出决策。
反过来,新数据的充裕又加速了计算的进展—这就是大数据的良性循环。比方说,机器学习算法就是从数据中学习的,数据越多,机器学得就越多。我们就拿Siri这款苹果去年秋季引入的iPhone对话及问答应用作为例子吧。该应用的起源还要追溯到一个五角大楼的研究项目,并在随后拆分出了一家硅谷的初创企业。苹果于2010年收购了Siri,然后不断地给它喂数据。现在,随着人们提供了数以百万计的问题,Siri正变成一位越来越老练的个人助手,为iPhone用户提供了提醒、天气预报、饭店建议等服务,其回答的问题数如宇宙般不断膨胀。
麻省理工学院斯隆管理学院的经济学家Erik Brynjolfsson说,要想领会大数据的潜在影响,你得看看显微镜。发明于4个世纪之前的显微镜,使得人们以前所未有的水平观看和测量事物—细胞级。这是测量的一次革命。
Brynjolfsson教授解释说,数据的测量正是显微镜的现代等价物。比如说,Google的搜索,Facebook的文章以及Twitter的消息,使得在产生行为和情绪时对其进行精细地衡量成为可能。
Brynjolfsson说,在商业、经济等其他领域,决策将会越来越以数据和分析为基础,而非靠经验和直觉。“我们可以开始科学化很多了”,他评论道。
数据优先的思考是有回报的,这方面存在着大量的轶事证据。最出名的仍属《点球成金(Moneyball)》,这本迈克尔·路易斯(Michael Lewis)2003年出的书,记录了预算很少的奥克兰运动家队(Oakland A)如何利用数据和晦涩难懂的棒球统计识别出被低估的球员的故事。大量的数据分析不仅已成为棒球的标准,在其他体育运动中亦然,包括英式足球在内,且在去年由布拉德·皮特(Brad Pitt)主演的同名电影上映之前老早就这么做了。
零售商,如沃尔玛和Kohl’s,则分析销售、定价和经济、人口、天气方面的数据来为特定的门店选择合适的产品,并确定降价的时机。物流公司,如UPS,挖掘货车交付时间和交通模式方面的数据以调整路线。
而在线约会服务,像Match.com,则不断仔细查看其上个人特点、反应以及沟通的Web列表以便改进男女配对约会的算法。在纽约警察局的领导之下,美国全国的警察局都在使用计算机化的地图,并对诸如历史犯罪模式、发薪日、体育活动、降雨及假日等变量进行分析,以期预测出有可能的犯罪“热点”,并在那些地方预先部署警力。
Brynjolfsson教授与另外两位同事一道进行的研究于去年公布,研究认为,由数据来指导管理正在美国的整个企业界扩散并开始取得成效。他们研究了179家大型的公司后发现,那些采用“数据驱动决策制定”者其获得的生产力要比通过其他因素进行解释所获得的高出5到6个百分点。
大数据的预测能力也正在被探索中,并在公共卫生、经济发展及经济预测等领域有获得成功的希望。研究人员已发现,Google搜索请求中诸如“流感症状”和“流感治疗”之类的关键词出现的高峰要比一个地区医院急诊室流感患者增加出现的时间早两三个星期(而急诊室的报告往往要比浏览慢两个星期左右)。
全球脉动(Global Pulse),这项由联合国新发起的行动计划,希望大数据能对全球的发展起到杠杆作用。该组织将会用自然语言破译软件对社交网络中的消息以及短信进行所谓的情绪分析—以帮助预测出特定地区失业、开支缩减或疾病爆发的情况。其目标是使用数字化的预警信号来预先指导援助计划,比方说,预防一个地区出现倒退回贫困的情况。
研究表明,在经济预测方面,Google上房产相关搜索量的增减趋势相对于地产经济学家的预测而言是一个更加准确的预言者。美联储,还有其他者均注意到了这一点。去年7月,美国国家经济研究局主持了一个题为“大数据的机遇”的研讨会,探讨其对经济专业的影响。
大数据已经转变了对社会网络如何运转的研究。在上世纪六十年代,在一次著名的社会关系实验中,哈佛大学的米尔格兰姆(Stanley Milgram)利用包裹作为其研究媒介。他把包裹发往美国中西部的志愿者,指导他们将包裹发给波士顿的陌生人,但不是直接发过去;参与者只能将包裹发给自己认识的某个人。包裹易手的次数平均值少得不同寻常,大概只有6次。这就是“小世界现象”的一个经典体现,由此也形成了一个流行语“六度分隔”。
今天,社交网络研究包括了发掘巨量的在线集体行为的数字数据集。其中的发现包括:你认得但不常联系的人—也即社会学上称为“弱联系”的人,是职位空缺内部消息的最佳来源。他们在一个略微不同于你的密友圈的社交世界中穿梭,所以能够看到一些你和自己最好的朋友看不到的机会。
研究人员能够看出影响的模式,可以知道某个主题的交流什么时候最热—就拿跟踪Twitter的标签趋势来说吧。这个在线的透明玻璃鱼缸就是观摩巨量人群实时行为的一扇窗口。“我需要理解某项活动的爆发,我在数据中寻找热点,”康奈尔大学的Jon Kleinberg教授说:“你只能通过大数据才能做到这一点。”
诚然,大数据自身也存在风险。统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。斯坦福大学的统计学教授特Trevor Hastie说,在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针(注:呵呵,看起来这比大海捞针还要困难,因为千人一面)”。
大数据还为恶搞统计和带偏见的实情调查研究提供了更多的原材料。这就是老花招—事实我已经知道了,现在让我们来把它们给找出来吧,的新诀窍—高科技。乔治梅森大学的数学家Rebecca Goldin说,这就是“数据利用最有害的方式之一。”
在利用计算机及数学模型的情况下,我们已经驯服和理解了数据。这些模型,正如文学之隐喻,是一种解释的简化。它们对于理解是很有用的,不过也存在局限性。隐私倡导者警告说,根据在线调查,模型有可能推导出一种不公平或带歧视性的相关性及统计推断,从而影响到某人的产品、银行贷款及医疗保险。
尽管存在这些告诫,但大势似乎已经不可逆转。数据已在驾驶位就坐。它就在那里,它是有用的,是有价值的,甚至还很时尚。
资深数据分析师,长久以来朋友一听到他们谈自己工作就感到厌烦的人,现在却突然变得对他们好奇起来。这些分析师称,此乃拜《点球成金》之所赐,不过实际情况远非如此。“文化改变了”,哥伦比亚大学的统计及政治科学家Andrew Gelman说:“大家认为数字和统计有趣,好玩。现在它是很酷的东西了。”