A Revolution That Will Transform How We Live, Work, and Think.
不期而遇的一本《大数据时代》将我引进大数据的领域。这个浪里淘沙的时代,我们都站在这个时代改革的前沿,而作为互联网最具爆发力的一种媒介,它给我传递着什么资讯?如果说我们错过了2000年左右的互联网浪潮,错过电商竞争的时代,但我们赶上了云计算和大数据的兴起,这将是一次难得的转型与立足机会。而它的到来,会给我们带来什么转变?
就像在《大数据时代》中的开篇引言:
“一场生活、工作与思维的大变革。大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”。
商业、公共卫生、思维、时代转型,生存方式,乃至方方面面。在过去的一年中,这三个也犹如星星之火以致燎原之势。在我们炒大数据概念的同时,我们更关心的是:什么事大数据?大数据的核心是什么?、大数据能产生什么样的价值?那就随着我的理解,开始我们的大数据之旅。
大数据时代的思维变革:1、更多。2、更杂。3、更好。
由传统的随机样本预测,到全体预测的转变。
当数据处理技术已经发生了翻天覆的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。
传统“样本”数据是我们基于传统的统计学,利用小样本事件来预测全集发生的概率。而在大数据的思维中,既然是“样本”,那定时存在误差,有误差定会的预测结果产生影响,那就不能称之为准确。随着信息数据采集的便捷性,数据的规模也远远超过我们的想象。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系却不大,而样本的选择的随机性比样本数量更重要。但这又提出了新的问题,如何有效的选择样本,如何选择样本和全局数据更匹配。在我们遇到各种各样的问题的同时,增加样本空间,看似一个解决问题的办法,但这同样会出现上面的问题。那我们接下来要做什么?大数据是指不再采用随机分析法,而是采用所有数据的方法。其实,这样的处理方法,在具体实现的过程中也会遇到一些问题,但相比于随机抽取“样本”,准确率已不可同日而语。
不再是精确性,而是混杂性。
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据分析利用的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们视图扩大数据规模的时候,要学会拥抱混乱。这里谈到数据的混杂,必然会牵扯到混杂数据的存储。传统关系型数据库已经无法满足我们的需求,随之NoSql(非关系型数据)应运而生。随着待处理数据量逐渐增多,大家越来越需要一种在集群环境中易于编程且执行效率高的大数据处理技术,NoSql。NoSql不在局限于传统关系型数据库的条条框框,而只是一个key,一个vlaue,最大的特点准许数据的冗余与混杂。这里不再多探讨非关系型数据库的特点。
大数据要求我们有所改变,我们必须能够接受混乱和不确定性。确定性似乎一直是我们生活的支撑,就像我们常说“丁是丁,卯是卯”。但认为每个问题只有一个答案的想法已经站不住脚了,不管我们承认不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相又近了一步。
不是因果关系,而是相关关系。
知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要数据自己“发声”。
其实上述前两个思想的重大转变导致第三个变革,这个变革有望颠覆很多传统观念。而这些传统观念更加基本,往往被认为是社会建立的基础:找到一切事情发生背后的原因。而在更多的时候,寻找数据间的关联并利用这种关联就足够了。这种关联,决定了预测的关键。相关关系的核心是量化两个数据值之间的数理关系。相关关系强调的是指一个数据值增加时,另一个数据只很有可能随着增加。例如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就一位置当一个数据值增加时,另一个数据值不会发生变化。例如:我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现几乎扯不上什么关系。
当我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果,A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。当我们不在为有了想法,然后才收集数据去测试想法的可行性的时候。我们已经有了太多的数据和更好的工具,我们要找到之间的相关性,就变得更容易、更快。这也意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。而如何获得可利用的相关关系,就是我们再进一步探讨的问题了。建立在相关关系分析法基础上的预测是大数据的核心。
在大数据的背后,我们关注的“是什么”,而不再是“为什么”。我们跳开追本溯源的探究,开始了不在纠结与因果的论断,从颠覆了传统的理念,从关系入手,开启数据大数据的探索。
大数据,改变人类探索世界的方法。我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当做我们探究的重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。使我们不再受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供更多更新的深刻洞见。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然转变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。在高科技行业里的很多人认为是依靠新的工具,从高速芯片到高效软件等。当然,这可以理解为因为他们自己是工具创造者。这个问题固然重要,但不是我们要考虑的问题。大数据趋势的深层原因,就是海量数据的存储以及越来越多的事物是以什么样的数据形式存在的。这就引入到下一个话题。
一切皆可“量化”。
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。
数据化,不是数字化。数据化与数字化大相径庭。数字化指的的是模拟数据转换成用0和1表示的二进制,这样电脑就可以处理这些数据了。而数据化,是一种把现象转变为可制表分析的量化形式的过程。为了得到可量化的信息,我们要知道如何计量:为了数据化量化了的信息,我们要知道怎么记录计量的结果。量化,是数据化的核心。计算机带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机可以通过数学分析挖掘出比数据更大的价值。数字化带来了数据化,但是数字化无法取代数据化。当文字变成数据,当方位变成数据,沟通变成数据,你就可以想象,一切都可以数据化了。而这中,我们很难想象的数据,正在日复一日的扩大,我们很难想象的扩大,随之带来的就是存储,处理和展示等一系列问题。我们姑且不去考虑这背后,会产生什么样的联动效应。我们闭上眼,就花花的字符,就在你眼前浮现,这个世界也就在你的眼前。
一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。我们跨过艰辛的人工分析过程后去揭示隐藏在数据中的价值。而今天,拥有了数据分析工具(统计学和算法)以及必需的设备(信息处理器和存储器),我们就可以在更多领域、更快、更大规模地进行数据处理了。当你抛开传统的思维模式,将世界看作信息,看做可以理解的数据海洋,为我们提供了一个从未有过的审视的视角,去渗透到生活的每一个角落。数据化的影响会使水渠和报纸的影响微乎其微,同时,通过赋予人类数据化世间万物的工具,它也对互联网的地位提出了挑战。但目前,它的主要用途还是在商业领域。谈到商业,第一问题就是:价值。
“取之不尽,用之不竭”的数据创新。
数据就像一个神奇的矿山,当它的首要价值被发掘后仍能不断地给予。它的真实价值就像漂浮在海洋中的冰山,第一时间看到的只是冰山一角,而绝大部分都隐藏在其表面之下。
在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织者看待和使用数据的方式。在大数据时代,我们更强调的是数据的“潜在价值”。当我们明白,你所看到的只是冰山一角的时候,我们就应该明白,那些创新型企业如何能够提取其潜在价值并获得潜在的巨大利益。总之,在我们判断数据的价值的时候,我们需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。
数据的价值体现在其所有可能用途的总和。这些似乎无限潜在用途的选择,不再是指传统意义上的利用选择,而是实际意义上可能产生价值的选择。这些选择的总和加在一起就是数据的价值,就是数据的“潜在价值”。同时,我们不再是数据的单遍扫描,而是数据的再利用、数据重组利用、扩展数据利用、数据折旧利用、数据的废除利用、开放数据的利用、数据的估值利用等。
当我们不在站在冰面上看问题的时候,解决问题的方式可能会变得更开阔。而数据价值的关键就是看似无限的再利用,即潜在价值的利用。数据积累的过程固然重要,但是远远不够,因为大部分数据的价值体现在它的使用过程中,而不是仅仅的占有数据本身。
数据、技术与思维的三足鼎立。
当年,微软以1.1亿美元的价格收购了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
上面我们谈到如何通过创新用途,挖掘出数据新的价值,主要是指我们所说的潜在价值。如今,我们把重点转移到使用数据的公司和它们如果通过数据产生价值如何融入大数据价值链中。
大数据价值链3大构成:
(1) 基于数据本身的公司:这些公司拥有大量数据或至少可以收集到大量数据却不一定有从数据提取价值或使用催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点毋庸置疑的,但它的数据是通过两个独立的公司授权给别人使用的。
(2) 基于技能的公司:它们通常是咨询公司、技术供应商或第三方数据分析公司。它们掌握了专业的技能但并不一定拥有数据或提出数据创新性用途的才能。比方说:沃尔玛和Pop-Tarts这两个零售商是借助Teradata的分析来获得营销点子,Teradata就是一家大数据分析公司。
(3) 基于思维的公司:Jetpac的联合利华的创始人,皮特-华登(PeteWarden),就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有的是挖掘数据的新价值的独特想法。
所谓的大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。数据最终的归宿就是个人,个人的价值。我们处在的不再是思考所谓的可行,而是思考所有的可能。大数据思维,必然会引起一些人的恐慌,也必然引起一些公司的倒闭与转型。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。当然,大数据不会让所有行业的中等规模的公司消亡,但是肯定会给可以被大数据分析所取代的中等规模的公司带来巨大的威胁。
当我们正在憧憬大数据给我们带来的变革的时候,担忧依然存在。隐私问题,就是不可避免的。在大数据时代,如何关注用户隐私保护,当我们的信息暴露在公开的环境下,我想会是怎样的可怕。这是更是值得我们思考的问题,而这也是大数据给我们带来的不良影响。
让数据主宰一切的隐患。
我们时时刻刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,不仅窃取到我们心中的“TA”,还有我们的社交关系网。在大数据时代,不管告知与许可、模糊化还是匿名化,所有的隐私策略都失效了。现如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更加普遍的时候,情况将更加不堪设想。现在我们会谈到数据可以预测一个人是否要犯罪,是否有一些企图,在大数据时代的情况下,这一切都变得不再那么难以想象。预测的目的,不是因为所做而受到惩罚,而是因为将做,即使他们实际上并没有去做。
在我们谈到大数据时代,暴露我们的隐私的情况下,人们为此感到担忧。其实在另一方面,通过大数据预测也可以为我们打造一个更安全、更高效的社会,但是却也否定了我们之所以为人的重要组成部分——自由选择的能力和对自己的行为负责的能力。大数据成为了集体选择的工具,但也放弃了我们自由的意志。
大数据的不利影响不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因。因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。
利益和风险就好比一把双刃剑,我们不能期待占有所有的利益之后,而不承担利益后的风险。当我们在这两项中间抉择的时候,我们选择的是什么?在大数据为监测我们的生活提供了便利,同时也让保护隐私的法律失去了应有的效力。面对大数据,保护隐私的核心技术不再适用了。同样通过大数据预测,对我们的未来想法而非实际的行为采取惩罚,也让我们诚惶诚恐。那些尝到大数据益处的人,可能会把大数据运用到它不适用的领域,而且会产生过分依赖对大数据分析结果的信赖。随着大数据预测的改进,我们会越来越想从大数据中掘金,最终导致一种盲目崇拜,毕竟它是无所不能的。
在杜绝对数据的过分依赖,是我们在大数据无所不能的面前能提醒自己的一句法则。而是正确的利用取之有道,而不是成为数据的奴隶。
责任与自由并举的信息管理。
当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许就只有几年的时间。
大数据时代的到来,也将彻底改变传统管理的模式:
变革1:个人隐私保护,从个人许可到数据使用者承担责任
将责任从民众转移到数据使用者。因为数据使用者比任何人都明白他们想要如何利用数据。他们评估(或请专家评估)如何避免商业机密的泄露。在他们产生价值之后,他们理所当然要对自己的行为负责。
变革2:个人动因与预测风险
在大数据时代,关于工作的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。有了大数据,我们就能预测人的行为,而且还很准确,这就诱导我们依据预测的行为而非实际的行为对人们进行评定。
变革3:击碎黑盒子,大数据算法师的崛起
大数据的运作是在一个超出我们正常理解的范围之上的。大数据要求每一个新的人群来扮演这种角色——算法工程师。他们存在有两种方式:一、机构外部算法师。二、内部算法师。他们就犹如公司内部的会计人员和进行鉴证的外部审计师。这些新的专业人员都是计算机科学、数学和统计学领域的专家。他们担当大数据分析和预测的评估专家。同时他们必须保证公正和保密。他们以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的是否合理。一旦出现争议,他们有权考察和分析结果相关的运算法则、统计方法以及数据集是否正确。
变革4:反数据垄断托拉斯
数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的市场,这些创新就实现不了。随着大数据时代下管理的转变,我们相信,大数据不利的影响会得到控制。然而,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的市场。我们必须防止21世界的数据大亨,它相当于19世界垄断美国的铁路、钢铁和电报网络的托拉斯。
正在发生的未来:
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全代替。大数据为我们打开了一道门,它提供的不是最终的答案,而只是参考答案,帮助我么是暂时的,而更加美好的方法和答案还在不久的未来。
接下来,我们将更加深入的探讨大数据是如何运行的?以及大数据将会在哪些具体的领域产生改变以及如何实施它们?
Write in Beijing
总结参考文献《大数据时代》
Copyright ©BUAA