一、第二部分第06章——角色定位:数据、技术与思维的三足鼎立
如今我们所处在的时期,还是大数据时代的早期,数据本身的“话”说的还不多,而技术和思维还在不断形成和培养之中,也是当前最有价值的部分。作者告诉我们,大数据的大部分价值最终还是要从数据本身挖掘。就像微软以1.1亿美元购买了大数据公司Farecast,但是两年以后谷歌却以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。这一章,作者从数据、技术、思维三方面去定位大数据的角色,并且举了很多公司的例子,着重说明了哪些公司是数据充分,哪些是技术先进,哪些是大数据思维超前,还有哪些是三者兼备。
根据所提供价值的不同来源,分别出现了三种大数据公司,这三种来源是指:数据本身、技能与思维。第一种是基于数据本身的公司。这些公司拥有大量的数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。第二种是基于技能的公司,它们通常是咨询公司、技术供应商或者是分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。第三种是基于思维的公司。对于这些公司来说,数据或者是技能并不是成功的关键,让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。这就是大数据价值链的三大构成。我们就这三类公司分别举举例。
大数据掌控公司
大数据最值钱的部分就是它自身,所以最先考虑数据拥有者才是明智的。他们可能不是第一手收集数据的人,但是他们能够接触到数据、有权使用数据,或者将数据授权给渴望挖掘数据价值的人。美国四大机票预订系统之一的ITA Software就为Farecast提供预测机票价格所需要的数据,但是它自身却并不进行这样的数据分析。原因就在于ITA和Farecast的核心竞争力不一样,ITA着重于卖,本着对顾客负责的态度不去考虑这些销售数据的额外利用,另外公司本身也没有创新想法,毕竟还涉及到一个专利的问题。所以ITA只是单纯提供数据,就分得了Farecast利用大数据创造价值的一杯羹。还有一种公司,它本身就处于大数据信息链的核心,但是自己也看到了分析数据、挖掘价值的巨大商机,就如同VISA和MasterCard这样的信用卡发行商和其他大银行一样,他们能够从自己的服务网中获取更多的交易信息和客户的服务信息。慢慢的,它们的工作也就从单纯的处理支付行为转化为处理的同时收集数据。就像ITA一样,MasterCard也可以把这些数据都授权给第三方使用,但是它更倾向于自己分析、挖掘数据的价值,然后把分析结果卖给其他公司。处于这样的数据链的中心,Mastercard占据了收集数据和挖掘数据价值的黄金位置。可以想象,未来的信用卡公司不会再对交易收取佣金,而是会免费提供支付服务。作为回报,它们会获得更多的数据,而对于这些数据进行复杂的分析之后,它们又可以卖掉分析结果以取得利润。还有比如说推特,它拥有海量的数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。仅仅是拥有了大量的数据,就能够获取可观的利益,这就是大数据掌控公司的典例。
大数据技术公司
第二种类型就是拥有技术和专业技能的公司,它们手上没有数据只有技术,往往为政府或者是大型公司提供大数据服务,数据由对方提供,供自己使用,提供服务使得对方获利,而自己则获取解决问题的佣金。比如说很多的咨询公司。2005年,埃森哲咨询公司与密苏里州圣路易斯市共同合作了一个实验项目,它给20辆公交车安装了无线传感器来监测车辆引擎的工作情况。这些数据被用来预测公交车什么时候会抛锚以及维修的最佳时机。研究促使车辆更换零件的周期从30万或者40万公里变成了50万公里,仅这一项研究结果就帮助该城市节省了60万美元。在这里,获利的不是埃森哲,而是圣路易斯市。在医学数据领域,我们可以看到一个关于技术公司如何能提供有效服务的很好的例子。位于华盛顿州的华盛顿中心医院与微软研究中心合作分析了多年来的匿名医疗记录,通过这样的办法要判断病人出院以后由于心理问题而导致再次入院的概率有多大,从而能够精准定位一些情况下的病人并且给予适当的心理干预。这个项目取得了很大的成功,提供了更好的健康服务,也降低了再入院率和医疗成本。微软不控制数据,这些数据只属于医院;微软并没有出彩的想法,只是运用了分析工具Amalga系统来发现有价值的信息。大数据的拥有者依靠着技术专家来挖掘数据的价值。但是虽然受到了高度的赞扬,技术专家却没有想象中的那么耀眼。他们在大数据里淘金,发现了金银珠宝,最后却要将这些财富拱手让与大数据的拥有者。
大数据思维公司和个人
有些公司可能既没有大量的数据以及先进的大数据技术,但是他们可以先人一步发现机遇,也正可能是因为他们是外行,所以思维才能够不受限制。他们思考的只有可能,而不考虑所谓的可行。布拉德福德克罗斯曾经和四个朋友一起创办了FlightCaster.com,和FlyOnTime.us类似,这个网站致力于预测航班会不会晚点。它主要基于分析过去十年里每个航班的情况,然后将其与过去和现实的天气情况进行匹配。因为有着大数据思维,所以克罗斯和他的FlightCaster是首先行动起来的,但也没比别人快多少。但是因为他快而且早,又因为他在卖掉了自己的公司以后又转投新闻领域,创立了prismatic公司,让人们发掘了网上媒体资源的巨大价值,所以他同样获得了巨大的利益。
谷歌和亚马逊,三者兼备
有些比较幸运的公司就有计划的同时涉足了这三个方面。一个很典型的例子就是谷歌,它收集搜索时拼写错误的数据,它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子,同时它自身也具备挖掘数据价值的技术。谷歌在大数据价值链中同时充当这三个不同的角色,与谷歌其他项目整合后为谷歌带来了巨大的利润。除此之外,谷歌还通过应用程序接口(APIs)把它掌握的部分数据授权别人使用,这样数据就能够重复使用还能够产生附加价值。谷歌地图就是这样,它免费给互联网上的任何人提供服务。亚马逊也是如此,它的协同过滤推荐系统本身就是一个精巧的大数据的点子,后来辅之以技术和数据才实现了这个初衷。事实上它的商业模式也是按照这样的思路一步步建立起来的。这样的三者兼备的公司,就能够在大数据时代的浪潮中独占鳌头。
全新的数据中间商
大数据时代,会出现很多很新的职业,培养出来一大批具有大数据挖掘和分析技能的人,也会在商业里出现一些新的角色,比如说现在已经出现的一种,叫数据中间商。他们会从各个地方搜集数据并且进行整合,然后再提取有用的信息加以利用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人来挖掘。举个例子,总部位于西雅图的交通数据处理公司Inrix汇集了来自美洲和欧洲的近1亿辆汽车的实时交通数据,这些汽车产自于不同的汽车制造商。它建立了一个免费的智能手机应用程序,一方面可以为用户提供免费的交通信息,另一方面自己就得到了同步的数据。Inrix把这些数据与历史交通数据进行比对,再考虑天气和其他诸如当地时事等信息来预测交通状况。数据软件分析出的结果会被同步到汽车卫星导航系统中去,政府部门和商用车队都会使用它。它就是一个典型的独立运作的大数据中间商。在中国,很多导航软件公司也都是类似,比如说高德地图就是这样。为什么Inrix能够拿到这么多的数据,因为它与汽车制造商没有什么利益冲突,汽车行业的那些竞争者们并不介意通过行业外的中间商去汇聚他们的数据。类似的还有Hitwise、Quantcast等公司,他们在这个价值链中站在了一个收益丰厚的位置上,但是它们并没有威胁到为他们提供数据的数据拥有者的利润。大数据公司的多样性表明了数据价值的转移。而且这催生了数据科学家的崛起,他们可以不受旧观念的影响,能够聆听数据发出的声音。
二、第三部分第07章——风险:让数据主宰一切的隐忧
这个问题我感觉是一个非常严重的问题。作者和我想到的东西一样,都回忆起了当年民主德国40年的“全民监视”时期的历史。那个时候,在那个地方,无论是直系亲属还是亲戚朋友,都有监督身边人一举一动的义务,而民主德国的每一部电话里的每一次通话,都有专人监听记录。似乎在那里一个人没有任何的隐私。而今天大数据时代,我们虽然没有受到这样一个组织的严密监视,但是我们的隐私安全却比那个时候要受到更加严峻的考验。例如亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,Twitter监视着我们的交际圈和社交关系网,甚至通过大数据算法都能够猜出,我们心中的那个她。大数据时代,人的隐性取向和隐性轨迹被慢慢揭露于世界面前,个人的安全受到了威胁。而且,大数据随着发展还会带来更多的威胁,毕竟,大数据的思想是用规模剧增来改变现状。
我们的隐私被二次利用了
大数据的价值已经不再单纯来源于它的基本用途,而更多的源于它的二次利用。比如说,很多原本并不包含个人信息的数据,像传感器从炼油厂采集的数据、来自工厂的机器数据、机场的气象数据等,经过大数据与其他数据的混合处理以后,就可以成为追溯到个人的精确、细致的信息。当下的隐私保护法本来确立了以个人为中心的思想,也就是说数据收集着必须告诉个人,他们收集了哪些数据、作为何种用途,使用之前必须要得到个人的同意。但是这样并不能解决隐私问题,因为大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多的创新性的用途。所以,公司无法告知个人那些尚未想到的用途,而个人也无法同意这种还尚且是未知的用途。也不能让人去同意所有可能的用途,因为这样一来,“告知与许可”就完全没有意义了。同时,想要在大数据时代用技术手段去保护个人隐私也是天方夜谭,如果所有人的信息本来就已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。作者认为,另一条技术途径在大部分情况下也不可行,那就是匿名化。但是大数据时代数据内容的交叉检验会使得匿名化变得毫无意义。比如说,2006年10月,DVD租赁公司奈飞宣布启动“Netflix Prize”算法竞赛,该公司公布了差不多50万用户的一亿条租赁记录,并且公开悬赏100万美金,举办一个软件设计大赛来提高电影推荐系统的准确度。同样,奈飞公司也对数据进行了精心的匿名化处理,然而还是被一个用户认出来了,一个化名为“无名氏”的未出柜的同性恋母亲起诉了奈飞公司,她来自保守的美国中西部。通过把奈飞公司的数据与其他公共数据进行对比分析,得克萨斯大学的研究人员很快发现,匿名用户进行的收视率排名与互联网电影数据库上实名用户所排的是匹配的。最终的研究发现,每对6部不出名的电影进行排序,我们就有84%的概率可以辨别出奈飞公司这个顾客的身份。而如果我们知道这个顾客是在哪天进行了排序的话,那么他被从这个50万人的数据库中挑出来的概率就会高达99%。所以说,不同来源数据的结合暴露了我们的身份;而且,只要有足够的数据,那么无论如何也做不到完全的匿名化。显而易见的是,在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。
预测与惩罚,不是因为“所做”,而是因为“将做”
约翰安德顿是华盛顿特区警局预防犯罪组的负责人。这是特别的一天,早上,他冲进了住在郊区的霍华德马克斯的家中并逮捕了他,后者打算用剪刀刺杀他的妻子,因为他发现他的妻子给他戴了“绿帽子”。安德顿又防止了一起暴力犯罪案件的发生。他大声说,我以哥伦比亚特区预防犯罪科的名义逮捕你,你即将在今天谋杀你的妻子。其他的警察开始控制霍华德,霍华德大喊冤枉:“我什么都没有做啊!”这是电影《少数派报告》开始时的场景,这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就已经受到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。虽然电影预测依靠的不是数据分析而是三个超自然人的想象,但是所描述的这个令人不安的社会正是不受限制的大数据分析可能会导致的:罪责的判定是基于对个人未来行为的预测。
我们已经看到这种社会模式的萌芽。30多个州的假释委员正在使用数据分析的办法决定释放还是继续监禁某人,而越来越多的美国城市开始采用“预测警务”(也就是大数据分析)来决定哪些街道、群体还是个人需要更严密的监控,仅仅是因为算法系统指出他们更有可能犯罪。如果仅仅是依靠大数据预测去帮助我们预防不良行为,是可以接受的;但是倘若要利用大数据预测来判定某人有罪并对其尚未实施的行为进行惩罚,就可能让我们陷入一个危险的境地。基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。毕竟,想做而未做不是犯罪。
如果大数据分析完全准确,那么我们的未来会被精准的预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。如果精准的预测成为现实的话,我们也就失去了自由意志,失去了自由选择生活的权利。那么人类社会就有可能崩溃。而且就如同前例所述的情况,仅仅因为想要去犯罪而没有落实行动就受到了惩罚,那么这就否定了法律系统或者说我们的公平意识的基石——无罪推定原则。如果这样去预测,将来我们将生活在一个没有独立选择和自由意志的社会,在这里我们的道德指标将会被预测系统所取代,个人一直受到集体意志的冲击。简单的说,如果一切都成为现实,大数据就会把我们禁锢在可能性之中。
数据独裁
大数据大大的威胁了我们的隐私和自由,这都是大数据带来的新威胁。但是与此同时,它也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们想象的那么可靠。越战时期的美国国防部长罗伯特麦克纳马拉就是一个执着于数据的人。他认为只有运用严谨的统计数据,决策者才能真正理解复杂的事态并作出正确的决定。当时美国在越战中情形很被动,而麦克纳马拉却只关注死亡人数,导致作出了一系列错误的决定;另一方面,很多部门正是因为麦克纳马拉对数据表现出极高的热忱,所以数字一级一级的被扩大化了,导致最后美国深陷越战泥潭,遭受了巨大的损失。这个例子就说明,我们比想象中更容易受到数据的统治——让数据以良莠参半的方式去统治我们,用数据去决定一切。这就是典型的数据独裁。问题是,我们很可能会受限于我们的分析结果,或者说,我们会形成一种对于数据的执迷,因而仅仅为了收集数据尔收集数据,或者赋予数据根本无权得到的信任。只有将数据进行合理的利用,而不单纯只是为了“数据”而“数据”,大数据才能变成强大的武器。我们如果盲目相信数据的潜能和力量却忽略了它的局限性的话,就会犯下大错,我们必须要对数据独裁保持高度的警惕,要从诸如麦克纳马拉的例子中吸取教训,引以为戒。
三、第三部分第08章——掌控:责任与自由并举的信息管理
从前一章的分析可以明显看出,大数据技术是一个好的工具,能够帮人类解决很多问题,但是也存在着很多的缺陷,这种缺陷并不仅仅来自于其本身诸如数据不精确这样的技术缺陷,还有人对待大数据的认识缺陷、处理缺陷。上一章的几个例子都在告诫我们,如果不去正确对待、合理使用而是一味的依赖大数据,让数据分析的结果来完全做决定,轻者可能导致问题处理上失误,重者可能影响到我们每一个人的安全与自由,所以这一章的存在我觉得很合理,那就是要面对这些情况去如何掌控。这里的掌控,我理解有两个意思,其一当然是要把大数据技术控制在人能够控制、掌握的范围之内(其实作者没有提及的是人工智能,它也是基于大数据的算法和选择,人工智能的发展非常的快,在一些领域已经超越了人类,就比如说这两天的AlphaGO和李世石的对决就以前者的胜利完结。我们更需要加以警醒的是大数据的滥用可能导致的出现具有人工智能的计算机统治世界的毁灭性情况);其二就是,人类也应该去推进思想的进步,变革管理的模式,使人类社会的一系列制度和认识能够完美的配合好如火如荼的大数据技术。变革并不止于规范,大数据已经在推动我们去重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。作者认为,在大数据时代,对于原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险——我们需要全新的制度规范,而不是修改原有规范的适用范围。为此,他专门提出了4个管理变革的建议。
管理变革1:个人隐私保护,从个人许可到让数据使用者惩罚责任
数十年来,全球范围内的隐私规范都开始让人们自主决定是否、如何以及经由谁来处理他们的信息,把这种控制权放在人们自己的手中,这也是隐私规范的核心准则。在大数据时代,因为数据的价值很大一部分体现在二级用途上,而收集数据时并未作这种考虑,所以“告知与许可”就不能再起到好的作用了。在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。将责任从民众转移到数据使用者很有意义,也存在充分的理由,因为数据使用者比任何人都明白他们想要如何利用数据。他们应该是数据二级应用上的最大受益者,理应对自己的行为负责。总之,社会必须平衡二次运用的优势与过度披露所带来的风险。为了实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间,再利用的时间框架取决于数据内在风险和社会价值观的不同。公司可以利用数据的时间更长,但相应的必须为其行为承担责任以及有特定时间之后删除个人数据的义务。
管理变革2:个人动因VS预测分析
在法庭上,个人对自己的行为负有责任,一番公正的审讯之后,审判员会做出公平公正的判决。然而,在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单的说,就是个人可以并应该为他们的行为,而不是倾向,负责。大数据管理的基本支撑是保证我们依然是通过考虑他人的个人责任对其进行评判,而不是借助“客观”数据处理去决定他们是否违法。只有这样,我们才是把这个人真的当作人去对待——当作有行为选择自由和通过自主行为被评判的人。
管理变革3:击碎黑盒子,大数据算法师的崛起
大数据的运作是在一个超出我们正常理解范围之上的,它需要被监测并保持透明度。大数据将要求有一个新的人群来扮演监测的角色,他们(也许)会被称为“算法师”。他们应该有两种形式:在机构外部工作的独立实体和在机构内部工作的工作人员。也称为“外部算法师”和“内部算法师”。外部算法师将扮演公正的审计员的角色,在政府或客户所要求的任何时候,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定。他们也能为大数据使用者提供审计服务,还可以为他们证实大数据应用程序的健全性。最后,他们将和政府商议公共领域大数据的最佳使用办法。内部算法师在机构内部工作,监督其大数据活动,他们不仅要考虑公司的利益,也要顾及到受到大数据分析影响的其他人的利益。他们监督大数据的运转,任何认为遭受其公司大数据危害的人会最初与他们取得联系。在公布大数据分析结果之前,他们也对其完整度和精确度进行审查。为了扮演好这两个角色,他们首先要做到的就是必须在工作机构内部拥有一定程度的自由和公正。
管理变革4:反垄断数据大亨
要通过立法来防止一些拥有大量数据的公司对于数据进行垄断,反垄断法能够遏制权力的滥用。一旦确定了极其重要的原则,管理者就要将之付诸行动,以确保保护措施的实施到位。我们的任务就是要意识到新技术的风险,促进其发展,然后斩获成果。我们绝不能让大数据的发展超出我们可以控制的范围。
四、结语——正在发生的未来
1、凡是过去,皆为序曲:过去所拥有的所有数据都是为了今后的利用、定位、预测而服务的,过去发生的事情无一例外的都将影响到我们未来的生活,决定我们所走的路,所拥有的圈子。
2、大数据时代,名副其实的“信息社会”:数据已经成为解释世界、看穿世界的最重要的工具;我们必须改变小数据时代的思维方式和研究方法,转变思想,迎接信息爆炸的大数据挑战(例如样本=总体;允许不精确等等;解决实际问题时注重相关关系而不再拘泥于寻找因果关系);大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具,能帮助我们更好的处理生活和工作,能极大地改变我们对于未来的看法。
3、更大的数据源于人本身:大数据时代并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要的角色。人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。创新永远是人类带领着大数据时代不断向前的驱动力,如果亨利福特问大数据他的顾客想要的是什么,大数据将会回答:“一匹更快的马。”而不会是汽车、飞机、火车。在大数据的世界里,包括创意、直觉、冒险精神和知识野心在内的人类特性多培养显得尤为重要,因为进步正是源于我们的独创性。
4、大数据提供的不是最终答案,只是参考答案,为我们提供的是暂时的帮助,以便等待更好的方法和答案的出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。