在工业界,炼油厂就是主教座堂,其中上演着权力的游戏、跌宕的剧情,隐藏着不为人知的角落:精致的裂化塔就是这座“教堂”的哥特式尖顶,火炬气即彩绘玻璃,碳氢化合物的恶臭就是它浓重的香火味。
相比之下,数据中心显然就没那么壮观了:连窗户都没有的低矮建筑,既不高大,也没有装饰,给人以绵延无尽之感。
但两者却有诸多共通之处。首先,它们都布满了管道。炼油厂加热原油,分离煤气、丙烷等成分,再用管道加以收集。大型数据中心则用管道输送空气,冷却成千上万台计算机,而这些计算机负责从原始数据中提取价值——规律、预测等各种洞见。
两者也都扮演同样的角色:为世界经济制造重要原料。没有原油产品,当代生活的很多方面都无从谈起——不论是汽车、塑料还是众多药品。数据中心的萃取物则支撑起了各类网络服务,乃至现实世界,因为眼下,各种设备的联网程度越来越高。
数据之于本世纪就好比石油之于上个世纪,它们是增长与变革的驱动力。数据流催生了新的基础设施、新的商业、新的垄断与政治格局,以及至关重要的新经济。数字信息不同于从前的任何资源;它采取不同的精炼、提取、估值和买卖方式。它改变了市场规则,需要监管机构采取新的举措。围绕谁该拥有数据、谁该从数据中获益的问题,很多战斗还有待打响。
市场研究公司IDC预测,到2025年,“数字宇宙”(每年创建并复制的数据)的规模将达到180泽字节(180后面再跟21个零)——若用一根上网宽带来传输,450年都传不完。
为加速数据中心的运转,电子商务巨头亚马逊(其云计算分支正迅猛发展)动用了卡车运送集装箱,每个集装箱里的存储设备容量达100拍字节(PB;也就15个零)。为消化如此多的数据,企业正加速构建数据提炼设施。
据《华尔街日报》报道,2016年,亚马逊、Alphabet和微软三家企业的资本支出与资本租赁共计320亿美元,较上一年增长22%。
数据的质量也发生了改变。其主要存在形式不再是数据信息的仓库——姓名、年龄、性别、收入等定义明确的个人数据的数据库。
数据经济更偏重于分析,对象是非结构化实时数据的激流:社交网络用户上传的照片、视频流,人们通勤路上生成的汗牛充栋的信息,以及飞机上无数传感器输出的数据洪流。
从地铁到风力发电机,从马桶圈到烤面包机,越来越多的设备都在变成数据来源。联网传感器将充斥世界,无论走到哪里,你都会留下一串数字脚印,哪怕你没有联网。
正如软件公司甲骨文的大数据战略师保罗·桑德雷格(Paul Sonderegger)所言:“数据将成为终极外部性:我们无论做什么,都会产生相应的数据。”
你所知的信息
最重要的是,数据正在升值。最初,Facebook和谷歌收集用户数据,用于改进定向广告。近年来,这些公司又发现,数据可以转化为无限量的人工智能(AI),或“认知”服务,有的还能催生新的收入来源。这样的服务包括翻译、视觉识别,以及凭一个人的文字评估他的性格特征。这些都可以卖给别的公司,用于它们的产品。
虽然数据经济的征兆俯拾即是,但直至最近,它才初具雏形。在J.R.尤因(J. R. Ewing)眼里,这一切都显得格外眼熟。大型数据公司,不断壮大的投机分子队伍,以及其他无数公司,大家都试图分一杯羹。所有人都是冲着一台强大的经济引擎来的,它就是“数据网络效应”,即用数据吸引更多用户,进而催生更多的数据,再用这些数据改进服务,并吸引更多用户。
大型数据公司坐享最充裕的数据信息库。比如在Facebook上,评论、点赞等互动数量越多,它就越了解用户,其广告与消息流的定向就越准确。同样的,人们用谷歌搜索的总量越多,谷歌返回的结果就越精准。
这些公司永远都在寻找新的信息源泉。Facebook借用户之手训练自己的一些算法,比如在用户上传照片、圈出好友时。这解释了其计算机何以识别几亿人的面孔,且准确率达到98%。谷歌数字管家Google Assistant也是如此,你用得越多,它完成任务、回答问题时就越娴熟。
Uber以廉价打车服务著称。但它能获得680亿美元的估值,一个原因是它把持着个人交通领域供(司机)需(乘客)关系的最大数据池。
类似地,对大多数人而言,特斯拉是一家生产高档电动汽车的公司,但它的最新车型收集到巨量数据,帮助特斯拉优化自动驾驶算法,进而更新软件。及至去年年底,该公司已收集到21亿公里里程的驾驶数据——比Alphabet自动驾驶汽车部门Waymo高出好几个数量级。
“数据驱动型”初创企业是数据经济中的冒险者:勘探数字石油,加以提炼,巧妙地转化为新服务,从分析X光片和CAT扫描,到确定草坪上何处该施用除莠剂。以色列初创企业Nexar就设计了一种巧妙的方式,使司机成为数据来源。其应用将司机的智能手机变成行车记录仪,通过司机的操作标记行车录像。若很多人都在同一位置意外刹车,此处就可能存在坑洞或障碍物。
作为使用Nexar应用的报偿,司机获得免费的行车记录仪和相应服务,比如,一旦发生事故,就可获得详细的事故报告。Nexar的目标是提供各类服务,帮助司机避免事故。其中之一就是坑洞警报,或者在某个处于视角盲区的转角处有车骤停时发出警报。
非科技公司也在勘探数字矿井。比如通用电气(GE)就开发了Predix,一个“面向工业互联网的操作系统”,帮助客户控制机器设备。Predix也是一个数据收集系统:它从连接的设备处收集数据,拿来与其他数据相混合,继而训练算法,帮助改进电厂运作,或者在喷气飞机引擎发生故障之前确定维护时机,诸如此类。
跟石油市场一样,大型数据公司不断地兼并小公司(见下表)。但数据经济还有令“黑色黄金”交易者们颇感陌生的一面。按价值计算,石油是世界上交易量最大的大宗商品。
相比之下,数据交易几乎无迹可寻,至少,数据与金钱的交易鲜有存在。这跟它与“新兴资产类别”这一称号很不相称。在2011年发布的一份报告中,世界经济论坛(WEF;达沃斯的会议组织机构兼智囊)就给数据冠以这一称号,隐含的意思是,构成数据经济的,将是欣欣向荣的数据信息市场。但从当前的情况来看,数据经济基本上是一个个相互孤立的“谷仓” 集合体。
自己的信息自己保管
交易市场缺失的原因,也是相应企业产生的原因。由于市场交易携带的各种“交易成本”——搜寻信息、谈判交易、执行合同等等,在公司内部进行这些活动就会更加简单、高效。同理,比起在开放市场买卖数据,在公司内部生成并使用数据通常也更有利可图。
数据流固然充裕,但算不上大宗商品:每一个信息流都不尽相同,时效性、完备度各异。用一个经济术语来说,就是缺少“通用性”。因此,买方很难对一组数据出价:对于不同类型的数据,价值的可比性并不是很强。买卖双方都怕吃亏,这是抑制交易的因素。
直到近期,研究人员才开始开发定价的方式方法,咨询公司高德纳(Gartner)称之为“信息经济学”(infonomics)。加州大学圣迭戈分校的吉姆·舒尔特(Jim Short)是数据定价先驱者之一,致力于涉及数据定价的案例研究。
其中一个案例涉及到2015年申请破产的博彩集团凯撒娱乐(Caesars Entertainment)的一个分支。该分支最值钱的资产估值达10亿美元,据称就是客户数据——前17年加入该公司忠诚度计划的4500万客户的数据。
正因为数据定价如此之难,对一家公司来说,直接收购另一家公司可能更加干脆利落,哪怕它只对被收购方的数据感兴趣。
2015年,据报道,IBM斥资20亿美元收购Weather Company,就是冲着它海量的气象数据,以及收集气象数据的基础设施。另一个模糊地带是物物交换:英国国家医疗服务体系(NHS)的一部分已经和DeepMind(Alphabet的AI部门)达成一致,用匿名患者数据换取DeepMind从中提炼的医疗洞见。
和石油不同,数字信息是“非竞争性”的,也就是说,它们可以复制,同时被多人(或多个算法)使用,问题由此进一步复杂化。这意味着数据很容易被用于事先约定以外的其他用途。
另外,数据所有者也很难界定(以自动驾驶汽车为例,数据所有者可以是汽车厂商,可以是传感器供应商,也可以是乘客;假以时日,若自动驾驶汽车变成“自动所有”汽车,数据所有者还可以是汽车本身。)
“数据买卖枯燥至极,”高德纳的亚历山大·林登(Alexander Linden)说。因此,数据交易通常是双边交易和一事一例的,不适合三心二意者:数据合约通常洋洋几十页纸,法律术语密集,规定了数据应如何使用、如何保密。最近,一家大银行的一位高管就告诉林登,他可没时间签署这样的文件,哪怕数据价值不菲。
个人数据就更棘手了。“在一个监管健全的全国性信息市场上,个人信息是可以买卖的,卖方有权决定提供多少信息,”1996年,纽约大学肯尼斯·劳登(Kenneth Laudon)在一篇题为“市场与隐私”著名文章中写道。
不久前,世界经济论坛就提出了“数据银行账户”的概念,称个人数据应该“置于一个账户之中,在账户内进行控制、管理、交易和核算。”
这概念听着很优雅,但交易市场和数据账户都尚未实现。其问题跟企业数据恰恰相反:人们太容易交出个人数据、换取“免费”服务了。微软研究(Microsoft Research)经济学家格伦·威尔(Glen Weyl)说,交易条款几乎是无意间变成了标准。
继本世纪初网络泡沫破裂后,企业亟需打开财路,捷径之一就是收集数据,实现定向广告投放。直到最近,这些公司才意识到,数据还可以转化为无限量的AI服务。
算法的奴隶
用数据换取免费服务,这种交易是否公平,主要取决于这些服务的价值源于何处:是数据,还是分析处理数据的算法?
谷歌首席经济学家哈尔·瓦里安(Hal Varian)认为,数据中存在“规模收益递减”效应,也就是说,随着数据规模的增加,新增数据的价值呈递减趋势,一旦超过某个阈值,信息的增加就不会带来价值的提升。他说,更重要的是处理数据的算法质量,以及一家公司旗下开发这些算法的人才。谷歌的成功源于“菜谱,而非食材”。
在网络搜索的早期阶段,情况也许的确如此,但在人工智能的新世界则不然了。算法的自学能力不断长进,馈给它们的数据越多、越新鲜,结果就越理想。
威尔表示,随着应用数量的不断增加,数据的边际效应事实上还可能递增。就比如网约车领域,在为一项服务收集到足够多的数据(比如实时路况信息)之后,新增数据也许不会带来价值的增益。但只要继续收集下去,它总有一天能提供其他服务,比如路线规划。
这些争论,加上数据交易的不温不火,也许只是生长疼痛。石油交易市场也用了几十年才渐渐完善起来。颇具讽刺意味的是,加速这一过程的是标准石油公司(Standard Oil)——约翰·D.洛克菲勒于19世纪末建立的石油垄断企业。标准石油的计划就在它的名字之中——标准化,使一种新资源的交易成为可能。
对于价值高、易于标准化的个人数据,相关交易市场早已存在。“数据经纪商”能对特定类型的数据进行快速交易。在其他领域,市场或类似市场的东西正在萌芽。
以主导企业数据库市场的甲骨文公司为例,该公司正在开发相当于数据资产交易所的东西,希望客户买卖数据,并结合甲骨文提供的工具套装,从中提炼洞见,而且这一些都在该公司计算云提供的安全环境中进行,确保信息不被滥用。初创企业Cognitive Logic也在开发一款类似的产品,但将数据留存于其他的IT系统之中。
有的年轻企业希望消费者也能从自己的数据中获益。Citizenme允许用户将自己所有的网络信息收归一处。用户若选择与某品牌分享个人信息,就可获得一小笔报酬。初创企业Datacoup正从个人数据中提取洞见,销售出去,并将部分所得回馈用户。
到目前为止,这些努力都成效寥寥;专注于个人数据的更不消提起。目前,消费者和网络巨头之间依然相互依存,但关系有些尴尬。人们不知道自己的数据值多少钱,也不想管理这些数据,免得麻烦,卡内基梅隆大学的亚历山德罗·奎斯蒂(Alessandro Acquisti)说。
但他们也表现出了“习得的无助感”:服务条款通常令人费解,用户除了接受,别无选择(比如说智能手机应用,要是不点“我同意”,应用立马退出)。
另一方面,网络公司也开始严重依赖免费数据:无意于从根本上改变用户协议。它们要是付钱购买数据,并构建昂贵的系统,用于追踪用户的数据贡献,那么,数据提炼商就会无利可图了。
重要的资源不一定都是广泛交易的;无线电频谱和水权就是两例。但威尔认为,对数据而言,交易市场的缺失可能会导致低效。如果数据信息没有定价,有价值的数据也许永远无法生成。如果数据继续困在相互孤立的“谷仓”之中,很多价值也许永远无法提炼出来。大型数据提炼公司并没有独掌创新;其他企业也许能更好地利用信息。
数据市场的匮乏也会让老大难的政策问题更加棘手。最突出的有三个:反垄断、隐私和社会平等。和石油领域一样,最迫在眉睫的就是反垄断。1911年,美国最高法院维持下级法院的判决,即拆分标准石油。当时,标准石油控制了美国90%的石油提炼业务。
已经有人呼吁拆分谷歌等公司。比如,南加州大学的乔纳森·塔普林(Jonathan Taplin)就在新书《快速行动,打破陈规》(Move Fast and Break Things)中如是呼吁。但如此激进的补救措施恐难奏效。拆分会造成巨大的干扰,从而减缓创新。而且很快,小谷歌和小Facebook们就会形成新的垄断。
然而,要求采取行动的呼声日益高涨。牛津大学的阿里尔·埃兹拉彻(Ariel Ezrachi)说,“超级平台”把持了过大的权力。他与田纳西大学的莫里斯·斯塔克(Maurice Stucke)合著的新书《虚拟竞争》(Virtual Competition)已于最近出版。
他论称,这些平台拥有比他人更多、更新鲜的数据,可以迅速侦测到竞争威胁。凭借雄厚的财力,一发现哪家初创企业不可小觑,它们就立马出手收购。它们还可以操纵自己垄断的市场,比如让算法快速响应,使竞争对手没有机会通过降价赢取顾客。“看不见的手也正在数字化,”埃兹拉彻说。
当心数字化的无形之手
在数字时代中,反垄断当局至少得磨砺一下自己的工具。欧盟委员会当初并没有以数据垄断为由阻挠Facebook并购WhatsApp。
Facebook之所以收购WhatsApp,是害怕它成长为强大竞争对手。所以在反垄断调查期间,Facebook曾许诺不会合并两者的用户群。但Facebook在去年偷偷开始合并两个平台的用户群,引致欧盟委员会以罚款相威胁。
Facebook引发的纠结很好地说明了一些欧洲国家开始修订竞争法的原因。在德国,相关立法已递交国会,一旦通过,联邦卡特尔局将有权介入涉及网络效应和数据资产的案件。
监管机构要履行职责,一个通用法则就是像它们监管的企业一样勇于创新。在最近的一篇论文中,埃兹拉彻和斯塔克提出,反垄断当局应该运作“暗中勾结模拟器”——要调查某个定价算法是否操纵市场,或是与市场暗中勾结,他们就应该在自己的计算机上运行模拟。
另一条思路是提供替代选项来缓和数据集中化。政府可以进一步开放收集到的数据,为小型企业创造机遇;还可以支持“数据合作社”。在瑞士,一个名为Mitada的项目从患者处收集健康数据,患者可决定是否允许研究项目使用自己的数据。
数据分销
一些重要的数据类型甚至需要强制分享。出版《Stratechery》通讯的本·汤普森(Ben Thompson)最近提议,社交网络应该开放其社交图谱的访问权。
同样被Facebook吞并的照片分享服务Instagram最初凭借让新用户导入Twitter关注者名单的做法而异军突起。“后来,各大社交网络就纷纷叫停这种操作,使竞争者更加难以壮大,”汤普森指出。
强制性数据分享并非前所未闻:德国就要求保险商共同维护一组统计数据,包含汽车事故在内。这样的数据是小企业无力自行编纂的。
欧盟新推行的《一般数据保护条例》(General Data Protection Regulation)将于2018年5月生效,要求网络服务创造有利条件,方便用户将信息转移至其他服务提供商,乃至竞争对手处。
但“数据便携性”和数据共享凸显出第二个政策难题:数据市场与隐私保护的紧张对峙。在买卖或共享过程中,个人数据更容易泄漏。
为降低这一风险,《一般数据保护条例》加强了人们对各自数据的控制:企业须就数据的使用方式,获取用户的明确许可。违者将被处以高额罚款:最高可达企业全球营收的4%,或2200万美元。
在数据流混合匹配的当下,这种法规殊难实施。另外,收紧数据保护和促进竞争也是一对矛盾:大企业有更强大的实力去遵守代价高昂的隐私法规,不仅如此,大企业也可以借此进一步加紧数据控制。
假以时日,新技术也许能取代原理简单、容易破解的匿名化,从而缓解这种矛盾。初创企业Bitmark就使用比特币的“区块链”技术,追踪记录数据访问者。但法律创新也必不可少,牛津大学维克多·麦尔-荀伯格(Viktor Mayer-Schönberger)说。
他还有其他一些数据专家认为,不但数据的集合需要监管,其使用也需要监管。正如食品行业禁用某些配料,网络领域也可以禁用某些数据,或禁止用数据对个人造成伤害。他认为,这样可以将责任转移到数据收集者和使用者头上,他们应对自己管理的数据负责,而不是在获得个人许可之后,就万事大吉了。
这种“基于使用”的数据监管很难实施,丝毫不亚于当前通行但具有争议的“告知与许可”模式。这也可能加剧当前数据经济的第三大挑战:社会与地理层面的收益不均。
至少就个人数据而言,当前模式几乎难以维系。随着数据的升值,以及数据经济的重要性不断增加,所有钱都将落入数据提炼者的腰包。数据生成者面临一场不公平的交易,他们到手的只有免费服务。在2014年出版的《谁拥有未来》(Who Owns the Future?)一书中,微软研究院(Microsoft Research)的贾伦·拉尼尔(Jaron Lanier)最先指出了这一点。
威尔提出了该论点的另一个版本:归根结底,提供AI服务的不是算法,而是生成原材料的人。“数据是劳动力,”威尔说,他正致力于开发一个系统,用于衡量个人数据贡献的价值,从而为更加公平的交易打下基础。
全世界数据工人,联合起来!
威尔说,难点在于,你要让人们理解,他们的数据是有价值的,他们理应获得报酬。“我们需要某种形式的数字工人运动,”他说。“更难的是说服数据巨头们——拉尼尔称之为‘塞壬服务器’——改变做法,因为现状让他们获益颇丰。”
地理分布的平等化也许就更难实现了。当前,多数从事大数据提炼的公司都位于美国,或是由美国公司掌控。随着数据经济的进展,这种局面将难以维系。
过去,美国和欧洲围绕隐私争执不断,未来从中可见一斑。中国的监管草案要求,企业应将收集到的所有“关键数据”存储于中国的服务器内。石油控制权冲突祸乱世界几十年之久。目前还没人担心数据引发的战争,但与石油相比,数据经济引发冲突的潜力有过之而无不及。
本文作者:佚名
来源:51CTO