经济学人：数据经济虽好，可是仍需补钙

转载自：造就

来源：Economist 雁行编译

物联网智库整理发布

转载请注明来源和出处

如果数据信息没有定价，有价值的数据也许永远无法生成。如果数据继续困在相互孤立的“谷仓”之中，很多价值也许永远无法提炼出来。

在工业界，炼油厂就是主教座堂，其中上演着权力的游戏、跌宕的剧情，隐藏着不为人知的角落：精致的裂化塔就是这座“教堂”的哥特式尖顶，火炬气即彩绘玻璃，碳氢化合物的恶臭就是它浓重的香火味。

相比之下，数据中心显然就没那么壮观了：连窗户都没有的低矮建筑，既不高大，也没有装饰，给人以绵延无尽之感。

但两者却有诸多共通之处。首先，它们都布满了管道。炼油厂加热原油，分离煤气、丙烷等成分，再用管道加以收集。大型数据中心则用管道输送空气，冷却成千上万台计算机，而这些计算机负责从原始数据中提取价值——规律、预测等各种洞见。

两者也都扮演同样的角色：为世界经济制造重要原料。没有原油产品，当代生活的很多方面都无从谈起——不论是汽车、塑料还是众多药品。数据中心的萃取物则支撑起了各类网络服务，乃至现实世界，因为眼下，各种设备的联网程度越来越高。

数据之于本世纪就好比石油之于上个世纪，它们是增长与变革的驱动力。数据流催生了新的基础设施、新的商业、新的垄断与政治格局，以及至关重要的新经济。数字信息不同于从前的任何资源；它采取不同的精炼、提取、估值和买卖方式。它改变了市场规则，需要监管机构采取新的举措。围绕谁该拥有数据、谁该从数据中获益的问题，很多战斗还有待打响。

市场研究公司IDC预测，到2025年，“数字宇宙”（每年创建并复制的数据）的规模将达到180泽字节（180后面再跟21个零）——若用一根上网宽带来传输，450年都传不完。

为加速数据中心的运转，电子商务巨头亚马逊（其云计算分支正迅猛发展）动用了卡车运送集装箱，每个集装箱里的存储设备容量达100拍字节（PB；也就15个零）。为消化如此多的数据，企业正加速构建数据提炼设施。

据《华尔街日报》报道，2016年，亚马逊、Alphabet和微软三家企业的资本支出与资本租赁共计320亿美元，较上一年增长22%。

数据的质量也发生了改变。其主要存在形式不再是数据信息的仓库——姓名、年龄、性别、收入等定义明确的个人数据的数据库。

数据经济更偏重于分析，对象是非结构化实时数据的激流：社交网络用户上传的照片、视频流，人们通勤路上生成的汗牛充栋的信息，以及飞机上无数传感器输出的数据洪流。

从地铁到风力发电机，从马桶圈到烤面包机，越来越多的设备都在变成数据来源。联网传感器将充斥世界，无论走到哪里，你都会留下一串数字脚印，哪怕你没有联网。

正如软件公司甲骨文的大数据战略师保罗·桑德雷格（Paul Sonderegger）所言：“数据将成为终极外部性：我们无论做什么，都会产生相应的数据。”

你所知道的信息

最重要的是，数据正在升值。最初，Facebook和谷歌收集用户数据，用于改进定向广告。近年来，这些公司又发现，数据可以转化为无限量的人工智能（AI），或“认知”服务，有的还能催生新的收入来源。这样的服务包括翻译、视觉识别，以及凭一个人的文字评估他的性格特征。这些都可以卖给别的公司，用于它们的产品。

虽然数据经济的征兆俯拾即是，但直至最近，它才初具雏形。在J.R.尤因（J. R. Ewing）眼里，这一切都显得格外眼熟。大型数据公司，不断壮大的投机分子队伍，以及其他无数公司，大家都试图分一杯羹。所有人都是冲着一台强大的经济引擎来的，它就是“数据网络效应”，即用数据吸引更多用户，进而催生更多的数据，再用这些数据改进服务，并吸引更多用户。

大型数据公司坐享最充裕的数据信息库。比如在Facebook上，评论、点赞等互动数量越多，它就越了解用户，其广告与消息流的定向就越准确。同样的，人们用谷歌搜索的总量越多，谷歌返回的结果就越精准。

这些公司永远都在寻找新的信息源泉。Facebook借用户之手训练自己的一些算法，比如在用户上传照片、圈出好友时。这解释了其计算机何以识别几亿人的面孔，且准确率达到98%。谷歌数字管家Google Assistant也是如此，你用得越多，它完成任务、回答问题时就越娴熟。

Uber以廉价打车服务著称。但它能获得680亿美元的估值，一个原因是它把持着个人交通领域供（司机）需（乘客）关系的最大数据池。

类似地，对大多数人而言，特斯拉是一家生产高档电动汽车的公司，但它的最新车型收集到巨量数据，帮助特斯拉优化自动驾驶算法，进而更新软件。及至去年年底，该公司已收集到21亿公里里程的驾驶数据——比Alphabet自动驾驶汽车部门Waymo高出好几个数量级。

“数据驱动型”初创企业是数据经济中的冒险者：勘探数字石油，加以提炼，巧妙地转化为新服务，从分析X光片和CAT扫描，到确定草坪上何处该施用除莠剂。以色列初创企业Nexar就设计了一种巧妙的方式，使司机成为数据来源。其应用将司机的智能手机变成行车记录仪，通过司机的操作标记行车录像。若很多人都在同一位置意外刹车，此处就可能存在坑洞或障碍物。

作为使用Nexar应用的报偿，司机获得免费的行车记录仪和相应服务，比如，一旦发生事故，就可获得详细的事故报告。Nexar的目标是提供各类服务，帮助司机避免事故。其中之一就是坑洞警报，或者在某个处于视角盲区的转角处有车骤停时发出警报。

非科技公司也在勘探数字矿井。比如通用电气（GE）就开发了Predix，一个“面向工业互联网的操作系统”，帮助客户控制机器设备。Predix也是一个数据收集系统：它从连接的设备处收集数据，拿来与其他数据相混合，继而训练算法，帮助改进电厂运作，或者在喷气飞机引擎发生故障之前确定维护时机，诸如此类。

跟石油市场一样，大型数据公司不断地兼并小公司（见下表）。但数据经济还有令“黑色黄金”交易者们颇感陌生的一面。按价值计算，石油是世界上交易量最大的大宗商品。

相比之下，数据交易几乎无迹可寻，至少，数据与金钱的交易鲜有存在。这跟它与“新兴资产类别”这一称号很不相称。在2011年发布的一份报告中，世界经济论坛（WEF；达沃斯的会议组织机构兼智囊）就给数据冠以这一称号，隐含的意思是，构成数据经济的，将是欣欣向荣的数据信息市场。但从当前的情况来看，数据经济基本上是一个个相互孤立的“谷仓” 集合体。

自己的信息自己保管

交易市场缺失的原因，也是相应企业产生的原因。由于市场交易携带的各种“交易成本”——搜寻信息、谈判交易、执行合同等等，在公司内部进行这些活动就会更加简单、高效。同理，比起在开放市场买卖数据，在公司内部生成并使用数据通常也更有利可图。

数据流固然充裕，但算不上大宗商品：每一个信息流都不尽相同，时效性、完备度各异。用一个经济术语来说，就是缺少“通用性”。因此，买方很难对一组数据出价：对于不同类型的数据，价值的可比性并不是很强。买卖双方都怕吃亏，这是抑制交易的因素。

直到近期，研究人员才开始开发定价的方式方法，咨询公司高德纳（Gartner）称之为“信息经济学”（infonomics）。加州大学圣迭戈分校的吉姆·舒尔特（Jim Short）是数据定价先驱者之一，致力于涉及数据定价的案例研究。

其中一个案例涉及到2015年申请破产的博彩集团凯撒娱乐(Caesars Entertainment)的一个分支。该分支最值钱的资产估值达10亿美元，据称就是客户数据——前17年加入该公司忠诚度计划的4500万客户的数据。

正因为数据定价如此之难，对一家公司来说，直接收购另一家公司可能更加干脆利落，哪怕它只对被收购方的数据感兴趣。

2015年，据报道，IBM斥资20亿美元收购Weather Company，就是冲着它海量的气象数据，以及收集气象数据的基础设施。另一个模糊地带是物物交换：英国国家医疗服务体系（NHS）的一部分已经和DeepMind（Alphabet的AI部门）达成一致，用匿名患者数据换取DeepMind从中提炼的医疗洞见。

和石油不同，数字信息是“非竞争性”的，也就是说，它们可以复制，同时被多人（或多个算法）使用，问题由此进一步复杂化。这意味着数据很容易被用于事先约定以外的其他用途。

另外，数据所有者也很难界定（以自动驾驶汽车为例，数据所有者可以是汽车厂商，可以是传感器供应商，也可以是乘客；假以时日，若自动驾驶汽车变成“自动所有”汽车，数据所有者还可以是汽车本身。）

“数据买卖枯燥至极，”高德纳的亚历山大·林登（Alexander Linden）说。因此，数据交易通常是双边交易和一事一例的，不适合三心二意者：数据合约通常洋洋几十页纸，法律术语密集，规定了数据应如何使用、如何保密。最近，一家大银行的一位高管就告诉林登，他可没时间签署这样的文件，哪怕数据价值不菲。

个人数据就更棘手了。“在一个监管健全的全国性信息市场上，个人信息是可以买卖的，卖方有权决定提供多少信息，”1996年，纽约大学肯尼斯·劳登（Kenneth Laudon）在一篇题为“市场与隐私”著名文章中写道。

不久前，世界经济论坛就提出了“数据银行账户”的概念，称个人数据应该“置于一个账户之中，在账户内进行控制、管理、交易和核算。”

这概念听着很优雅，但交易市场和数据账户都尚未实现。其问题跟企业数据恰恰相反：人们太容易交出个人数据、换取“免费”服务了。微软研究（Microsoft Research）经济学家格伦·威尔（Glen Weyl）说，交易条款几乎是无意间变成了标准。

继本世纪初网络泡沫破裂后，企业亟需打开财路，捷径之一就是收集数据，实现定向广告投放。直到最近，这些公司才意识到，数据还可以转化为无限量的AI服务。

算法的奴隶

用数据换取免费服务，这种交易是否公平，主要取决于这些服务的价值源于何处：是数据，还是分析处理数据的算法？

谷歌首席经济学家哈尔·瓦里安（Hal Varian）认为，数据中存在“规模收益递减”效应，也就是说，随着数据规模的增加，新增数据的价值呈递减趋势，一旦超过某个阈值，信息的增加就不会带来价值的提升。他说，更重要的是处理数据的算法质量，以及一家公司旗下开发这些算法的人才。谷歌的成功源于“菜谱，而非食材”。

在网络搜索的早期阶段，情况也许的确如此，但在人工智能的新世界则不然了。算法的自学能力不断长进，馈给它们的数据越多、越新鲜，结果就越理想。

威尔表示，随着应用数量的不断增加，数据的边际效应事实上还可能递增。就比如网约车领域，在为一项服务收集到足够多的数据（比如实时路况信息）之后，新增数据也许不会带来价值的增益。但只要继续收集下去，它总有一天能提供其他服务，比如路线规划。

这些争论，加上数据交易的不温不火，也许只是生长疼痛。石油交易市场也用了几十年才渐渐完善起来。颇具讽刺意味的是，加速这一过程的是标准石油公司（Standard Oil）——约翰·D.洛克菲勒于19世纪末建立的石油垄断企业。标准石油的计划就在它的名字之中——标准化，使一种新资源的交易成为可能。

对于价值高、易于标准化的个人数据，相关交易市场早已存在。“数据经纪商”能对特定类型的数据进行快速交易。在其他领域，市场或类似市场的东西正在萌芽。

以主导企业数据库市场的甲骨文公司为例，该公司正在开发相当于数据资产交易所的东西，希望客户买卖数据，并结合甲骨文提供的工具套装，从中提炼洞见，而且这一些都在该公司计算云提供的安全环境中进行，确保信息不被滥用。初创企业Cognitive Logic也在开发一款类似的产品，但将数据留存于其他的IT系统之中。

有的年轻企业希望消费者也能从自己的数据中获益。Citizenme允许用户将自己所有的网络信息收归一处。用户若选择与某品牌分享个人信息，就可获得一小笔报酬。初创企业Datacoup正从个人数据中提取洞见，销售出去，并将部分所得回馈用户。

到目前为止，这些努力都成效寥寥；专注于个人数据的更不消提起。目前，消费者和网络巨头之间依然相互依存，但关系有些尴尬。人们不知道自己的数据值多少钱，也不想管理这些数据，免得麻烦，卡内基梅隆大学的亚历山德罗·奎斯蒂（Alessandro Acquisti）说。

但他们也表现出了“*得的无助感”：服务条款通常令人费解，用户除了接受，别无选择（比如说智能手机应用，要是不点“我同意”，应用立马退出）。

另一方面，网络公司也开始严重依赖免费数据：无意于从根本上改变用户协议。它们要是付钱购买数据，并构建昂贵的系统，用于追踪用户的数据贡献，那么，数据提炼商就会无利可图了。

重要的资源不一定都是广泛交易的；无线电频谱和水权就是两例。但威尔认为，对数据而言，交易市场的缺失可能会导致低效。如果数据信息没有定价，有价值的数据也许永远无法生成。如果数据继续困在相互孤立的“谷仓”之中，很多价值也许永远无法提炼出来。大型数据提炼公司并没有独掌创新；其他企业也许能更好地利用信息。

数据市场的匮乏也会让老大难的政策问题更加棘手。最突出的有三个：反垄断、隐私和社会平等。和石油领域一样，最迫在眉睫的就是反垄断。1911年，美国最高法院维持下级法院的判决，即拆分标准石油。当时，标准石油控制了美国90%的石油提炼业务。

已经有人呼吁拆分谷歌等公司。比如，南加州大学的乔纳森·塔普林（Jonathan Taplin）就在新书《快速行动，打破陈规》（Move Fast and Break Things）中如是呼吁。但如此激进的补救措施恐难奏效。拆分会造成巨大的干扰，从而减缓创新。而且很快，小谷歌和小Facebook们就会形成新的垄断。

然而，要求采取行动的呼声日益高涨。牛津大学的阿里尔·埃兹拉彻（Ariel Ezrachi）说，“超级平台”把持了过大的权力。他与田纳西大学的莫里斯·斯塔克（Maurice Stucke）合著的新书《虚拟竞争》（Virtual Competition）已于最近出版。

他论称，这些平台拥有比他人更多、更新鲜的数据，可以迅速侦测到竞争威胁。凭借雄厚的财力，一发现哪家初创企业不可小觑，它们就立马出手收购。它们还可以操纵自己垄断的市场，比如让算法快速响应，使竞争对手没有机会通过降价赢取顾客。“看不见的手也正在数字化，”埃兹拉彻说。

在数字时代中，反垄断当局至少得磨砺一下自己的工具。欧盟委员会当初并没有以数据垄断为由阻挠Facebook并购WhatsApp。

Facebook之所以收购WhatsApp，是害怕它成长为强大竞争对手。所以在反垄断调查期间，Facebook曾许诺不会合并两者的用户群。但Facebook在去年偷偷开始合并两个平台的用户群，引致欧盟委员会以罚款相威胁。

Facebook引发的纠结很好地说明了一些欧洲国家开始修订竞争法的原因。在德国，相关立法已递交国会，一旦通过，联邦卡特尔局将有权介入涉及网络效应和数据资产的案件。

监管机构要履行职责，一个通用法则就是像它们监管的企业一样勇于创新。在最近的一篇论文中，埃兹拉彻和斯塔克提出，反垄断当局应该运作“暗中勾结模拟器”——要调查某个定价算法是否操纵市场，或是与市场暗中勾结，他们就应该在自己的计算机上运行模拟。

另一条思路是提供替代选项来缓和数据集中化。政府可以进一步开放收集到的数据，为小型企业创造机遇；还可以支持“数据合作社”。在瑞士，一个名为Mitada的项目从患者处收集健康数据，患者可决定是否允许研究项目使用自己的数据。

一些重要的数据类型甚至需要强制分享。出版《Stratechery》通讯的本·汤普森（Ben Thompson）最近提议，社交网络应该开放其社交图谱的访问权。

同样被Facebook吞并的照片分享服务Instagram最初凭借让新用户导入Twitter关注者名单的做法而异军突起。“后来，各大社交网络就纷纷叫停这种操作，使竞争者更加难以壮大，”汤普森指出。

强制性数据分享并非前所未闻：德国就要求保险商共同维护一组统计数据，包含汽车事故在内。这样的数据是小企业无力自行编纂的。

欧盟新推行的《一般数据保护条例》（General Data Protection Regulation）将于2018年5月生效，要求网络服务创造有利条件，方便用户将信息转移至其他服务提供商，乃至竞争对手处。

但“数据便携性”和数据共享凸显出第二个政策难题：数据市场与隐私保护的紧张对峙。在买卖或共享过程中，个人数据更容易泄漏。

为降低这一风险，《一般数据保护条例》加强了人们对各自数据的控制：企业须就数据的使用方式，获取用户的明确许可。违者将被处以高额罚款：最高可达企业全球营收的4%，或2200万美元。

在数据流混合匹配的当下，这种法规殊难实施。另外，收紧数据保护和促进竞争也是一对矛盾：大企业有更强大的实力去遵守代价高昂的隐私法规，不仅如此，大企业也可以借此进一步加紧数据控制。

假以时日，新技术也许能取代原理简单、容易破解的匿名化，从而缓解这种矛盾。初创企业Bitmark就使用比特币的“区块链”技术，追踪记录数据访问者。但法律创新也必不可少，牛津大学维克多·麦尔-荀伯格（Viktor Mayer-Schönberger）说。

他还有其他一些数据专家认为，不但数据的集合需要监管，其使用也需要监管。正如食品行业禁用某些配料，网络领域也可以禁用某些数据，或禁止用数据对个人造成伤害。他认为，这样可以将责任转移到数据收集者和使用者头上，他们应对自己管理的数据负责，而不是在获得个人许可之后，就万事大吉了。

这种“基于使用”的数据监管很难实施，丝毫不亚于当前通行但具有争议的“告知与许可”模式。这也可能加剧当前数据经济的第三大挑战：社会与地理层面的收益不均。

至少就个人数据而言，当前模式几乎难以维系。随着数据的升值，以及数据经济的重要性不断增加，所有钱都将落入数据提炼者的腰包。数据生成者面临一场不公平的交易，他们到手的只有免费服务。在2014年出版的《谁拥有未来》（Who Owns the Future?）一书中，微软研究院（Microsoft Research）的贾伦·拉尼尔（Jaron Lanier）最先指出了这一点。

威尔提出了该论点的另一个版本：归根结底，提供AI服务的不是算法，而是生成原材料的人。“数据是劳动力，”威尔说，他正致力于开发一个系统，用于衡量个人数据贡献的价值，从而为更加公平的交易打下基础。

威尔说，难点在于，你要让人们理解，他们的数据是有价值的，他们理应获得报酬。“我们需要某种形式的数字工人运动，”他说。“更难的是说服数据巨头们——拉尼尔称之为‘塞壬服务器’——改变做法，因为现状让他们获益颇丰。”

地理分布的平等化也许就更难实现了。当前，多数从事大数据提炼的公司都位于美国，或是由美国公司掌控。随着数据经济的进展，这种局面将难以维系。

过去，美国和欧洲围绕隐私争执不断，未来从中可见一斑。中国的监管草案要求，企业应将收集到的所有“关键数据”存储于中国的服务器内。石油控制权冲突祸乱世界几十年之久。目前还没人担心数据引发的战争，但与石油相比，数据经济引发冲突的潜力有过之而无不及。

经济学人：数据经济虽好，可是仍需补钙

你可能感兴趣的:(大数据,畅想+杂谈)