数据要素化使数据具有可用性,可以支撑一个组织实施数据智能为依托的数据驱动战略,但还不具有完整的财产属性。数据只有具有了像一般商品一样的可交易性,具有通过市场交易变现的能力(产生交换价值),才能真正地成为商品、财产或者资产。这也时常被称为数据直接货币化(Direct Data Monetization)。数据要素的可流通性意味着数据要素成为可为任何市场主体重复使用的“产品”,因此,本文将数据要素的可重用性看作是数据要素产品化的标志,同时也是数据要素市场化流通的基础性技术标准。数据要素一旦成为可重用的产品,数据要素市场自然可以凭借市场主体的自主性自发形成并不断成熟。因此,数据资源在完成要素化之后,所面临的就是如何实现市场化的难题。
(一)直面失败:反思数据市场化流通的基础条件
在培育数据要素市场的实践中,数据市场(Data Marketplace)这一形态在2010年前后在世界范围内逐渐兴起,中国在2014年至2019年底也有多家数据交易机构挂牌成立。但是,现实的结果却是不仅国内的数据交易业务昙花一现,国外的许多数据交易机构可以正常经营的也寥寥无几,盛极一时的数据交易公司纷纷关门转业。自《意见》发布之后,全国各地开启了新一轮的数据交易市场建设,2021—2022年先后有15家机构成立,各地方政府也积极探索设立各类数据交易所。除了由地方政府推动组建的数据交易所外,许多由商业机构设立的数据流通场所也不断涌现。但是,数据交易机构失败的前车之鉴始终警示着研究者。在笔者看来,要想从失败中吸取教训,需要从以下几个方面重新思考数据要素市场化流通的基本问题。
1.数据交易机构未解决数据的合法性问题,导致交易失范。公开的数据要素市场建设需要解决数据的合法性问题,而合法性的前提是具有可流通的数据要素产品。除了数据来源的合法性问题(本文限于篇幅不予讨论),现行数据交易机构失败的最主要原因是并没有满足真正需求的数据要素产品,而只有失范的“数据买卖”。在数据交易热潮中崛起的许多数据交易机构,大多利用数据法律理论和监管实践的空白,不择手段地获取数据资源,寻求“数据变现”。其结果是一方面交易数据不具备本文所讲的原始性、机读性与质量要求,使数据交易沦为信息和知识范畴下的信息产品交易,另一方面则因为法律上的不确定性和涉个人信息处理活动的合法性质疑,整个数据交易市场都处于似是而非的不确定性之中,甚至有的从业者还面临着触犯刑事法律的风险。
2.数据要素市场是促成数据要素商业化利用的一整套制度安排,而不是单一的技术和场所支持。数据要素流通既可以无偿,也可有偿,既可以在特定主体之间或固定群体之内,也可以在不特定人之间通过公开的市场交易方式(公开要约、询价等)实现。数据要素流通既可以完全转移数据本身,也可以通过数据许可获得使用权限,如读取、计算、访问等方式。可以说,各种数据要素流通形式已经广泛存在于当下的数字经济活动中,但是似乎无法明显感受到所谓数据市场的存在。出现这样的错位的主要原因就是错误的理解、定位了“数据市场”这个概念。
传统上认为,一个正常运作的市场需要:
①能够被估价的标的物,以便能够进行交易;
②一套使用通用技术和方法调动计算能力的框架,并且适用广泛;
③一个被普遍理解的制度架构,在这个制度中可以进行安全、顺畅的交易。
由于公开和竞争数据交易往往需要第三方商业撮合、安全保障等,因而第三方运营的数据交易机构(一般称为数据分享/流通/交易平台)便成了所谓“数据市场”的标签。显然,这里“数据市场”被特指在特定交易机构或场所,通过集中、公开、竞价的方式进行的所谓“场内交易”,并不包括数据交换、共享等其他多样化、多场景、多路径的数据要素流通利用形式。这样狭义的市场解读便造成了对于“数据交易所”等交易机构偏激的追求,其实际效果则难以令人满意。
3.数据交易机构忽略了数据要素的特殊性。典型的市场交易适合于交易标的物可界定、产权清晰或可判断、价值可评价,有成熟的价值发现和实现的市场机制,存在降低交易成本和保障交易安全的制度保障体系。对于传统工业制品,通过产品标准化、公开竞争的市场、发达的法律制度等来确保商品市场有效运行。但是,数据要素本身是非常特殊的,难以标准化成为制约市场交易的最大难点。
从影响数据要素交易的角度,数据要素至少可以概括出以下三个特点以区别于传统市场商品:
①数据要素的难以界定性;
②数据要素价值的不固定性与不可计量性;
③数据要素的价值迁移性。
因此,数据要素这些特征决定了数据要素不太适合常规的市场交易范式,市场交易范式,即依赖于繁重的流程标准化、易于比较、买家和供应商之间的公平互动以及明确的价值转移。
4.数据交易场所对于供需关系匹配的失效。数据要素市场中流通的数据应当是满足接受者(使用者)需求的数据要素产品。这些数据要素产品“必须将数据锚定在符合每个主体利益的关键使用情形中”。数据要素的市场化旨在通过市场化方式实现数据产品社会化配置和利用。由于前述数据要素不同于一般消费品的特性,本文发现在早期数据市场的构建中存在巨大的悖论。即使数据市场尝试着生成、存储、提供了越来越多的数据,但实际访问和重用这些数据以积极促进数据智能的动力与能力仍然受到阻碍。从使用者的角度来说,数据要素的可用性与需求的满足度便是一个不可忽略的问题。数据交易市场是需求驱动的市场,而不是供给决定市场。因为虽然数据供给者需要尽可能从潜在客户的需求出发设计、处理和构建数据产品,但是数据供给者不可能知道其数据有多少用途,往往也不能准确地判断其数据计算分析产生的结果与价值。
(二)可重用性:市场化数据要素的技术标准
“为了使数据在未来仍然有用(或对第三方有用),不仅需要数据可读,还需要以透明和一致的方式记录数据,以便所有用户了解数据代表的内容。”本文用数据要素的可重用性描述数据要素市场化流通利用的条件。数据要素可重用意味着数据要素不仅可以为原来生产者使用(在原生环境中可用),而且可以提供给其他人使用,在新的商业场景和生态环境中亦可以使用。数据要素满足可重用性有助于识别和消除数据要素市场化流通的障碍,有助于数据经济的进一步发展,可以更好地利用数据要素创造的价值。
只有当市场主体可以不断重用来自不同来源的大量数据要素时,才能充分利用大数据的好处,增加发现新趋势、模式和关系的可能性,产生具有经济和社会价值的见解和知识。因此,在挖掘数据要素的计算价值时,数据的可重用成为数据要素市场化的基本技术标准,实现数据要素流通的基本途径。巴特·卡斯特斯和海伦娜·乌尔西克概括了三种类型的数据重用:数据循环(Data Recycling)、数据目的重用(Data Repurposing)和数据场景重用(Data Recontextualization),并且断言第二和第三种数据重用的类型将在欧洲数据经济中具有最大的附加值。它将来自不同来源(如不同社会部门和行业)的数据要素组合在一起,形成新的更大的数据集,数据要素的附加值可能会大幅增加。
数据要素的可重用性在很大程度上取决于存储、处理和传输数据的系统彼此兼容、连接的程度,因此数据要素可重用性也表达为数据互操作性(Interoperability)。数据互操作性对于内部而言是创建、存储、查找、共享和重用数据,而对于机构组织之间或整个社会而言,它是实现数据分享或流通的基础设施。互操作性既适用于系统,也适用于数据要素,最终使系统能够交换数据并随后以最终用户可以理解的方式呈现该数据。IEEE将互操作性定义为:“两个或多个系统或组件交换信息和使用已交换信息的能力。”实现该能力主要是句法(Syntactic)和语义(Semantic)两个方面具有互操作性。 在此基础上,互操作性逐渐被拓展到数据法律、组织与技术层面,其目的就是让数据要素市场中的要素流通高效、有效、及时和高质量,并帮助减少繁文缛节,降低相关流通成本,从而实现一个系统与另一个系统的部分或全部独立工作的能力。因此,互操作性使数据要素成为任何市场主体使用的产品,使数据要素具有市场化的可流通性。
因此,数据可重用问题实质演变为数据要素的标准化问题,也就是将数据要素转换为通用格式以使用户能够对其进行处理和分析。大数据最大的特征是异构多源,因而要使来源于不同系统、不同主体的数据能够方便地相互连接起来,就需要建立清晰和一致定义的数据要素和属性(描述),并采取或转换为统一格式。这样,无论数据流通到哪里,无论想获得什么见解或想解决什么问题,都能够正确理解所获得数据,与更多数据实现匹配和聚合。应当说,技术和产业界一直在为数据可重用而努力。为实现更大范围的有价值的数据要素流通,早在2011年FORCELL就提出建议遵循可查找、可访问、可互操作、可重用的“FAIR原则”。经过马克·威尔金森等在2016年的进一步细化,“FAIR原则”得以在世界范围内产生影响。与其他倡议不同,“FAIR原则”除了支持个人对数据的重用性外,更强调增强机器自动查找和使用数据的能力,即机器可操作性(Machine-actionability),也就是计算系统在无需或最少人工干预的情况下查找、访问、互操作和重用数据的能力。这几乎成为数据要素流通尤其是科研数据流通的世界性标准。
(三)市场化的数据产品形态
可重用的数据具有可流通性,可以通过市场交易来实现数据的经济收益。为了指引和规范数据流通,本文需要对可交易的数据产品做出界定。有研究者总结出五种数据货币化形式:
①数据或见解许可使用;
②数据交换(指用数据交换数据或其他);
③用数据增强现有产品或服务;
④数字化现有产品或服务;
⑤反向数据货币化(指向自己用户推荐其他产品或服务)。
受此启发,一旦将数字经济视为智能数据支撑的经济活动,并将知识(数据分析产生的洞见、预测、解决方案等)亦视为数据产品,那么就可以全面勾勒出数据产品的样态全貌。在实践中,任何与数据相关的资产,从原始数据到模型、代码、API密钥和指令,都可以组合形成数据产品。为符合数据行业的实践,本文在广义上使用数据产品概念,笔者尝试区分的可交易流通的数据产品包括以下三类:
1.知识生产要素类的数据产品。知识生产要素数据产品,是指经过处理可以不断重用的原始数据。所谓的原始仅在于该数据仍然保持与特定实体关联性,可以不断地用于该实体规律的发现。要素数据以数据集为典型。数据集泛指有组织的数据集合。ISO所定义的数据集更加符合产品性数据要求:数据集以一种或多种格式可供访问或下载的可识别数据集合(Identifiable Collection of Data)。数据集可大可小,可以小到包含在更大数据集中的单个要素或要素属性。从可重用的角度,无论怎样的小,它必须具有可关联性,也就是可以识别某个对象的数据。高价值数据集具有三个重要的特征:可重用性、对数据持有者的价值性以及对重用者的价值性。数据集是一组相关的、离散的相关数据项的集合,这些数据项可以单独访问,也可以组合访问,或者作为一个整体进行管理。数据库本身可以被视为一个数据集,数据库中与特定类型信息相关的数据体也可以被视为一个数据集,例如特定公司部门的销售数据。要素数据产品可以以数据仓库甚或数据湖方式呈现。因此,实践中也许存在数据仓库或数据湖的买卖或许可使用交易。
2.知识生产工具类数据产品。工具类数据产品属于数据分析方法或技术工具,而不是数据要素本身。典型的数据算法模型被认为是数据产品。数据产品由数据训练而成,通过具有自适应性和广泛适用的经济模型,这些模型从数据中获取价值并生成新数据作为回报。这样,从数据中学习、自适应和广泛适用的系统或智能分析工具亦可以视为数据产品。这类数据产品将会越来越多,因为并不是所有的组织都具有数据智能分析能力。当持有者拥有数据但不清楚可以用它解决哪些业务目标时,可以使用一些工具类数据产品以解决数据分析应用于业务的特定问题。基于语义网络的知识图谱也可以认为是工具型数据产品,因为真正的知识图谱是从不同信息源“获取和集成信息到本体中,并应用推理器推导出新知识”。知识图谱将成为支撑机器学习、人工智能有效运行的重要数据产品。
3.知识服务类数据产品。数据是生产知识的要素,一旦机器能从大量历史数据(训练数据)中学习规律,形成模型,就可以依照输入数据状态产出合理预测或洞见——知识。知识成为大数据分析的结果或产出,这些知识可以应用于各行各业,支撑科学研究、运营决策。随着大数据分析应用需求的增长,社会中逐渐出现了数据供给者形态的企业,一方面为汇集和聚合数据,形成可重用的数据资源,提供给需要数据的主体(扮演数据经纪商角色),另一方面研发各种算法模型,布设机器学习,形成新的智能或知识服务。贾斯丁·洛基茨所总结的三种大数据商业模式中,“信息即服务”(IaaS)和“答案即服务”(AaaS)即是指这种知识类数据产品交易。在数字化转型过程中,并非所有的企业都具有足够的数据,即使有数据也并不一定有挖掘分析的能力,因而“信息即服务”“答案即服务”就有了广泛的市场需求。