点击上方蓝字关注我们
李源1, 高宁1, 孙晶1,2, 赵会群1
1 北方工业大学信息学院,北京 100144
2 北方工业大学大规模流数据集成与分析技术北京市重点实验室,北京 100144
摘要:数据是数字经济的基础,然而目前数据的确权问题存在争议。数据作为新型资产,其资产化标准和定价标准仍处于摸索阶段,大数据交易平台的建设方兴未艾。分析了数据确权、定价和交易的现状及存在的主要问题,并基于此提出新型大数据交易模式,即数据确权、定价和交易之间的迭代交互关系。最终,结合区块链的技术特点,提出了一个基于联盟链的大数据交易平台的方案,从个人和数据交易双方的角度,对平台的权益保护、定价机制和交易模式进行了探索性设计。
关键词: 区块链 ; 大数据 ; 数据定价 ; 数据交易
论文引用格式:
李源, 高宁, 孙晶, 等. 基于区块链的大数据交易模式研究与探索[J]. 大数据, 2021, 7(4): 37-48.
LI Y, GAO N, SUN J, et al. Research and exploration of big data transaction model based on blockchain[J]. Big Data Research, 2021, 7(4): 37-48.
2020年政府工作报告中首次写入了“新型基础设施建设”(以下简称新基建)的概念。同年,国家发展和改革委员会明确了新基建的范围。新基建是我国发展的战略性布局。短期来看,新基建具有稳定增长、调整产业结构等作用;长期来看,新基建是夯实基础、推进高质量发展的战略性、先导性、全局性工程。
大数据是数字经济发展的关键一环。随着大数据的蓬勃发展,数据成为国家和企业非常重要的战略性资产。数据资产作为一种新型的资产在法律上还没有明确的归类,数据确权存在争议。数据不同于其他商品,其价值不会因使用而降低,反而可能因为持续的挖掘展现出越来越高的价值,且同一份数据对于不同的使用者会展现出不同的价值,因此数据的价值难以估量。目前数据定价仍没有公认的规范。当前的交易数据主要由一些数据交易企业或机构提供,其专精于各自领域的数据收集和分析处理,数据不经过多维度的挖掘就不能发挥其全部的价值,且相关数据逐渐向企业聚集可能产生“数据孤岛”现象。国内外现有的数据交易平台仍处于发展阶段,虽有一定进展,但仍不满足数据交易的要求。
当前针对数据确权、数据定价和数据交易的研究都是孤立的研究。本文将三者有机结合起来进行分析,提出了新型大数据交易模式,即数据确权、数据定价和数据交易间存在迭代关系。可以看出,数据确权和数据定价是数据交易的基础,数据交易是目的,但数据交易反过来又能促进数据确权和数据定价的发展。针对数据确权和数据定价的研究已有进展,而相关工作需要有足够的经验支持才能完善。数据确权、数据定价和数据交易间存在的问题限制了三者的发展,打破僵局的最好办法是创新数据交易模式,以提高数据交易量,根据大量的交易样本积累经验对数据确权、数据定价和数据交易进行探索。
将区块链技术应用到大数据交易中是一种可行的问题解决方案,该方案可以充分发挥区块链技术的优势,从模式上改变数据交易现状。区块链以去中心化的存储方式构建了一种新型信任机制,用户可以不依赖于第三方进行安全的交易。这种去中心化的交易模式对于数据交易有促进作用,一方面交易的安全得到了保证,可以提高大数据交易量;另一方面这种去中心化的交易也使得交易价格透明,可以更好地维护数据交易秩序。同时交易数据量的增多能促进市场在交易中探索到合适的定价规范,从而帮助解决数据定价的难题。此外,参照在专利等方面的应用,区块链技术在数据的确权上也有良好的适用性,数据资产登记在区块链账本上的记录难以篡改。通过对新型大数据交易模式和区块链技术在数据交易中的应用进行分析,本文提出了一个基于联盟链的新型大数据交易模式平台的方案,从个人和数据交易双方的角度,对平台的权益保护、定价机制和交易模式进行了探索性设计。
朱扬勇等人对信息资产、数字资产、数据资产3个相关概念的起源和问题进行了分析和探讨,并给出了数据资产的定义:拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。数据资产的确权和定价是数据资产交易的基础。本节讨论了数据资产确权、数据定价和数据交易的现状及主要存在的问题,并深入分析了三者内在的迭代交互关系,即新型大数据交易模式。
2.1.1 数据资产确权
数据资产确权是研究数据资产定价首先要解决的问题,这也困扰着国内外学者,因为不论数据是属于产生数据的个人,还是属于收集、使用数据产生经济作用的企业,两者都有合理的解释。从个体的角度出发,数据由个体产生,理应归个体所有。我国《民法典》中规定,物权是指权利人依法对特定的物享有直接支配和排他的权利,包括所有权、用益物权和担保物权。物权涉及有形资产和无形资产。但是法律并未规定数据属于何种资产。企业收集和使用个体的信息也并未与其发生利益交换,且企业在收集和处理个体产生的数据、制作数据集时投入了大量的成本,此时数据表现出的价值已经独立于个体的信息,因此企业应当对其制作的数据集享有使用权和排他权。大数据的价值源于其海量的数据,而个体的信息在大数据中的占比微不足道,且个体也在大数据的发展中获得了方便,这导致个体想要维护自身权利需要付出的成本与收益差距过大,于是个体往往主动放弃了这一权利。
除了资产确权问题,个人隐私问题也是数字经济时代出现的难题。随着智能手机的普及,越来越多的企业取消了其产品在网页端的支持。究其原因,个人用户的数据往往与其手机号码绑定,通过网页收集的数据与获取用户手机号后收集的数据价值相差极大,企业将收集的信息进行售卖或通过分析以提高自身业务能力无疑都会使企业产生巨大收益。在这种情况下,个人很难知道自身被收集的数据被何人作何用途,个人隐私有泄露的风险。
2.1.2 数据资产定价
数据资产定价是数据交易平台的核心组成部分之一。董祥千等人讨论了数据资产交易的市场模型,并提出了一种基于利润最大化的数据资产价值评估模型。数据的采集、加工处理、交易产生的税收和交易费等构成了企业制作数据集的成本,将该成本与企业的预期收益结合,就构成了数据提供者预期的基本价格。将基本价格与市场的供需关系结合,即可得出数据交易的最终价格。最终价格是多方共赢的结果。
数据的价格受到质量的影响,而数据的质量参差不齐,对数据进行定价不能忽略其本身的质量。赵会群等人根据大数据的4V特征,设定了大数据可用性评价模型,分别是数据体积、数据多样性、数据紧迫性和数据差异性,再对其特性进行调整,分别乘以和为1的价值加权系数后,将通过求和运算得到的结果作为这个数据集的可用性评价分数,在此基础上设计了一种大数据估值算法。国内外还有很多从大数据维度对数据进行分析、定价的研究。这些方法可以客观地对数据进行定价,但是不同类型的数据价值体现不同,仍需探索不同的数据定价规范。
2.1.3 数据资产的交易
戴炳荣等人从数据资产化、数据资产管理和数据资产运营3个阶段提出了12个数据资产标准化的建议,数据资产的标准化是大数据应用和发展的基础。一个典型的数据交易系统包含数据提供者、数据交易平台和数据购买者。数据提供者提供原始数据或处理后的数据,根据成本定价销售;数据交易平台根据定价模型或平台的定价策略对数据进行定价;数据购买者根据自身情况购买数据。
基于数据的资产化和数据对企业发展的重要性,国内外涌现出很多涉及数据交易的企业和机构。NTT Data是日本的信息系统集成商,其开展了转售来自Twitter等社交平台的数据的业务;Factual是一家位置数据公司,其出售地理位置数据,并提供相关的技术服务;Xignite主要面向金融行业,提供基于云的金融市场数据管理方案,可以使用户的内部系统与数据源脱钩,将用户从昂贵的传统基础设施中解放出来。我国也有很多大数据平台。贵阳大数据交易所采用协议定价、拍卖定价和集合定价并存的方式,现交易额已突破一亿元,但是贵阳大数据交易所不支持个人购买数据;上海数据交易中心使用联盟链技术,以发展联盟等形式,构建了我国第一个去中心化在线数据流通平台。
现有涉及数据交易的企业和机构包含了多个领域数据的交易,但由于企业自身业务的侧重点不同,其或侧重于某一领域数据的出售,或侧重于对某一领域数据的处理和分析。单纯由企业提供数据的交易模式可能导致一家企业独大,逐渐垄断某一领域的数据,进而产生“数据孤岛”和数据定价不合理的现象。另外,现有的数据交易平台仍处于发展阶段,平台中可用于交易的数据不够丰富,部分平台对数据个人购买者仍有限制。对于部分数据购买者而言,他们首先需要向某一企业或机构购买数据,然后再由其他企业或机构对购买的数据进行处理和分析,这个过程非常烦琐、周期较长,且数据的安全需要得到有效保护。种种问题限制了数据交易量的增长。
个体信息是构成大数据不可或缺的部分,却不是大数据的最终成品,而企业在收集和使用个体信息并投入成本制作大数据集的过程中未与个体进行利益交换,因此企业对其开发的数据集的所有权是不完整的。这导致了数据确权和收益分配的争议。在现有的数据交易模式中,企业并未向其收集数据的个体支付报酬,如果法律明确规定了个人对数据的所有权,那么企业就必须向其收集数据的个体支付报酬,这增加了企业制作数据集的成本。收益分配直接影响数据的定价。
尽管有很多研究针对数据定价模式进行了探索,且其中不乏有效的定价模式,但数据资产不同于其他有形资产,不符合边际效用递减、价格弹性和非排他私有资产特性,数据资产的定价仍然没有公认的标准。数据资产定价应当根据不同的数据类型采取不同的定价策略,这有待于在一个良好的市场环境下逐步探索。数据定价是数据交易的重要组成部分,数据定价不合理会导致数据购买者放弃购买数据或对数据价格保持观望,从而降低数据成交量。数据的交易受到供需关系调节,在交易市场中数据的价格会随着交易量的变化而改变,这也展示出了除了从数据本身的价值来研究数据定价算法,从交易模式入手、通过交易样本分析也是研究数据定价的关键。
数据作为一种商品,数据确权和数据定价是其可以用于交易的必要资产化步骤,直接影响着数据交易。数据交易的成功案例对于数据确权和数据定价研究有重要的参考意义,三者内在的迭代交互关系如图1所示。市场调节会遵循价值规律的要求适应供需关系的变化,通过竞争给企业提供压力和动力,实现优胜劣汰,并协调生产与需求的关系。数据确权、数据定价和数据交易各自存在的问题形成了彼此制约的闭环,除了相关理论的研究,在健康的市场中探索各自问题的解决方案也是解决问题的关键,这也是新型大数据交易模式的理念。不同于传统数据交易模式,新型大数据交易模式中不仅包含数据提供者、数据购买者和数据交易平台,还可通过数据交易平台,将数据分析者融入交易模式,为数据交易双方提供全面的数据交易环境。在良好的交易环境中发挥数据确权、数据定价和数据交易间的迭代作用,可促进三者彼此研究的正向发展。
将区块链技术应用到大数据交易中,可以充分发挥区块链技术的优势,从模式上改变数据交易现状。本节主要讨论区块链在数据交易中的应用,并设计了一个基于联盟链的新型大数据交易模式平台,从平台的权益保护、数据定价和数据交易3个方面进行了探索性设计。
3.1.1 相关研究工作
目前研究界有许多关于区块链在数据交易上应用的研究。Banerjee P等人讨论了当今数据市场安全性的不足,并引入了区块链作为解决方案;Nasonov D等人]从企业数据交易的角度考虑,构建了一个基于区块链的数据市场用于验证数据交易的完整性;Özyilmaz K R等人基于以太坊区块链实现了物联网设备交易的数据市场;López D等人设计了基于智能移动数据市场的多层区块链框架,以解决相关的隐私、安全性和可扩展性挑战;Sahoo S等人基于以太坊区块链研究了大数据交易背景下的水印问题;汪靖伟等人将区块链技术引入数据市场,提高了数据交易的透明性和安全性;Swan M对区块链技术进行了分析,认为其可以成为一种保护个人隐私的新机制;此后章宁等人就这个问题进行了详细阐述。
3.1.2 区块链技术在数据交易中的应用
区块链技术的去中心化特性使得其被应用于数据交易市场时可以有效地减少中间机构对交易双方的影响。区块链的透明性和安全性可以保证交易环境的透明公正,矿工节点在认证时会拒绝无效交易。而且区块链块链式的数据结构使得所有上链的交易具有可追溯性,上链的交易很难被删除,默克尔哈希树使得上链的数据可以被验证,以保证上链的数据难以被篡改。区块链的匿名性可以保证对于一项公开的交易,无法追溯到交易的双方,这保证了交易双方的安全。区块链技术在大数据交易上有广大的应用前景。
在数据管理方面。李雨霏等人将数据标准管理、元数据管理、数据质量管理、主数据管理、数据模型管理、数据共享管理、数据安全管理和数据价值管理纳入数据管理职能。区块链技术在数据共享管理和数据安全管理方面有良好的适用性。数据共享管理是指企业开展数据共享和交换,从而实现数据内外部价值的一系列活动。数据安全管理的目的是保障数据的使用安全和共享安全,确保企业的数据不会被泄露。区块链技术为企业间和企业内部数据的共享提供了便捷且安全的方案,企业可以构建联盟链,通过智能合约,在与特定企业进行数据共享时,联盟链中的其他企业不能获取共享的数据。同时,区块链透明的记账和难以篡改的特性保证了数据的安全。
在数据运营方面,数据运营主要包括数据的确权、估值、流通和数据服务。目前存在大量滥用数据使用权的问题,将数据存储在区块链上可以保证数据的使用记录透明、难以篡改、可追溯,以杜绝数据的滥用,保证数据所有者的权益。在数据估值、流通和数据服务方面,可以通过构建基于区块链的数据市场,将多个具有不同功能的企业联合起来,数据的流通通过区块链平台,数据的定价和交易需要区块链节点达成共识,多方监督下保证数据的定价合理、交易规范,并由此促进数据的流通。
在技术平台方面,相关企业的业务主要分为数据采集、数据存储、数据处理和数据分析4个方面。不同企业的业务侧重点不同,如果某一数据购买者有需求,传统的方式是向某一数据提供者购买数据,并由数据购买者自己处理数据或将数据交由数据分析企业进行处理。引入区块链技术可以将这个烦琐的流程大大简化,因为基于区块链的数据市场不仅包括数据提供者和数据购买者,还包括数据分析企业。在相同情况下,数据购买者可以上传自身的需求,购买合适的数据,并选择数据分析企业对购买的数据进行处理,而不再需要使用多个平台。
通过前文分析可知,现有的数据交易市场存在如下问题:
● 个人隐私无法保证,数据确权问题仍处于探索阶段,个人信息被企业使用时,个人无法获得收益,个人对数据的维权艰难,维权结果往往得不偿失;
● 数据资产定价标准尚不明确,目前仍处于探索阶段,这需要一个良好的数据交易环境;
● 数据的交易量低,数据交易的发展仍处于起步阶段,交易流程烦琐,可能产生“数据孤岛”问题。
这些看似彼此独立的问题其实存在内在的联系,可通过提高数据交易量,进而对交易样本进行分析的方式逐步解决。结合区块链技术在数据交易中的应用优势,本文设计了一个基于联盟链的新型大数据交易模式平台。新型交易模式的关键在于整合交易市场中的资源,通过交易平台的约束形成健康的交易市场,并在交易市场中进行合理的尝试,发挥数据确权、数据定价和数据交易之间的迭代作用,以促进彼此研究的发展。在新型交易模式中,交易数据的安全通过联盟链保证,联盟链具有将多个企业联合的突出优势。采用联盟链一方面可以避免“数据孤岛”的产生;另一方面可以减少数据交易的烦琐过程,提高交易效率。同时,联盟链允许个人用户加入,个人用户也可以将数据通过交易平台出售。
交易平台的系统分为3层,分别是区块链层、应用层和外部存储层。区块链层负责控制服务,外部存储层提供存储服务,应用层作为用户与区块链层和外部存储层交互的入口,如图2所示。区块链层选用联盟链的方式,为了保证数据的隐私性,只有具有权限的人才可以访问数据。为了减轻区块链的负担,将存储服务和控制服务分开,区块链上只存储哈希值,以保证数据的完整性。哈希值同样可以作为检索时的关键词之一。区块链层仅保存交易功能所需的基本识别信息和交易记录,用户共享的细节数据存储在外部存储层。应用层主要面向用户的客户端。它帮助用户与区块链层和外部存储层进行交互,以便用户参与数据交易活动。应用层通过信息接收模块获取交易请求、查询请求和接收数据,然后通过与智能合约的交互完成交易操作、查询操作和交易记录操作,用户共享的细节数据通过外部存储层交互模块存储在外部存储层。外部存储层由第三方存储提供商提供的分布式存储服务实现。外部存储层是完全分布式的,不会受到单点故障的影响。存储服务存储用户数据,并负责备份数据,以确保数据可访问。
图2 交易平台系统实现架构
联盟链中的节点可以分为4类,分别是数据分析者、数据提供者、数据购买者和个人用户。由数据分析者和部分提供数据的企业作为联盟委员参与联盟链的构建和维护。个人用户和数据提供者及数据购买者加入联盟链需要经过联盟委员的允许。
3.2.1 权益保护方面
个人信息来自个人的生活轨迹。个人信息被企业收集后可以产生收益,在个人不知情的情况下这是对个人隐私的侵犯,且个人维权艰难。为了减少这种情况的发生,平台针对个人用户设计了数据售卖功能,个人用户可以在交易平台进行个人数据的售卖,将其他软件(如淘宝、美团、滴滴出行等)的使用数据导入客户端,数据存储后会返还对应的哈希值给个人用户,用户可以用此哈希值进行检索。当个人用户存储的数据被用于交易时,个人用户可以从交易额中获得收益。由于每次交易都会被写入区块链,个人用户可以根据哈希值检索自身数据被何时使用。同时,交易平台也会对个人用户的数据进行分析,生成个体视角的报告并返还给个人用户。个人用户的数据由平台进行脱敏处理后出售,且只出售数据的使用权。个人用户与交易平台的交互如图3所示。平台可以保护上传的个人数据安全。随着平台的发展和个人用户的增多,平台中个人用户数据的价值也会逐渐增大,且平台的数据分析功能完备,这会促进企业通过平台购买个人数据,一方面个人用户会获得更多收益,促使越来越多的个人用户加入;另一方面,这降低了企业收集个人信息的预期收益,使得企业不再收集个人信息,以达到保护个人权益的目的。这是应对大数据发展情况下个人数据泄露问题的一次有益探索。
图3 个人用户与区块链的交互示意图
3.2.2 数据定价方面
对自身数据价值认知清晰的数据提供者可以直接在平台上架数据或拍卖数据。因为大数据商品和一般商品不同,不适用于边际效用递减,数据的价值不会因为使用而损失,且复制成本远低于制作成本,所以平台对交易的数据设置了两种定价方案,分别是使用权的交易定价和所有权的交易定价。购买使用权的用户只能使用数据而不能再将购买的数据通过平台进行交易,数据卖方可以继续售卖这份数据;当数据以所有权交易的方式出售后,购买者拥有数据的所有权,可以在使用后将数据通过平台进行销售,数据原卖方不可以再对此数据进行出售。数据使用权的定价应该低于数据所有权的定价。
采用这种定价模式可以促使部分数据购买者参与交易,虽然数据的价值不会因为使用而流失或减少,但是一些数据具有时效性,对于企业来说,购买这些只有短期使用价值数据的所有权成本过高,很可能达不到预期收益,这就会使得企业放弃购买数据,从而错过转瞬即逝的商业机遇。反之,如果数据提供者可以仅出售数据的使用权而保留对数据的所有权,企业就可以以较低的价格获得数据的使用权。同时,数据提供者也会为了盈利将数据进行完善以提高市场竞争力,从而促进数据质量的提升。数据交易量的上升、数据质量的提高会极大地促进数据交易的发展。由于联盟链具有整合多个企业的特性,拥有数据却对数据价值认知不清的数据拥有者可以将数据上传到交易平台,由联盟链中的数据分析节点代为分析数据并定价,此时数据只有数据分析节点和数据拥有者可见。由于平台存储了多个交易样本且分析结果在节点间达成了共识,平台会给出更加合理的定价。
3.2.3 数据交易方面
数据购买者如果只依据数据卖方对交易数据的描述来确定数据的价值,进而与卖方进行交易,可能会出现“双输”的局面,数据卖方认为自己的数据价值更高,这次交易卖亏了,而数据购买者认为这份数据不符合预期,这次交易买亏了。针对这种情况,平台对数据购买者设置了数据查询功能,数据购买者可以支付一定的费用,并向平台提供查询语句,平台会对数据进行抽样,然后依据数据购买者提供的查询语句进行处理,并反馈报告给数据购买者。数据购买者据此确定这份数据是否是其所需要的。对于数据购买者来说,这种模式极大地明确了数据的价值,避免了交易后因为数据质量产生的争执,可以促进交易市场的良性循环。对于一些想要通过购买数据提升自身业务水平却不具备数据分析能力的企业,可以在购买数据后支付额外的报酬,由网络中的数据分析企业代为处理数据。平台交易流程如图4所示。
数据使用权的交易往往采用协商定价的方式,由于数据可以多次售卖,预期的收益被多次交易的收益稀释,交易双方有交易价格的商谈空间。数据所有权的交易往往采用拍卖的方式进行,数据购买者使用数据后可以进行二次出售以回收成本,具有可观的预期收益。数据提供者通过单次交易获得收益,往往期望更高的交易价格,价高者得的拍卖定价方式更合理。联盟链最大的优势就是资源整合,基于联盟链的数据交易平台可以将原本独立的多个企业联合起来,在联盟链网络环境中没有绝对的领导者,所有企业通过共识完成交易,这使得企业间可以优势互补。一方面保证了交易的合理性,提高了交易的效率;另一方面基于联盟链的数据交易平台不仅通过提供更多服务提高了交易质量,而且有效地避免了“数据孤岛”的产生。
针对个人数据确权争议、数据定价困难和数据交易量低等问题,本文通过深入分析总结出数据确权、数据定价和数据交易间相互作用的内在迭代关系,三者并不是孤立的研究,将其视为一个整体并从中寻找突破点是解决问题的关键,由此本文提出了新型大数据交易模式,并设计了一个基于联盟链的新型大数据交易模式平台的方案,引入联盟链将具有不同功能的多个企业联合,在权益保护、定价机制和交易模式3个方面对平台方案进行了设计,从多个维度丰富了平台的功能,是区块链技术与大数据结合的一次有益探索。目前区块链技术和大数据都处于发展阶段,个人数据的确权需要法律法规的进一步完善,数据的定价规范和交易模式需要进一步探索。未来随着数据确权问题得到解决、数据定价和交易模式的规范化,区块链与大数据的结合应用会越来越广泛。
作者简介
李源(1986-),男,博士,北方工业大学信息学院讲师,中国计算机学会(CCF)会员,主要研究方向为数据挖掘、数据库和生物信息学。
高宁(1998-),男,北方工业大学信息学院硕士生,主要研究方向为区块链应用。
孙晶(1968-),女,北方工业大学信息学院副教授,CCF会员,主要研究方向为软件体系结构。
赵会群(1960-),男,博士,北方工业大学信息学院教授,主要研究方向为软件体系结构、大数据生成、物联网、云计算和体育计算。
联系我们:
Tel:010-81055448
010-81055490
010-81055534
E-mail:[email protected]
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作:010-81055537
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容