点击上方蓝字关注我们
叶雅珍1,2,3, 刘国华1, 朱扬勇2,3
1 东华大学计算机科学与技术学院,上海 201620
2 复旦大学计算机科学技术学院,上海 201203
3 上海市数据科学重点实验室,上海 201203
随着数字经济的蓬勃发展,数据资产的研究和实践受到越来越多的重视。“数据资产”一词在1974年就已出现,随后在1977年出现“信息资产”一词,而“数字资产”一词则出现在1996年。针对这3个术语的较有代表性的定义出现的先后顺序是:信息资产(1994年)、数字资产(2006年)、数据资产(2013年 )。2018年,朱扬勇、叶雅珍将它们统一为数据资产。但数据资产仍然停留在概念上,其进入会计报表仍然存在很多问题和困难,如数据资产如何计量计价、数据资产属于无形资产还是有形资产、归属于何种会计科目等问题都尚待解决。在实践中,数据还未被当作一类资产,难以进入会计报表。
大数据兴起后,人们认识到数据是数字经济的关键要素并且要参与分配。因此,如何将数据资源资产化并加入会计报表和流通领域是亟待解决的问题。资产是一个经济学术语,是指由会计主体(政府、企事业单位等)的过去的交易或事项形成的、由会计主体拥有或者控制的、预期会给会计主体带来经济利益或产生服务潜力的经济资源。数据资产可以由交易或事项2种方式形成。
(1)通过交易形成数据资产的探索
有些学者对数据交易定价进行了研究,上海数据交易中心、贵阳大数据交易所等各种数据交易机构正在探索数据资产化的机制和做法。通过交易的方式形成数据资产的好处是市场化的交易价格解决了数据资产化过程中的价值评估问题,挑战是数据出售方需要完成数据资产化,才可能将数据拿到市场上交易。
(2)通过事项形成数据资产的探索
绝大多数数据资源拥有方(如商业银行、通信运营商、电商平台)是通过信息化的事项形成数据资源的,这些事项形成的数据资源是否可以变成数据资产呢?事实上,这些机构目前都在探索如何实现数据资产化的问题,例如数据权属问题和计量计价问题。只有这些机构完成数据资产化,才能将数据加工成数据产品并在市场上流通。
然而,并不是所有的数据都可以作为资产(如毫无意义的“垃圾数据”、没有权益的数据等)。因此,哪些数据可以作为数据资产、作为数据资产的数据应该具备的条件、如何将一个数据集转化为数据资产,是当前数据产业、数字经济亟须解决的问题。
数据资产具有以往各类资产没有的资产特性,这使得其在资产化过程中,在数据资产形态、数据权属以及数据资产评估与定价机制等方面面临挑战。在数据资产化过程中,不能简单套用已有的会计体系处理数据资产,也不能将传统的资产标准运用到数据资产领域。针对如何将数据资源变成数据资产的问题,本文研究了数据资产的特点和需具备的条件,提出了一个数据资产化基本框架,包括数据资源确权、数据价值确认与质量管控、数据装盒入库、货币计价与评估、数据资产折旧和增值的管理5个环节。
数据资产是指拥有数据权属(勘探权、使用权、所有权)、有价值、可计量、可读取的网络空间中的数据集。根据定义,一个数据集被认定为一个企业的数据资产,需要满足4个必要条件:企业拥有这一数据集的数据权属;数据集是有价值的;数据集成本或价值应该能够被可靠地计量;数据集必须是可机读的。
显然,对于一个企业来说,将一个数据资源转化为数据资产时,数据集有价值、可机读这2个必要条件是容易被甄别和实现的,数据资产化的难点在于对数据权属和可计量这2个条件的甄别和实现。
企业将一个数据集作为数据资产,首先要持有一定的数据权属(可以是所有权、使用权、勘探权等),企业只有拥有了数据资源的数据权属才有可能让数据成为企业的数据资产。由于数据复制成本相对生产成本来说极低,数据易被复制和传播,造成数据使用者损害数据拥有者权益的情况十分普遍,故而合理界定数据权属是亟须解决的问题。关于数据权属,一个直观的观点认为:数据非天然,情理上属于生产者。但当数据是由多个主体生产时该如何界定数据的权属,当生产的数据涉及国家秘密或公民隐私时又该如何界定数据的权属?目前这些数据权属的问题在法律和规制上都还未给出有效的界定和解决办法。
当前,在市场上运行和流通的一些典型行业的数据产品以及科学数据出版的运行机制是相对可行也是值得借鉴的数据资源确权方法。
市场上运行和流通的典型行业的数据产品很多是音乐、影视、电子书等单一类型的数据产品,这些产品大多是从物理形态的产品电子化而来,权属相对清晰明确。例如,在现有电子出版物和知识产权相关规制情况下,传统的图书、音像制品的权属是确定的。因此,将这类产品转化成电子数据后形成的数据资源的权属也是明确的。这类数据产品的所有权属于生产者,生产者将包括使用权、分销权、转授权等在内的独占或非独占权利授予销售平台,销售平台就可以将这些数据产品的使用权、分销权、转授权作为其数据资产评估入账,实现数据资源的确权。
科学数据出版是另一种数据确权方式。科学数据出版通过一系列保障措施、环节步骤和技术支持,较好地实现了对数据权益的保护等规范数据引用,达到数据生产者或拥有者对数据著作权、所有权的宣示目的。
数据资产的流通在权属上进入了“后所有权时代”,数据资产的所有权可以不发生转移,只将分销权、转授权、使用权等进行授权。因此,数据资源确权需要设立专门的数据权属登记机构,对数据资源进行权属认定,并制定数据资产流通标准和机制,只有在登记机构登记的数据资源,才能确认其权属,进入市场流通。数据资源的登记是数据拥有者对数据权属的宣称和主张,因此需要数据登记机构保障数据的权属。个人和公司内部生产的数据只有经过登记后,才具有合法性,才可以确认权属,在数据市场上交易,并受法律保护。登记后的数据资产盗版问题属于法律范畴,依照法律法规处理,不在技术上进行要求。在数据权属登记机构登记的数据资源会被分配一个唯一版权标识符,用以保护和确认数据权属(类似数据出版的DOI),便于数据资源的流通、交易。数据权属登记机构在符合一定的法律、法规、标准和数据资源自身特征及市场规律的条件下,制定数据流通标准和机制。
数据资源作为数据资产,其成本或价值需要能够被可靠地计量。数据是由现实事务的信息化产生的,因此对各类数据进行统一计量是非常困难的,而且一个大数据集往往由多种数据组成,类型多样,规模庞大,对其进行可靠计量具有很大的挑战。
当前,可作为数据资产的单一类型数据产品在计量方面已有一些实践。例如,在市场上能较好地进行交易流通的单一类型数据产品(如音乐、图片、电子书、网络小说等)都有各自的计量计价单位,从而得以被准确地计量和管理。音乐数据产品的计量计价单位是一个完整的音乐数据产品,如一首歌、一首曲子等;与音乐数据产品类似,图片以一幅图、电子书产品以一本书、网络小说以一章节/一部小说等作为其计量计价单位。单一类型数据产品的计量计价单位是规范化的结果,也是其能被准确计算的前提,更是其能被管理、流通的依据和基础。
基于单一类型数据产品的实践,多类型大规模数据集(如大数据等)在数据资产化过程中同样也需要有标准的计量计价单位,使其能被准确计算,从而得以入库管理。由于数据的价值会因人而异,所以很难依据数据的价值对数据资产进行计量计价。类似地,一本书的价值也是因人而异的,所以图书的定价不是按照图书的内容价值确定的,而是以一本图书的出版成本来确定的。其中,以“册”作为图书计量单位,一册图书至少有49页,否则不能称为图书。
通常,图书是以出版发行机构根据出版发行规范以一定页数并配有国际标准书号(international standard book number,ISBN)的副本装订物作为最小计量计价单位——本/册。参照图书的作法,数据资产可在按照数据权属登记机构的有关规定对数据集进行规范化整理后,按一定规模大小的副本进行装盒,而这个“盒”就是该数据资产的计量计价单位。有了计量计价单位,数据资产得以被准确计算,就可以建立数据资产的目录,从而对数据资产进行入库管理,即数据资产的“入库”。建立数据资产目录,明确数据资产类别、登记资产名目、界定管理范围,有利于数据拥有者或数据管理者对数据资产进行入库后的检索、获取、盘点、使用、处置等管理。有用的数据集通过规范化整理并进行装盒入库后,才具备了被计入企业资产负债表的可能,对应的数据产品才能进行登记、出版,并进入市场进行交易、流通。
数据集在满足了上述4个必要条件后,就可以被认为是数据资产了。随之而来的是数据资产的管理,没有管理的数据资产仍然难以体现价值,也难以流通和增值。目前,对数据资产管理的研究工作有很多,如数据资产管理体系建设、数据模型管理、数据质量管理、数据安全管理、数据价值管理等。数据资产目录管理、评估、审计等数据资产管理标准方面的研究工作也在开展。总体来看,很多工作是先前数据管理的扩展,并不是完全针对数据资产的。
数据资产管理需要具有良好的数据质量、合理的货币计价与评估方法、数据资产折旧和增值规则,这些是数据资产化的附加条件。下面分别对其进行讨论。
高质量的数据才能产生好的价值。判断数据质量的标准取决于数据使用者的需求和目标,不同情境下不同的数据使用者对数据的“使用适合性”不同。影响数据质量的因素有很多,如技术、管理等都会对数据质量造成影响。影响数据质量的环节有很多,如在进行数据质量管控的过程中,有时需要对2个或多个数据集进行整合,但整合过程中有可能会出现2个或多个数据集不一致或冲突的问题,进而导致数据异常,影响数据质量。数据质量管控需要人、流程和技术的完美配合。高质量的数据应该是准确的、一致性的、完整的和及时可用的,是数据资产管控不可或缺的一个因素。
随着数据成为资产,数据质量的重要性日益凸显。加强数据质量管控的首要条件就是相关人员要到位。建立一个数据质量管控团队负责数据资产化过程中数据质量的管控工作,可对数据资产化起到积极的推动作用。数据质量管控团队主要负责数据资产化过程中各类数据质量的管控工作,主要包括数据质量标准设定、数据质量知识库的建立和更新、数据剖析、数据质量评估、数据质量监控和报告等。根据工作内容和职责设置不同的人员角色,同一角色可由多个人员担任,一人也可同时兼任多个不同角色。
在实施数据质量管控的过程中,方法和流程很重要。具体的方法如下。
● 对已确权的数据资源开展数据剖析和识别工作,掌握数据集的基本情况及可能存在的问题。
● 根据数据剖析和识别的结果,对数据质量的标准进行设定,对数据质量管控目标进行量化,给出数据质量的维度、评估指标和度量方法,以便后续开展数据质量评估工作。
● 明确数据质量规则,并对数据集与该规则的符合度进行监控,如果发现数据集不满足该规则,要及时向负责数据资产化的部门和人员发出数据质量问题的警示。建立缺陷数据纠错机制,完善和实施数据质量规则,以达到最好的效果。
● 通过数据集成流程对数据质量规则和活动(剖析、清洗/匹配、自动纠正和管理)进行集成,这对于提高数据资产的准确度和价值至关重要。
● 检查和分析数据质量的异常情况,并对规则进行验证,确定与评估数据质量的服务水平,根据评估结果完善规则。
● 对照目标,监测数据质量,并形成报告。与数据质量管控目标进行对照,管理、监控数据质量,并形成数据质量报告,使相应的数据资产化负责人员及时掌握数据的质量水平。
数据质量管控的流程主要包括分析数据质量的过程和根据分析结果进行优化的过程。首先,剖析和识别数据,并对数据质量进行量化;其次,给出数据质量的规则和目标;再次,通过集成流程提高数据资产的价值;然后,实现质量提升的流程,把原有低质量数据变成高质量数据;最后,检测异常,对照目标开展一些监控来评估是否达成目标,决定是否需要进行数据质量提升,并将高质量数据交付给负责数据资产化的相关人员使用。
通过合理的货币计价与评估方法可以将数据资产的价值显化。数据资产的货币计价方式有很多,可以根据具体情况和商业需要采用不同的形式。
● 按离散计数进行计价。2003年, iTunes Store里的所有音乐,无论作者、长短以及受欢迎程度,统一定价为99美分;Spotify实行会员制,目前价格为9.99美元/月;Apple Music个人订阅的费用为9.99美元/月、99美元/年,家庭订阅价为14.99美元/月,学生订阅价为4.99美元/月等。
● 按使用量和时长等计价。魔兽世界、梦幻西游这类在线游戏按玩家在线的时长进行收费,梦幻西游的收费标准为每小时0.6元,魔兽世界的收费标准为每天0.5美元。
● 按多因素混合计价。亚马逊prime影音服务实行会员准入制,人们成为亚马逊prime订阅会员后,可在平台上购买视频,但不同视频的价格也不同。电影的价格与实体DVD同价或比实体DVD稍低。
● 数据资产可以根据交易价格确定其资产价格。对于大数据型的数据资产,一般会出现对数据资产内容进行交易以及以“盒”为单位进行按件计价交易等形式。
● 数据资产内容的交易。当直接对数据资产内容进行交易时,该类数据资产内容往往不能公开,需要对其进行使用保护。因为数据资产一旦公开发行,任何机构或个人都可以对其内容开展挖掘和开发工作,从而影响该数据资产作为交换物的稀缺性,减少溢价,使得数据资产内容提供商的权益受到伤害。以数据资产内容为交易对象的计价形态需要采用内容估值方式,主要是因为数据资产内容的价值取决于使用者,很难有统一的计价标准,所以只有对数据资产内容进行估值后才能得到相应的价格。
● 以“盒”为单位进行按件计价交易。数据资产直接以“盒”为对象进行交易时,需要有健全的法律法规体系对数据资产权属进行保障,解决盗版等问题。只有在健全的法律法规体系下,才能进行以“盒”为单位的按件计价交易。以“盒”为交易对象的计价形态,不按内容计价,故无须考虑“盒”中的数据资产内容的价值,更多的是从数据标准化装盒成本、消费者支付意愿以及以“盒”为单位的数据资产流通性等角度进行考量和定价。
数据资产具有信息属性,具有无形性,这一特点也是其价值所在,但这个价值取决于使用者。从这个角度看,数据资产除进行货币计价外,也可以通过评估确定其价值,给出 定价。传统的资产评估方法主要有3种:收益法、成本法、市场法。收益法是指通过测算被评估资产的未来预期收益值,利用折现率计算其现值,进而确定被评估资产价值。成本法是通过计算被评估资产重置成本与各类贬值(各种实体性贬值、经济性贬值、功能性贬值等)之差,得到被评估资产价值。市场法是指将市场上相同或者相似资产的近期交易价格,通过直接或者间接对比,分析其中的差异,估算被评估资产的价值。数据资产评估从宏观上可以沿用收益法、成本法、市场法。但是,由于数据资产兼具有形资产和无形资产的特点,且数据计量计价、流通交易还存在许多问题,数据资产的评估有其特殊性,因此需要设计专门的评估模型。
数据作为一类资产,还需要考虑折旧和增值问题。随着时间的推移,大部分资产会存在折旧的情况,但数据资产比较特殊,可能存在增值的情况。因为数据具有时间属性,虽然数据的载体会折旧,但数据本身不会折旧。在数据管理中有数据生命周期的概念,但就数据自身而言是不会随时间的推移而变化和消亡的,数据的价值可能会折旧,也有可能会越来越高。因此,在数据资产管理过程中,需要考虑其折旧和增值的情况。
数据管理中的数据生命周期一般是指某个数据集从产生到销毁的过程,通常包括数据的采集、存储、整合、呈现与使用、分析与应用、归档与销毁等。在这个过程中,数据的价值会随着时间的推移而变化,例如数据的采集粒度与时效性、存储方式、整合状况、呈现和展示的可视化程度、对数据分析挖掘的深度以及应用的程度,均会影响数据的价值。在数据管理过程中,为了节约成本、提高管理效率,一般更多地考虑有用数据的存储、备份、归档、销毁等问题。随着技术的进步,数据获取和存储成本被极大地降低,当前的数据管理更多地以数据价值为导向。
数据成为资产,同时数据存储成本被极大地降低,将会促使数据拥有者或数据管理者考虑保存全部数据并积累更多的数据。因为随着时间的推移,当数据累积得越来越多时,很可能会给数据拥有者或数据管理者带来新的业务增长点,这种情况下数据资产不会折旧,反而可能增值。如证券行情数据,一天或一个月的数据可能没有很高的价值,但一年或十年的数据可能就会带来很多新的价值,催生很多新的业务和增长点。
数据拥有者或数据管理者需要考虑的是:当存储业务需求之外的数据量达到一定程度时,在这些数据尚未带来新的业务增长点之前,投入的存储成本可能超出承受的范围。从这点来看,数据拥有者或数据管理者需要综合考虑数据的成本和产出,在数据资产管理过程中要处理好数据资产折旧和增值的关系。
通过上述讨论,如果一个数据集满足4个必要条件,那么就可以认为其是一个企业的数据资产。如果还满足了3个附加条件,那么这个企业就可以管理和运行这些数据资产。由于有价值、可机读性的条件是容易被界定和满足的,不需要专门的工作流程,因此本文根据除了有价值、可机读性外的5个条件设计数据资产化的步骤,给出了一个数据资产化的基本框架,如图1所示。
(1)数据资源确权
数据资产化的第一步是数据资源确权。目前在法律和规制上都还未给出有效的界定和解决办法,数据资源确权存在困难。当前,在市场上运行和流通的一些典型行业的数据产品以及科学数据出版的运行机制是相对可行也是值得借鉴的数据资源确权方法。
(2)数据价值确认与质量管控
在对数据资源确权后,需要先确认数据资源的价值,然后确保这个数据资源有一定的质量。对于企业来说,确认数据资源是否有价值相对容易,因此其重点放在难度较大的数据质量管控上。数据质量直接决定了数据资产的价值。对于要开展数据资产化的数据资源,在对其确权后,就需要通过各种技术和管理手段对数据资源的质量问题开展识别、度量、监控、预警等系列工作,通过数据质量管控团队的建设、流程的优化和技术等方法管控数据质量。
(3)数据装盒入库
在数据资产化过程中,对于确认了价值并完成质量管控的有用的数据集,下一步工作是将其进行规范化整理,形成标准的计件单位,使得数据资产得以准确计量,从而建立资产管理目录,对其进行入库管理,即所谓的装盒入库。根据数据权属登记机构的有关规定,可以对数据集进行规范化整理,将一定规模大小的副本以“盒”为单位对数据进行灌装,从而建立数据资产目录,进行入库管理。
图1 数据资产化的基本框架
(4)货币计价与评估
有价值的数据集装盒入库后,就有了计量计价单位,就可以进行货币计价与评估,以确定数据资产的价格和价值。数据资产兼具有形资产和无形资产的特征,与以往的传统资产评估相比存在一定差异,有其特殊性;加之当前数据在计量计价、流通交易等方面还有诸多问题需要解决,因此,对于数据资产评估,需要开展设计专门的评估模型。
(5)数据资产折旧和增值的管理
在对数据资产进行管理时,对于已确定价格和价值的数据资产,需要考虑它的折旧和增值情况。由于数据资产是由数据组成的,而数据本身不会随着时间的推移而变化或消亡,只有数据的载体会发生折旧的情况,数据的价值可能会折旧也有可能会越来越高。因此,数据资产相较于一般的资产存在特殊性,在进行管理的过程中,不仅要考虑数据资产的折旧情况,也需要考虑数据资产增值的情况。
数据是数字经济的关键要素,在大数据时代,发展数字经济需要解决数据资产化的问题。由于数据资产与以往各类资产存在较大差异,因此数据资产化过程存在很多挑战,涉及政策法规、会计规范、数据资产标准规范、技术规范等诸多问题。本文给出了一个数据资产化的基本框架,包括数据资源确权、数据价值确认与质量管控、数据装盒入库、货币计价与评估、数据资产折旧和增值的管理5个步骤;提出了一个数据资产化基本框架,提供了一个解决数据资产化问题的可行的方向。
后续工作主要包括以下几个方面。
一是研究数据资产化基本框架的实际应用案例。数据资产化基本框架被提出后,为数据资产化提供了一个可行的方法论,下一步要通过具体案例对数据资产化基本框架在实际中的应用展开研究。
二是研究数据资产形态问题。数据是现实世界万事万物的信息化,数据类型、规格、内容也多种多样,因此非常复杂,进而也增加了认识数据资产形态的难度。可以进一步借鉴传统图书的形态,研究数据资产形态问题,促进数据资产化的进程。
三是研究数据资产评估模型。由于数据资产兼具有形资产和无形资产的特点,加之数据计量计价、流通交易还存在许多问题,因此,数据资产的评估有其特殊性,需要研究和设计专门的数据资产评估模型。
作者简介
叶雅珍(1985-),女,复旦大学计算机科学技术学院助理研究员,东华大学博士生。2014年起从事数据领域方面的研究工作,作为项目主要人员参与过多项国家自然科学基金、上海市科学技术委员会、地方政府单位以及企业合作等项目,并发表论文多篇。主要研究方向为数据科学、大数据、数据资产 。
刘国华(1966-),男,博士,东华大学计算机科学与技术学院教授、博士生导师。中国计算机学会高级会员,中国计算机学会数据库专业委员会委员、理论计算机专业委员会委员,中国保密协会隐私保护专业委员会委员(第一届),中国大数据产业生态联盟产业互联网服务专业委员会委员,上海市计算机学会数据库专业委员会副主任,上海产业技术研究院大数据标准化专家委员会委员。发表100余篇学术论文,出版专著2部。以主要参加人的身份参与过1项国家自然科学基金项目和多项省自然科学基金项目的研究工作,以主持人的身份承担过1项教育部科学技术研究重点项目、1项国家“十一五”科技支撑计划重点项目专题任务、2项国家自然科学基金项目的研究工作,还承担过多项横向课题。获多项省部级科技奖励。主要研究方向为大数据、数据库、隐私保护等 。
朱扬勇(1963-),男,博士,复旦大学计算机科学技术学院教授、学术委员会主任,上海市数据科学重点实验室主任。《大数据》期刊副主编,大数据协同安全技术国家工程实验室副理事长,中国自动化学会国防大数据专业委员会副主任,农业大数据产业技术创新战略联盟副理事长兼首席科学家。2004年开始从事数据科学研究,2008年提出数据资源保护和开发利用,2009年发表了数据科学论文“Dataexplosion,datanatureanddataology”,并出版数据科学专著《数据学》。第462次香山科学会议“数据科学与大数据的理论问题探索”的执行主席。《大数据技术与应用丛书》主编,《大数据资源》主编,大数据科普图书《旖旎数据》作者,参与国家和地方多个大数据规划编制。目前主要研究方向为数据科学和大数据技术,近期研究重点方向为数据真实性、数据财政、数据资产、数据自治与数据跨境等 。
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容