数据治理的研究现状及未来展望


数据作为人工智能和大数据的核心要素,将对人类社会发展带来深刻影响。随着数据容量的快速积累、数据质量和运算能力的不断提高,如何使用和管理数据成为第四次工业革命带给人类社会的一个重要命题。

数据治理有两种含义,分别是对数据的治理和利用数据治理。这二者相互联系,但并不冲突。从数据本身治理看,数据是一种新的经济增长驱动因素,数据法需要重新审视数据相关知识产权和法律法规问题。

一、引言

无论是在公共部门还是私营部门,数据的使用和管理,已经逐渐成为一个真实的应用场景。在概念讨论的理论范畴,不同的社会科学领域围绕数据治理相关问题已经开展了一系列研究,但是相关概念、理论和政策的系统梳理依然比较缺乏。在数字经济时代,数据为公共管理、科学研究、商业活动带来了效率的改善和质量的提升,海量的数据被视为21世纪关键的资源之一。

在公共管理方面,地方政府与企业密切合作,在“最多跑一次”“政务APP”“城市大脑”等项目上频频发力,建立数据中心、大数据局,开放数据资源打破信息孤岛,利用新兴技术对公共服务进行优化和提升。在科学研究领域,开放科学、开放获取,逐渐成为科学共同体的共识,通过构建以数据为中心的开放科学,促进科研变革。在商业领域,通过积累海量的个人用户数据,数据的价值得到日益彰显,互联网巨头围绕数据的竞争也越来越白热化。

数据正在成为一种高度关注的社会资源,并逐渐成为一个新兴的研究对象,如何有效地管理和使用这些数据资源成为一个挑战,甚至暴露出数据管理和使用方面的很多问题。这需要从数据获取、利用和保护等各个角度,以及法律、制度和政策等不同层面对数据治理问题进行系统深入的研究,以指导其治理实践。

由于数据治理问题的复杂性,不仅要在数据管理和使用的实践中探索,更要加强数据治理的理论研究。然而,与目前数据治理问题受到社会高度关注相比,当前学界对于数据治理的研究仍然滞后,而实践中暴露的问题对于理论研究正不断提出更高的要求。

尽管信息科学、情报学等对如何管理各种数据已经有了很多研究成果,但是学界对数据治理的理论认识还有待进一步深入,与数据治理相关的重大理论问题还需要进一步探讨。数据的本质是什么?应该如何认识数据?什么是数据治理?目前国内外文献对于数据治理的研究处于怎样的状态?主要关注哪些焦点问题?国际上数据治理研究能够为我国构建面向未来的数据治理体系提供哪些借鉴和启发?这些问题值得深入探讨。

本文主要基于相关文献,从历史、经济、法律等维度对已有的数据治理研究文献进行梳理和归纳,展现国内外数据治理研究前沿概况,并对未来的研究进行展望,丰富本领域的理论研究成果。

二、数据的历史、概念和意义

人类利用数据的历史非常悠久,最早可以追溯到数字发明时期,不同文明均掌握了利用数字记录和管理生产生活的能力。19世纪初,博物学家在私人的资助下环游世界搜集动植物标本,并对天文现象进行观测,开始规模化地记录数据,从纷繁复杂的事实中归纳出开普勒定律等很多重要的科学发现。尽管当时的数据量已经相当庞大,但数据的重要性仅由少数专业人士决定,还不能视作一种社会资源。数据真正被社会关注、被规范和监管的时候,才真正被制度化为社会资源。

欧洲的霍乱疫情使得人们开始统计搜集疾病传播的数据,并发明了可视化的技术和数据分析方法。1887年德国帝国技术物理研究所成立,负责全社会需要的数据,成为第一个真正意义的标准局。进入20世纪之后,贸易的需求促进了测量和计算方法发展,统计学成为一门独立的学科以应对数据分析的需求。而20世纪40年代后大量的军事投入带来计算科学的进步以及数据传输技术的发展。近年来,少数的几家互联网公司脸书(Facebook)、微信、亚马逊创建并管理数十亿人在网络上的工作、娱乐、购物数据。

纵观人类利用数据的历史,虽然数据的本质没有变化,但是在制度、技术和经济发展的交织作用下,数据完成了从数字到资产的转变,在这个过程中数据的规模、价值和影响不断扩大。

我们今天所谈论的数据是信息化和人工智能时代的海量数据资源。进行数据治理的第一步是重新定义数据,对于大数据的概念一般是从容量(Volume)、速度(Velocity)、种类(Variety)、准确性(Veracity)、价值(Value)等5V角度进行界定。全球性、全方位、易于获得的数据资源,是大数据成为人工智能系统输入信息的前提。

数据作为一种经济资源和生产要素,是人工智能等新兴技术发展的动力,没有海量的数据积累和应用场景,人工智能很难冲破瓶颈快速发展。数据为人类社会带来机遇的同时也带来了风险,围绕数据产权、数据安全和隐私保护的问题也日益突出,并催生了一个全新的命题——数据治理。

数据治理的概念具有两种含义,分别是对数据的治理和利用数据进行的治理。一种是以数据为治理对象的治理活动,如GDPR,数据隐私保护条例等;另一种是利用数据进行治理的活动,例如电子政务服务、一站式政府服务。数据治理的两个含义相互联系,但并不冲突,本研究中的数据治理更侧重于对数据本身的治理。

数据治理是价值和风险二者之间的权衡,治理的目的在于充分发掘数据的价值,同时尽量减少相关的成本和风险。数据治理在宏观层面包括国际、国家和部门的法律、政策和条例,在中观组织层面包括数据管理规章、数据价值测量、数据风险权衡等,在微观层次关注日常数据、依靠数据处理的信息和专业人士等。

三、数据对于经济的影响

经济学相关的文献深入探讨了数字转型和数字经济的重要意义,从宏观、中观和微观3个层次分析了数据对于经济发展的重要意义。从宏观经济发展角度,经济发展和增长理论长期关注商品、服务、思想和人口跨界流动的影响和结果,而当前数据流动是最显着的跨界流动形式。随着数据生产设备的激增,以及数据存储和处理能力的拓展,21世纪的大数据被誉为“神奇的金矿”,创新经济转型和促进循环发展的“核心资源”。

在数据时代,世界经济发展关注的命题已经从集装箱货运逐渐转向数据的跨界,乃至跨国流动,数据成为一种新的经济增长的驱动因素。数据流动中流入和流出数量多少的不平衡,以及数据质量高低的不平衡,造成了地区和国家间经济发展上新的不平衡。

既然数据与传统经济驱动要素很不相同,这种差异会影响经济学基本的分析变量和框架吗?韦伯(Weber)的回答是否定的,尽管数据与传统的经济增长要素存在很大差异,但是原有的经济增长理论并不过时。

首先,数据资源如同早期的石油资源一样,一旦具备了产生、收集和利用的基础设施,数据的成本就会变得非常低廉。其次,与传统资源相比,原始数据可以无限地免费复制,因此数据的实际价值具有无限潜力,但是数据要体现价值依然需要知识产权的保护。最后,数据到处都是,但是数据利用的挑战来自于如何收集数据和如何使用数据,而这几乎和传统自然资源的开发完全一样。

在中观产业经济层面,信息资产将会带来经济效益,“数据应该被记录为一种具有价值及潜在价值的物品”。数据的价值已经被当今的商业活动所证实,顶尖的数据驱动型公司如苹果、谷歌和微软,将搜集的数据转换为价值,创造的净利润是传统石油天然气公司的两倍以上,拥有数据的公司成为了现在获益最多的公司。数据驱动型公司的成功在于积聚海量的用户和用户数据,网络效应对用户产生了粘滞效应,带来高昂的转换成本。

在微观的企业组织层面,数据如何创造价值?某种程度上,数据被视作智慧的一种形态。罗莱伊(Rowley)在此基础上建立了一种从数据到智慧的等级概念,包括数据、信息、知识和智慧4个渐进的层次。

数据是原始的事实和符号,是整个层级结构的基础;信息是具体语境中的数据,具体回答地点、时间、人物和事件等问题;知识是信息的集合同时结合了主观的理解和能力;而智慧位于层级的顶端,通过积累知识获得直觉和理解。

在整个层级中,高层级的形态以低层级的形态为基础,整体构成了从数据到智慧的解释模型。海量的数据积累是一种颠覆性的创新,需要企业促进数据流动,并将数据整合进原有的商业流程。数据带来了从信息技术到商业模式的范式转变,推动了企业从传统要素驱动型向数据驱动型企业转变。

以网约车行业为例,在数字化转型的传统行业中个人数据资源已经成为企业重要的竞争力和可持续创新的源泉,企业间的数据网络已经呈现明显的中心化趋势。数据价值的实现需要产业生态系统中数据质量的管理、数据的跨界流动和组织间的数据合作来支撑。数据是公司通过不同渠道生产或获得的一种可识别、非货币、非物理的具有潜在价值的资源。

瑞保特(Rayport)和索维卡拉(Sviokla)提出了一种理解企业数据价值创造的虚拟价值链(VVC)模型,分为搜集、组织、筛选、合成和分配5个步骤,该模型从全过程的视角提供了数据创造价值的过程模型。目前数据在企业中的作用和意义与信息技术的应用密不可分,企业之间的竞争,已经成为对数据的竞争,企业如何管理数据将决定他们的未来。实践者将数据看成一种潜在商业化的分析结果,整个的过程是一个虚拟的数据价值链。虚拟价值链包括数据收集、存储、分析、共享、可视化和应用,而数据是企业转型的重要因素。在信息技术价值创造的过程中,信息技术的开支需要先转换为信息技术资产,然后转化为信息技术影响力,最后成为信息技术企业的绩效。

企业在利用大数据创造价值的时候,首先需要在数据和技术方面予以投入,经历一个“资产创造过程”,将数据投资变为数据资产;而后通过“能力创造过程”发展与之相应的数据能力,包括有形的数据处理硬件、无形的数据分析算法、数据驱动的组织文化和能力等,还有分析能力、创新能力和信息管理能力;之后,企业运用大数据能力通过“转型过程”提升为企业的数据影响,包括影响企业的决策过程,提升企业运行效率,促进产品和服务创新,创造新的商业模式;最后,企业通过行业竞争、市场监管等“竞争过程”提升自身经济绩效,将数据能力转化为商业价值(见图1)。

数据治理的研究现状及未来展望_第1张图片

图1 企业利用数据创造价值的过程框架

四、数据带来的法律挑战

在法学研究中,数据的含义与信息类似,是一种电子化的信息。数据与传统资产不同,可以无边界、无限制地展示和传播,这使得传统的物权法不再适用。目前数据在法律上还没有明确的权力归属,例如数据因为不能被盗窃,所以被认为没有财产权。

再比如,虽然数据的价值越来越受到重视,但是数据集合还不能用于抵押。这些问题随着数据技术的发展将会越来越突出,未来的数据法学需要重新审视数据相关的知识产权和法律规制问题。

作为一个焦点问题,物联网时代的数据隐私保护值得高度关注。物联网可以搜集到大量的数据,这些数据的积累可以在很多应用领域带来新的知识。在智慧城市中,数据带来的知识可以帮助政府制定更好的政策,改善公共交通;在消费购物上,数据带来的知识能够根据用户的反馈改善服务,提升消费体验。而在这些数据搜集的过程中,不可避免地要涉及数据使用者的隐私话题,在物联网时代,人们越来越多地关注数据保护和被遗忘权。欧盟将数据保护技术、数据库管理、数据所有权、隐私政策等列为未来物联网发展的挑战。

来自多项调查的结果显示,大部分用户对于智能设备广泛搜集个人信息感到担忧,这种担忧甚至已经影响到了物联网的发展。皮瑞(Perera)认为物联网的发展未来尚需要通过以下方面的完善来保护数据隐私:有效并充分地获得用户的授权;基于用户的选择和自由控制;已经采集的数据需要按照计划进行使用,而不能移作他用;数据在建模、存储、分析、传播和聚合过程中的匿名技术;数据传输中的数据安全。

与此同时,公共数据未来可能会变成一种最有价值的国家资产,而管理这些资产需要解决数据保护、增值、维护、营利等一系列问题,还需要处理好利益竞争的关系、隐私保护与个人自由的关系、国家安全与公民权力保护、商业利益和公民利益最大化的关系问题。

凯普(Kemp)提出了一个普适的大数据法律框架,分为平台基础设施、信息结构、与数据有关的知识产权、数据合同、数据监管、信息安全和管理等6个层次,其中与数据相关的知识产权、数据合同和数据监管与数据直接相关。与数据相关的知识产权指的是数据版权和数据库的权限,数据合同赋予数据拥有者通过开放数据使用获得回报的资格,数据监管则划分处理个人数据的权利和义务。在实践当中,一些组织内部已经建立起数据治理的政策和框架,有助于结构化地管理大数据。

社会正在变得越来越透明,物联网每天制造大量的数据,需要从所有权和产权保护两个方面对这些数据进行界定。这些数据的所有权应该归属于谁?在新技术快速发展的背景下,现行的法律是否有充分的效力确定数据的归属?我们是否需要一个新产业数据权力?

以智能汽车为例,汽车行驶过程中产生的数据应该属于汽车的所有者、汽车的驾驶者、汽车的制造者、汽车数据收集装置的制造者、导航服务商还是道路建设方?其中,每一个部门都是数据所有权的潜在获益者。数据的所有权是一个亟待解决的问题,目前的事实是现行法律对相关题虽有涉及,但是还远远不够。

在知识产权保护方面,欧洲现行的版权法只保护作者自己的知识产品,而生产出知识的“机器”并不能定义为作者,因此由物联网创造的数据不能受到版权法律的保护。由机器产生的数据可以受到知识产权的保护吗?对于数据的保护和知识产权的保护应该有所不同,现有的法律体系还不能全面地处理物联网等机器创造的数据及其衍生出来的相关问题。应该如何设计新的法律,亟须展开深入研究。

五、未来展望

现有的研究已经从数据科学、经济学、法学和科技政策等维度对数据的概念定义、利用价值、产权归属、隐私保护、管理规制等方面进行了细致的梳理,但目前尚未有学者从跨学科的多维视角对于数据治理问题进行全面综述和深入研究。本文旨在从历史、经济、法律等维度就数据治理研究现状描绘一个较为细致的全景图,重新认识数据治理带来的理论问题,为未来的研究开辟新视角。

现有的数据治理研究存在两个方面的转向:一是研究内容从理论研究走向实证研究,从建构概念向经验研究方向转型;二是研究方法从定性走向定量,围绕数据利用、数据开放等主题的研究逐渐深入,开始出现定量化的工作。结合国内外研究现状和研究空白,从研究路径、治理方法、治理体系、影响评估的视角提出未来数据治理研究的4个方向:

(1)各国数据政策的演变历程和比较研究。已有的研究梳理了数字经济比较发达的国家的数据政策,但尚无法展现各国政策的实施和效果,未来仍需要就各国数据治理的政策背景、政策执行和政策效果进行分析。

随着人工智能和大数据的发展,各个国家和地区针对数据领域的政策将继续增加,由于对数据的差异化认识,各国可能走向不同的政策路径,未来的研究需要强化对数据政策的国际比较和分析,以提高数据政策制定和实施的前瞻性、合理性。

(2)基于“数据”的多元主体问题研究。物联网用户数据隐私保护包括五大利益相关者:设备制造商、云服务和平台提供商、第三方应用开发商、政府监管部门和消费者。用户数据隐私的保护不单单是一个技术管理问题,还和用户本身相关,更离不开政府部门的监管和规范,而其中各个主体的作用和地位各不相同,需要协作完成。

随着人工智能和区块链技术的发展,数据价值链的分工将进一步细化,数据创造和使用的主体由人与人、人与机器、向着机器与机器转变,对数据治理的多元主体带来新的挑战。因此,在人工智能和大数据背景下研究多元主体数据治理具有深刻的现实意义和理论意义。

(3)以数据为核心重构产业创新系统。海量的数据积累是一种颠覆性的创新,对当前的产业转型和经济发展带来深远的影响,甚至会重构现有的创新生态系统。数据带来了从信息技术到商业模式的范式转变,推动了企业向数据驱动型企业转变。与传统的产业创新系统相比,以数据为核心的产业创新系统将更加重视数据共享和开放,进而提升系统效率,激发创新的活力,这方面有哪些新的规律,会产生什么新问题,值得进一步探索研究。

(4)建立和完善国家数据治理体系。政策法规是新兴技术进步的有力保障,为建立与完善与新兴技术相关的治理体系,在国家层面必须把握数据作为核心战略资源的重要趋势,应对数据利用和保护中的问题与挑战。

针对数据这种新兴的治理对象,需要创新治理的原则、关系和工具,在敏捷治理的思想指导下积极进行政策实验、政策试点和立法尝试,形成灵活全面的治理框架。由数据带来的所有权归属、知识产权保护、隐私保护、伦理和反垄断问题日益增加,中国作为未来数字经济和人工智能的领导者,应当在数据使用和保护的政策法规上进行前瞻性研究,探索确立数据治理的中国原则、制度与框架,形成数据治理的中国方案。

文章原载于  数邦客


免责声明:本文为网络摘录或转载,版权归原作者所有,内容为原作者个人观点,并不代表本公众号赞同其观点和对其真实性负责。如涉及作品版权问题,请与我们联系,我们将在第一时间删除内容!

数据治理的研究现状及未来展望_第2张图片

欢迎加入智能交通群!加微信号automan332,标注”加群“。

1557c6b7b5b294eff0e4ef9fc172440b.png

你可能感兴趣的:(大数据,编程语言,人工智能,数据分析,机器学习)