全球数据量仍在飞速增长的阶段,根据国际权威机构Statista的统计和预测,2020年全球数据生产量预计达到 47ZB, 2035年达到 2142ZB,全球数据量即将迎来更大规模的爆发。
随着数字经济在全球加速推进以及5G、人工智能、物联网等相关技术的快速发展,数据已成为影响全球竞争的关键性战略性资源。只有获取和掌握更多的数据资源,才能在新一轮的全球话语权竞争中占主导地位。
进入2020年,数据正式成为生产要素,战略性地位进一步提升。4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将“数据”与土地、劳动力、资本、技术并称为五中要素,提出“加快培育数据要素市场”。5月18日,中央在《关于新时代加快完善社会主义市场经济体制的意见》中进一步突出加快培育发展数据要素市场。这标志数据要素市场化配置上升为国家战略,将进一步完善我国现代化治理体系,有望对未来经济社会发展产生深远影响。
在数字社会,数据具有基础性战略资源和关键性生产要素的双重角色。一方面,有价值的数据资产源是生产力的重要组成部分,是催生和推动众多数字经理新产业、新业态、新模式发展的基础。另一方面,数据区别于以往生产要素的突出特点是对其他要素资源的乘数作用,可以放大劳动力、资本等要素在社会各行价值链流转中产生的价值。善用数据生产要素,解放和发展数字化生产力,有助于推动数字经济与实体经济深度融合,实现高质量发展。
美国、欧盟、英国都加快布局探索数据未来发展之路。
近来年,大数据技术的内涵伴随着大数据时代的发展产生了一定的演进和拓展,从基本的面向海量数据的存储、处理、分析等需求的核心技术延展到相关的管理、流通、安全等其他需求的周边技术,逐渐形成了一整套大数据技术体系,成为数据能力建设的基础设施。伴随着技术体系的完善,大数据技术开始向着降低成本、增强安全的方向发展。
大数据技术起源于2000年前后互联网的高速发展。大数据技术逐渐演进针对大数据的多重数据特征,围绕数据存储、处理计算的基础技术,同配套的数据治理、数据分析应用、数据安全流通等助力数据价值释放的周边技术组合起来形成的整套技术生态。大数据体系及主要开源软件如下图所示:
大数据技术发展趋势
1、存储与计算分离,按需索取
2、自动化、智能化数据管理
3、分析,基于图的分析技术
4、数据安全流通
基于Hadoop或MPP(Massively Parallel Processing, MPP)分布式框架,利用可扩展性的特性通过资源的水平扩展来适应更大的数据量和更高的计算需求,并形成了具备存储计算处理分析等能力的完整平台。以往,为了应对网络速度不足、数据在各节点间交换时间较长的问题,大数据分布式框架设计采用存储与计算耦合,使数据在自身存储的节点上完成计算,以降低交互。
存储与计算耦合的自建平台会造成了额外成本,实际业务中对于数据存储与计算能力的要求往往是不断变化且各自独立的,使得两类资源的需求配比不可预见且二者到达资源瓶颈的时间无法同步。在存储与计算耦合的情况下,当两者其一出现瓶颈时,资源的横向扩展必然导致存储或是计算能力的冗余,由此必须进行大量的数据迁移才能保证扩展节点的资源得以有效利用,这无疑造成了难以避免的额外成本。同时,以完整产品形式提供服务的大数据平台在应对弹性扩展、功能迭代、成本控制等特性需求时,无论是开发迭代新版本还是集成混搭其他工具,总会引发需求延迟满足、性能持续降低、额外新增成本等其他问题。
存储与计算分析有效控制成本。存储与计算分离是将存储和计算两个数据生命周期中的关键环节剥离开发,形成两个独立的资源集合。两个资源集合之间互不干涉但又通力协作。每个集合内部充分体现资源的规模聚集效应,使得单位资源的成本尽量减少,同时兼具充分的弹性以供横向扩展。当两类资源之一紧缺或富裕时,只需对该类资源进行获取或回收,使用具备特定资源配比的专用节点进行弹性扩展或收缩,即可在资源需求差异化的场景中实现资源的合理配置。
按需索取的处理分析能力服务化概念开始流行。在存算分离理念的基础上,Serverless、云原生等概念的提出进一步助力处理分析等各项能力的服务化。通过存算分离的深入以及容器化等技术的应用,Serverless概念的落实从简单的计算函数向丰富的处理分析能力发展,通过预先实现的形式将特定的数据处理、通用计算、复杂分析能力形成服务,以供按需调用。由此,数据的处理分析等能力摆脱了对于完整平台和工具的需求,大大降低开发周期、节省开发成本,同时服务应用由提供方运维,实行按需付费,消除了复杂的运维过程和相应的成本。
国内外众多厂商深入进行了存算分离和能力服务化的实践。阿里云使用自身EMR+OSS产品代替原生Hadoop存储架构,整体费用成本估算下降50%;华为则使用了自身FusionInsight+EC产品,存储利用率从33%提升至91.6%。在能力服务化方面,国外最为出名的是Snowflake公司提出的数据仓库服务化(data warehouse as a service, DaaS),将分析能力以服务的形式在AWS、Azure等云平台上提供按次计算的服务,成为云原生数据仓库的代表。在国内则有以阿里云的AnalyticDB 、 DLA 为代表的一 系列产品提供基于类似思想的服务化的数据处理分析能 力。
数据管理相关的概念和方法论近年备受关注,在大数据浪潮下越来越多的政府、企业等组织开始关注如何管理好、使用好数据,从而使数据能够藉由应用和服务转化为额外价值。
数据管理依赖人工操作带来居高不下的人力成本。数据管理技术包括数据集成、元数据、数据建模、数据标准管理、数据质量管理和数据资产服务,通过汇聚盘点数据和提升数据质量,增强数据的可用性和易用性,进一步释放数据资产的价值。目前以上技术多集成于数据管理平台,作为开展数据管理的统一工具。但是数据管理平台仍自动化、智能化程度低的问题,实际使用中需要人工进行数据建模、数据标准应用、数据剖析等操作。
更加自动化智能化的数据管理平台助力数据管理工作高效进行。
在基于机 器 学习 的人工 智能 不 断 进步的情 况 下 , 将有关技术应用于数据管理平台的各项智能 ,以减少人力成本提升高治理效率成为当下数据管理平台研发者关注的重点。 其中数据建模 、数据标签 、主数据发现、数据标准应用成为几个主要的应用方向。 数据建模方面, 机器学习技术通过识别数据特征 , 推荐数据主题分类 ,进一步实现自动化建立概念数据模型, 同时, 对表间关系的识别将大大降低逆向数据建模的人力成本,便于对数据模型持续更新。 数据标准应用方, 基于业务含义、 数据特征 、 数据关系等维度的相似度判别,在数据建模时匹配数据标准,不仅提升了数据标准的应用覆盖面 ,也减少了数据标准体的维护成本。数据剖析方面, 人工智能通过分析问题数据和学习数质量知识库,提取数据质量评估维度和数据质量稽核规则,并识别联数据标准,实现自动化的数据质量事前、事中、事后管理。
在数据资产管理概念火热,各项工作备受重视的当下,市场上的数据管理平台也在不断演进力争上游。华为、浪潮、阿里云、数梦工场、数澜科技、Datablau等数据管理平台供应商也在各自的产品中不断更新自动化智能化的数据管理功能。其中华为着重于智能化的数据探索,浪潮关注自动化的标签、主数据识别,阿里云实现了高效的标签识别以及数据去冗。
专注于图结构数据的图分析技术成为数据分析技术的新方向。图分析是专门针对图结构数据进行关联关系挖掘分析的一类分析技术,在分析技术应用中占据的比重不断上升。与图分析相关的多项技术均成为热点的产品化方向,其中以对图模型数据进行存储和查询的图数据库、对图模型数据应用图分析算法的图计算引擎、对图模型数据进行抽象以研究展示实体间关系的知识图谱三项技术为主。通过组合使用图数据库、图计算引擎和知识图谱,使用者可以对图结构中实体点间存在的未知关系进行探索和发掘,充分获取其中蕴含的依赖图结构的关联关系。
除了对数据进行分析挖掘以外,数据的共享及流通是另一个实现数据价值释放的方向。无论是直接对外提供数据查询服务还是与外部数据进行融合分析应用,都是实现数据价值变现的重要方式。在数据安全事件频发的当下,如何在不同组织间进行安全可控的数据流通始终缺乏有效的技术保障。同时,随着相关法律的逐步完善,数据的对外流通面临更加严格的规范限制,合规问题进一步对多个组织间的数据流通产生制约。
基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。在数据合规流通需求旺盛的环境下,隐私计算技术发展火热。作为旨在保护数据本身不对外泄露的前提下实现数据融合的一类信息技术,隐私计算为实现安全合规的数据流通带来了可能。当前,隐私计算技术主要分为多方安全计算和可信硬件两大派。其中,多方安全计算基于密码学理论,可以实现在无可信第三方情况下安全地进行多方协同计算;可信硬件技术则依据对于安全硬件的信赖,构建一个硬件安全区域, 使数据仅在该安全区域内进行计算,在认可密码学或硬件供应商的信任机制的情况下,两类隐私计算技术均能够在数据本身不歪斜的前提下实现多组织间数据的联合计算。此外,还有联邦学习、共享学习等通过多种技术手段平衡了安全性和性能的隐私保护技术,也为跨企业机器学习和数据挖掘提供了新的解决思路。
由于解决的问题十分契合数据流通领域的热点命题,近年来隐私计算技术持续稳步发展,各类市场参与者逐渐清晰。一方面,互联网巨头、电信运营公司以及众多大数据公司纷纷布局隐私计算,这类企业自身有很强的数据业务合规需求,也有丰富的数据源、数据业务、数据交易场景和过硬的研发能力。另一方面,一批专注于隐私计算技术研发应用的初创企业也相继涌现,对外提供算法、算力和技术平台,相关理论技术较为扎实专业。整个隐私计算技术领域开始呈现百花齐放的快速发展态势。