为加快培育数据要素市场,进一步支撑国家大数据战略落地,推动“十四五”期间大数据产业交流与合作,2020大数据产业峰会·成果发布会于线上召开。本次大会由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会主办。

会上,中国信通院云大所所长何宝宏发布了《2020大数据十大关键词》。

2020大数据十大关键词_第1张图片

关键词一:数据生产要素

2020大数据十大关键词_第2张图片
2020年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》正式发布。《意见》指出了土地、劳动力、资本、技术、数据五个要素领域改革的方向,明确了完善要素市场化配置的具体措施。数据作为一种新型生产要素,成为了《意见》中备受关注的内容。由于数据是新型生产要素,具有无限复制、通用性强、流动性高、难确权等特点,传统的资源管理模式无法完全适配,数据要素市场的培育,需要新的制度来提供适宜的土壤,需要在法规、机制、技术等方面大胆创新。

关键词二:数据治理

2020大数据十大关键词_第3张图片
数据治理的目标是释放数据价值,其核心议题是保障数据安全,推动数据有序管理和流动,提升数据质量。近期国家各部门密集出台多项数据治理相关政策法规,数据治理重要性日益凸显。例如全国人大发布《数据安全法(草案)》,中国银保监会开展数据质量专项数据治理工作,中央网信办出台《数据安全管理办法》等一系列管理办法,工信部大力推进数据管理能力成熟度评估(DCMM)等。

智能化成为新阶段数据治理工作的重要特点。一方面,数据治理为人工智能提供了高质量的数据。数据治理通过定义数据质量需求、定义数据质量测量指标、定义数据质量业务规则等环节,为深度学习等人工智能技术提供可信的数据输入。另一方面,人工智能技术的引入提升了数据治理工作的效率,在识别主数据、数据自动分析分级、维护元数据、提升数据质量、辅助数据建模等方面都有重要作用。

关键词三:隐私计算

2020大数据十大关键词_第4张图片
当前,数据流通不畅已成为制约我国大数据产业发展的重要问题。数据拥有者出于数据安全保密的顾虑而不愿共享数据,使得不同企业、不同机构间难以获取对方的数据进行联合分析或建模。为解决这一问题,大数据从业者们从多种角度进行了诸多探索。从目前发展现状和趋势看,隐私计算技术最有可能成为实现这一突破的关键。

隐私计算主要分为多方安全计算和可信硬件两大流派,近期多方安全计算技术广受产业关注,多家企业推出了相关产品。根据信通院测试统计,截至2020上半年,一共有15款多方安全计算产品通过评测,产品化速度明显加快。

随着硬件的升级和算法的优化,多方安全计算产品性能不断提升。近两年来,密文计算的效率已经基本达到了可商用要求。而产品供应商需要通过多种方式来解决用户的信任问题,例如产品算法优化、第三方评估测试、严控流程等。目前,多方安全计算产品已经在精准营销和金融风控等场景落地,基于可信执行环境、联邦学习的产品逐渐增多,整体隐私计算技术未来可期。

关键词四:一体化大数据平台

2020大数据十大关键词_第5张图片
大数据技术经过10多年的发展,发展出丰富的技术栈,超过100多款开源技术,覆盖查询引擎、计算引擎、存储引擎、数据集成、数据管理等多个方向,每一方向都有多种同类技术可供选择,给企业的集成使用带来了很大挑战。从企业的最终需求来看,一个可以满足多个业务部门开发管理需求的大数据平台是支撑数据驱动业务的关键,这也就是一体化大数据平台。将SQL层、计算层、存储层、资源调度层、管理层有机的整合在一起,通过组件化和标准化的设计,提供便捷的开发能力和丰富的运维能力,成为一体化大数据平台的重要特征。例如Cloudera的CDP、阿里巴巴的MaxComupte、星环的TDH、华为的FusionInsight,都是一体化大数据平台的典型代表。

关键词五:DataOps

2020大数据十大关键词_第6张图片

DataOps(数据运营)概念借鉴于DevOps,已经连续两年入选Gartner数据管理的Hype Cycle,国际上IBM、Data Kitchen、StreamSets等公司均对DataOps进行了定义,并提供可以进行DataOps实践的工具。DataOps是一种协作式数据管理实践,将数据开发、管理、分析、运营融于一体的方法论,敏捷、协作、自动化、价值导向是DataOps的核心理念。因此,DataOps也成为了驱动数据中台良好运转的关键。在DataOps中,数据团队需要以价值实现为导向,以持续运营的思维来主动赋能业务团队。DataOps注重数据工程师、数据分析师、数据科学家、业务人员之间的协同,强调利用工具来实现数据生产的自动化,并建立监测和反馈机制,持续改进数据生产流程,最终形成应用的闭环。

关键词六:数据与分析能力的平民化

2020大数据十大关键词_第7张图片
初期的大数据系统主要是为管理者提供决策依据,随着企业数字化转型的深入,业务人员也越来越需要深入到数据相关的工作中,数据与分析的技能不再是只需要企业IT人员具备的能力,正呈现出“平民化”的趋势。数据与分析能力的平民化试图为企业的每一个小细胞提供分析决策支持,加快企业整体的创新和决策能力。这就要求企业建设积极的数据文化,搭建简单易用的数据服务和分析工具,容许业务人员发展数据技能并与他人共享成果。其核心能力包括形成按需可得的数据集,简单易操作的分析工具,以及建立完备的数据管控机制。

关键词七:计算与存储分离

2020大数据十大关键词_第8张图片
存算分离正在成为大数据与云数据库架构变化的趋势。传统的存算一体模式下,数据可以“就地计算”,减少了网络开销,但在能力扩充方面需要同时进行,从而产生了资源浪费。在存算分离架构下,存储层和计算层可以根据需求分别进行扩展,解决了混合计算存储带来资源浪费问题,也可以更好的与云平台融合,适应云计算的发展趋势。例如,Snowflake数据仓库最早提出了独特的存储、计算以及管理服务分离的架构,使得计算层与缓存层并不强耦合,非常符合云化的思想,为现代数仓发展指明了道路。AWS的数据湖产品,通过统一集中存储数据,减少数据的分散分布,高速网络技术的发展,使得数据搬迁的代价降低。在数据库端,国内外云厂商近两三年来都研发了存算分离的产品,包括AWS的Aurora,阿里的PolarDB,腾讯的CynosDB等,为存储和计算带来了更好的扩展自由度和更佳的性能。

关键词八:分布式数据库

2020大数据十大关键词_第9张图片
进入2020年,国内数据库市场竞争加剧,更多厂商涌入赛道。在这之中,分布式数据库成为诸多厂商布局的热点。据统计,国内目前有30多款分布式事务数据库产品,其中大多数产品都是基于开源技术进行二次开发。云数据库厂商、创业企业和传统数据库企业三大势力,聚焦金融、电信、政府等行业,提供公有云和私有交付两种模式。为了在竞争中胜出,供应商一方面需要构建过硬的产品能力,不断在实践中打磨产品的功能、性能、高可用能力。另一方面需要构筑完善的服务生态,与外部服务商建立紧密合作关系,搭建咨询、实施、运维服务体系,做好上下游的适配,推动人才的培养。

关键词九:图数据库

2020大数据十大关键词_第10张图片
图数据库是以节点和边的形式对数据关系进行存储的数据库,擅长处理相互关联的数据,在社交、推荐系统等很多场景下有大量应用。2013年以来,图数据库一直在DB-Engine流行度排行榜上一骑绝尘,广受开发者追捧,国外已经发展出数十款图数据库开源项目和商业产品。然而,国内市场一直未能迅速发展。2019年以来,国内图数据库产品研发速度迅速加快,两年内推出的图数据库与图计算相关产品超过了15款。特别是2020年以来,大型互联网企业(阿里云、腾讯云)纷纷推出图数据库和图计算的服务。图数据库赛道也诞生了诸多创业公司,并成为投融资热点。知识图谱、金融风控、公共安全等一些场景已经有了落地案例。

关键词十:大数据服务体系

2020大数据十大关键词_第11张图片

优秀的大数据产品并不等于成功的大数据项目,从产品到应用离不开实施、部署、运维等服务能力。主流的大数据产品厂商非常重视服务生态的构建,纷纷联合外围服务企业,围绕自身的产品形成咨询、实施、治理、应用等服务体系。然而,企业的大数据服务能力高低不一,存在流程不规范,人员实施经验不足,项目管理混乱等问题,导致不少大数据项目以失败告终。

今年来,部分大型厂商围绕数据服务能力提升纷纷布局,显示出对大数据服务的高度关注。为规范大数据项目的实施,建立标准的服务流程和产出物,沉淀最佳实践,信通院在中国通信标准协会TC601联合阿里、星环、数梦、百度、华为、数澜等30多家企业制定了大数据服务能力成熟度模型系列标准。该标准体系将大数据服务分为平台建设、数据工程、分析应用三类,总共形成63个子能力域,从技术、人员、流程等维度评价企业的服务能力。目前该标准已经定稿,马上进入评估阶段。

【编辑推荐】

  1. 终于有人把AI、BI、大数据、数据科学讲明白了
  2. 大数据如何助力企业的数字化转型
  3. 从数据库到可视化性能,5个大数据分析工具测评,python只排倒数
  4. 中国大数据市场规模将在2020年达到104.2亿美元
  5. 大数据技术与服务市场中 金融、通信等应用主宰“沉浮”

【责任编辑:未丽燕 TEL:(010)68476606】