知识分享系列三:大数据技术(上)

本文系统地介绍了大数据技术的相关知识,由于篇幅比较长,分为上下两部分,其中上半部分先介绍基本概念、核心领域,下半部分介绍主要技术、平台架构,以及相关企业案例。


目录

一、基本概念

1.1 从数据资源到大数据

1.2 从大数据到数据要素

二、核心领域

2.1 概述

2.2 数据存储与计算

2.2.1 发展历程

2.2.2 发展特点

2.2.2.1 云化改造全面加速

2.2.2.2 融合一体化持续加深

2.2.2.3 安全能力快速补强

2.2.3 主要挑战

2.2.3.1 数据存储与计算技术平台建设运营成本仍需控制

2.2.3.2 数据要素市场化的数据存储与计算技术创新仍需加强

2.2.4 发展趋势

2.2.4.1 技术和管理双管齐下,探索数据存储与计算技术平台精细化运营之路

2.2.4.2 数据编织(Data Fabric)、全密态数据库等新理念新技术不断成熟,为数据的要素价值释放提供更强力的技术底座

2.2.4.3 我国数据存储与计算领域技术和产品将逐步走向海外市场

2.3 数据管理

2.3.1 发展历程

2.3.2 发展特点

2.3.2.1 通过成立专职团队增强数据管理执行效率

2.3.2.2 通过成立专职团队增强数据管理执行效率

2.3.2.3 通过开展专项行动进一步提升数据供给质量

2.3.2.4 通过统一技术平台消除数据管理协同难点

2.3.3 主要挑战

2.3.3.1 数据的业务价值不显著,数据管理内驱动力不足

2.3.3.2 数据、IT和业务仍存在割裂,组织架构亟需变革调整

2.3.3.3 数据管理人才缺失,数据管理推进后劲不足

2.3.4 发展趋势

2.3.4.1 首席数据官(Chief Data Offcer,CDO)制度助力企业全面开展数据管理

2.3.4.2 数据研发运营一体化(DataOps)将有效提升数据管理协同效率

2.3.4.3 提高智能化程度将成为降低数据管理成本的关键

2.4 数据流通

2.4.1 发展历程

2.4.2 发展特点

2.4.2.1 数据流通规则逐渐清晰

2.4.2.2 流通参与热情高涨,供需对接向多行业扩展

2.4.2.3 安全流通技术重要性凸显

2.4.2.4 数据流通产品形态逐渐向个性化定制方向转变

2.4.3 主要挑战

2.4.3.1 数据权属界定的场景与问题复杂

2.4.3.2 数据的估值定价尚缺乏科学、标准的评价方法

2.4.3.3 数据流通的准入、竞争等行为约束没有清晰的法律界定

2.4.3.4 隐私计算等数据流通关键技术应用还不成熟

2.4.4 发展趋势

2.4.4.1 公共数据开放带动数据流通供给

2.4.4.2 场景化的技术分级框架将促进数据安全流通实践落地

2.4.4.3 可信流通体系将为数据有序流通提供条件

2.5 数据应用

2.5.1 发展历程

2.5.2 发展特点

2.5.2.1 从应用方向看,面向个人消费者领域的应用相对领先

2.5.2.2 从服务对象看,正在从决策层向基层业务人员延伸

2.5.2.3 从价值导向看,以人为本和可持续发展的定位日益明确

2.5.3 主要挑战

2.5.3.1 数据管理等前序工作难就绪

2.5.3.2 组织架构不符合新需要

2.5.3.3 复合型人才紧缺

2.5.3.4 技术工具适配度不足

2.5.4 发展趋势

2.5.4.1 自动决策将成为数据应用的主要形态

2.5.4.2 企业组织架构以数据应用为中心加速演进

2.5.4.3 咨询、技术、代运营一体型数据应用服务形态将崛起

2.5.4.4 低代码数据分析工具将助推数据应用平民化进程加速

2.6 数据安全

2.6.1 发展历程

2.6.2 发展特点

2.6.2.1 全面布局成为需求侧建设重心

2.6.2.2 一站式解决方案成为数据安全主流服务形态

2.6.2.3 数据分类分级成为全行业关注焦点

2.6.3 主要挑战

2.6.3.1 数据安全责任体系构建尚不成熟

2.6.3.2 数据安全管理与技术易脱钩

2.6.3.3 数据安全产品与服务优势能力构建有待突破

2.6.4 发展趋势

2.6.4.1 由监管单一驱动转向监管与内生的双驱动

2.6.4.2 数据安全左移逐渐成为建设核心思路

2.6.4.3 数据安全风险治理能力将成为下一步建设重点

参考文献


一、基本概念

1.1 从数据资源到大数据

随着信息通信技术的快速发展,众多线下业务或纸质统计渠道均转移到线上平台,数据来源渠道获得极大丰富,互联网应用涉及的数据规模迅速超越传统上报数据,大数据的概念应运而生。各行各业开始重视由数据资源向大数据的价值转变。在此期间,大数据成为各行业降本增效的重要技术手段,也成为各级政府促进产业转型跨越发展的新动能。

“大数据”一词在1980年著名未来学家阿尔文·托夫勒的《第三次浪潮》,书中预言,信息时代的到来会带来数据的大爆发,“大数据”是“第三次浪潮的华彩乐章”。大数据(big data)是一个抽象的概念,至今尚无确切、统一的定义,不同的研究机构与学者对其有着不同的定义。

麦肯锡全球研究所对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,目前业界最公认的大数据4V特征:数据规模大(Volume数据种类多(Variety处理速度快(Velocity以及数据价值密度低(Value

  • 数据规模大。第一个特征是数据量大,采集、存储和计算的量都非常大,起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);
  • 数据种类多。第二个特征是种类和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为网络日志音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求;
  • 处理速度快。第三个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征;
  • 价值密度低。第四个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵,随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,价值总量很高,但密度较低,如何结合业务逻辑并通过强大的算法来挖掘数据价值,是大数据时代最需要解决的问题。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于通过“加工”实现数据的“增值”

政策方面,中央、地方发布一系列支持文件,对大数据产业、数字技术、数据要素市场、数据安全等方面进行了重点部署;人才方面,过半“双一流”高校设立大数据相关专业,多省份开展人才培育专项行动,人才供给能力显著增强;资金方面,多省份通过设立专项资金或采取税收优惠政策等方式对大数据企业、应用进行定向扶持和培育。

表1 近两年国家层面推动大数据产业的代表性政策

时间

文件

内容

2022.12

中央全面深化改革委员会第二十六次会议,审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》

会议强调“数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系”

2022.4

中共中央 国务院《关于加快建设全国统一大市场的意见》

提出加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用

2022.1

国务院《要素市场化配置综合改革试点总体方案》

提出拓展规范化数据开发利用场景,发挥领军企业和行业组织作用,推动人工智能、区块链、车联网、物联网等领域数据采集标准化。加强数据安全保护,强化网络安全等级保护要求,推动完善数据分级分类安全保护制度,运用技术手段构建数据安全风险防控体系

2021.11

工信部《“十四五”大数据产业发展规划》

提出“到2025年底,大数据产业测算规模突破3万亿元”的增长目标,以及数据要素价值体系、现代化大数据产业体系建设等新目标

1.2 从大数据到数据要素

2019年,党的十九届四中全会决议通过的《中共中央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定》中,首次将数据增列为生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制。数据要素,在土地、劳动力、资本和技术之后,崭露头角成为第五大生产要素,这是对数据生产价值与历史地位的极大肯定。

定义:数据要素是指为参与社会生产经营活动、为使用者或所有者带来经济效益的数据资源,是与土地、劳动力、资本、技术等并列的生产要素之一。数据要素可划分为供给、流通、应用三大环节,覆盖数据采集、数据存储、数据处理加工、数据流通、数据分析、生态保障等环节。

  • 数据采集是数据要素市场的基石。企业在经营过程中,需要针对不同的数据类型进行采集,并进行分析处理训练。企业数据采集主要包括内部数据采集、外部数据采集和定制化数据采集等种类型。
  • 数据储存是指企业在完成数据采集环节后,需对有价值的数据进行有效存储,以便进一步对数据进行加工和处理。在进行数据存储过程中,企业主要会从数据敏感度、数据时效性、企业硬件水平等维度考虑,选择不同的数据存储服务。现阶段,我国数据存储主要包括公有云、私有云以及混合云等方式。
  • 数据加工是指对企业采集和存储的数据进行筛选和处理,提高数据可用性,为数据资源的挖掘和分析奠定基础,主要包括数据清洗、数据标注、数据审核以及数据融合处理等方式。
  • 数据流通在提升公共决策效率、扩展商业应用场景等方面有着显著的作用。数据流通根据技术方式的不同,可以分为数据开放共享、数据交易、API技术服务、“数据可用不可见”模式、“数据可算不可识”模式、数据跨境流动等形式。
  • 数据分析主要是指最大化地开发数据的功能,发挥数据的作用。从数据来源来讲,主要包含内部数据分析和外部数据分析。
  • 生态保障是指数据要素市场除包含数据采集、数据存储、数据加工、数据流通等直接面向数据要素进行处理的环节外,还需市场各方主体为数据交易流通提供有效保障,构建良好的市场生态。数据要素市场生态保障主要包括数据资产评估、登记结算、交易撮合、争议仲裁及跨境流动监管等环节。
  • 数据要素的格局和立意:全球首创,对外构筑国家竞争新优势对内构建经济增长行动力
    • 我国是全球首个将数据确立为生产要素的国家。2022 年底,中共中央国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》,是我国专门针对某一要素的第一份基础制度。
    • 政策加速推进,其中包括财政部的指导文件。2024年1月11日,财政部印发《关于加强数据资产管理的指导意见》;1月4日,国家数据局会同中央网信办、科技部、工业和信息化部、交通运输部、农业农村部、商务部、文化和旅游部、国家卫生健康委、应急管理部、中国人民银行、金融监管总局、国家医保局、中国科学院、中国气象局、国家文物局、国家中医药局等部门联合印发《“数据要素x”三年行动计划(2024-2026年)》;1月5日,国家发改委和国家数据局共同印发《数字经济促进共同富裕实施方案》。
    • 组建国家数据局,中央加速建设数据要素市场。2023年3月,中共中央、国务院印发的《党和国家机构改革方案》提出,组建国家数据局。国家数据局四名正副局长到位:局长刘烈宏(前中国联通董事长),沈竹林(此前任职于国家发改委)、陈荣辉(此前系福建省大数据 管理 局局长)、夏冰(此前系中国电信执行副总裁)。
    • 地方数据局接连挂牌,地方开启上下衔接。截至2024年1月21日,全国11个省级数据局成立,包括福建省、 天津市、江苏省、四川省、内蒙古自治区、上海市、青海省、云南省、河北省、湖南省、广东省 数据局,承担与国家数据局上下衔接作用。
  • 数据资产市场规模:潜在总规模十万亿量级,有能力接力土地财政。
    • 2022年全国数据资产总规模在8.6万亿元左右。根据深圳市统计局测算,按照支出法,2022年深圳全市业务数据要素支出超过1000亿元,包括购买相应的软件、硬件产品等。以深圳占全国企业总数比例(2022年约为2.3% 左右)和3年折旧率简单推算,则2022年全国数据资产总规模在8.6万亿元左右。
    • 数据资产市场潜在规模将超过60万亿元。根据信通院报告,2022年数字产业化对产业数字化约有1:4的带动效应,则产业数字化潜在收益在34.4万亿元左右。两者相加,全国数据资产潜在总规模在43万亿元左右。进一步考虑围绕数据资产的评估、融资、质押等衍生市场,预计整个数据资产市场潜在规模将超过60万亿元。

《“数据要素x”三年行动计划(2024-2026年)》选取工业制造现代农业商贸流通通运输金融服务科技创新文化旅游医疗健康应急管理气象服务城市治理绿色低碳等12个行业和领域,推动发挥数据要素乘数效应,释放数据要素价值。

《行动计划》指出到2026年打造300个以上示范性强的典型应用场景,数据产业年均增速超过20%,数据交易规模增长1倍。

二、核心领域

2.1 概述

经过多年技术和产业的发展,大数据领域内部逐渐细化,形成数据存储与计算数据管理数据流通数据应用数据安全五大核心领域。如下图所示:

  • 数据源通过数据存储与计算实现压缩存储和初步加工
  • 通过数据管理提升质量
  • 通过数据流通配置给其它相关主体
  • 通过数据应用直接释放价值
  • 数据安全技术进行全过程的安全保障

知识分享系列三:大数据技术(上)_第1张图片

图1 大数据产业五大核心领域

数据存储与计算领域:实现海量数据的高效存储与计算。本领域发展时间长,在数据规模增长、形态变化等新需求持续推动下,逐步演化出数据库大数据平台实时计算等成熟技术框架。当前,数据存储与计算领域已经能够支撑PB级海量数据的高效存储和准实时计算,发展方向聚焦为在持续提升能力基础上,通过精细化运营和技术升级实现“降本提质”

数据管理领域:实现数据质量提升、管理高效。本领域属于投入周期长、见效慢的“下水道”型工作。当前,部分企业数据管理需求强、资源足,已将数据管理的技术和规则率先落地,但大部分企业数据管理仍处于起步阶段。数据管理的发展方向聚焦为尽快借助政策红利和智能技术带来的改变,促进各行业大规模实现全域数据管理。

数据流通领域:实现数据在不同主体间合理配置,使局部数据互相弥合,实现数据价值倍增。本领域需求旺盛、发展时间短,当前已初步探索出机构与机构间点对点的流通路径,但数据权属、定价、市场规则等关键性问题仍有待破解。为助力数据要素高效配置,数据流通的发展方向聚焦为通过建设基础制度、创新流通技术,实现数据流通过程中安全与效率的平衡,从而构建全社会范围数据规范化流通。

数据应用领域:实现数据为企业业务经营过程赋能。本领域虽然发展时间长,但受限于数据管理等前序工作成熟度不够,目前仅部分核心业务被数据浅度赋能。为释放数据要素深度价值,数据应用的发展方向聚焦为通过变革业务模式、优化相关技术,使数据应用与全域业务深度融合。

数据安全领域:确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。特别是近几年数据安全一些法律法规发布后,本领域得到快速发展,各行业在数据外规内化、风险治理等方面推进步伐明显加快。当前,数据安全的发展方向进一步聚焦为兼顾安全与效率,从而实现安全左移的自动化与风险治理的智能化。

表2 五大核心领域发展现状和新形势下的发展方向

核心领域

发展现状

新形式下的发展方向

数据存储与计算

海量数据的高效存储、计算

降低运维成本,提升处理效率

数据管理

头部行业实现关键数据的管理

各行业均实现全域数据管理

数据流通

点对点间流通路径完成初步探索

全社会范围规范化流通

数据应用

支撑核心业务分析和顶层决策

以无感形式嵌入全域业务

数据安全

推进外规内化与风险治理

安全左移的智能化治理

2.2 数据存储与计算

聚焦:通过深度优化实现提质增效

数据存储与计算提供海量数据的高压缩比存储和高效计算等基础能力以数据库、数据仓库、数据湖等为其技术表现形态。其发展历程长、产业成熟度相对较高,目前在数据要素等新需求牵引下,正呈现出稳中有进的发展态势。本章将介绍数据存储与计算领域的发展历程、当前现状、主要特征和趋势展望。

2.2.1 发展历程

1960年信息时代开启后,用于存储、计算少量结构化数据的关系型数据库、数据仓库诞生,Oracle、DB2、Teradata等商业化产品逐渐成熟。2000年互联网兴起后,结构化数据的规模迅速膨胀、非结构化数据开始涌现,传统关系型数据库、数据仓库能力出现瓶颈,以Apache Hadoop为代表的分布式存储计算框架成为新的技术潮流Cloudera、Hontonworks 等数家商业化公司纷纷成立,大数据时代正式来临。2010年移动互联网逐渐普及后,实时推荐、即时决策需求对海量数据处理的实时性提出更高要求,同时视频、音频、图片等非结构化数据占比大幅提升,StormFlink流处理框架受到关注,数据湖技术也开始迅速产品化。

技术方面,经过 60 余年发展,数据存储与计算领域总体技术框架趋于成熟,进入深度优化阶段;产业方面,全球疫情加速了数字化转型进程,数据存储与计算领域的产业发展前景持续向好建设运维方面,数据存储与计算建设持续深入,安全稳定运行成为关注焦点。

知识分享系列三:大数据技术(上)_第2张图片

图2 数据存储与计算领域发展历程

2.2.2 发展特点

2.2.2.1 云化改造全面加速

数据存储与计算技术持续与云融合,资源利用率进一步提升。随着云计算的发展,数据存储与计算技术逐渐从私有部署转化为云上部署,初期体现为部署模式的不同,但伴随着云原生理念的兴起,云原生数据存储与计算产品开始成为产业变革浪潮。利用云原生理念,数据存储与计算一方面实现存储、计算、调度、安全、分析等模块的进一步解耦,各模块与容器等底层资源单元相适配,实现弹性扩缩容从而使得资源利用率提升30%~40%;另一方面实现应用接口函数化,即利用Serverless的理念,将更多如统计、机器学习、流程处理等能力封装成函数接口,实现更细粒度的按需使用和付费,在提升2~3倍发布效率的同时,有效降低成本。近年来,华为、腾讯云、阿里云百度、星环等国内主流大数据企业均推出云原生数据湖、云原生数据平台等产品。2022年阿里云首款Serverless数据库产品 RDS MySQL Serverless正式商业化,PingCAP在HTAP Summit上宣布 TiDB Cloud Serverless Tier BETA版正式发布。

2.2.2.2 融合一体化持续加深

批流一体、湖仓一体、HTAPHybrid Transaction Analytical Processing,混合事务与分析处理)等融合架构不断降低运维成本。随着数字化转型的深入,企业通常会针对不同的业务场景、不同的数据模型搭建不同的平台系统,带来了数据冗余、数据一致性差、资源配置难、系统复杂等问题,极大增加了运维的压力与成本。为解决上述问题,数据存储与计算领域各技术产品转向融合架构成为趋势,例如将批处理技术与流处理技术融合的批流一体技术框架、打通数据仓库和数据湖技术的湖仓一体技术框架以及同时具备在线事务处理及分析的混合事务分析处理技术。建立融合架构后,统一的接口层、计算层、存储层、资源调度层实现了对海量数据的统一管理和集群服务的统一运维,大幅降低了运维综合成本。国内外厂商纷纷提出自己的融合架构解决方案。例如,近年来海外厂商 Databricks同戴尔推出Data Lake House、亚马逊推出智能湖仓架构,2022年国内厂商巨杉数据库推出SequoiaDB、阿里云推出MaxCompute湖仓一体方案、星环科技推出星环湖仓一体V2.0等

数据中间件技术为计算层与异构存储层搭建桥梁,提升整体运行效率,进一步加速数据平台融合一体化。在存算分离后,存储层为满足不同类型数据存储的需求,文件存储、对象存储、表存储等多种异构存储引擎同时存在。计算层和异构存储引擎之间的连通复杂度越来越高,数据中间件技术应运而生,其通过内置兼容接口和加速技术助力计算层与异构存储层高速互联。例如开源的Alluxio向上对接Spark、Presto、Hive、TensorFlow等计算应用,向下对接阿里云OSS对象存储、AWS S3存储、HDFS等不同存储,可提升IO效率200%以上;ShardingSphere将多类异构数据库MySQL、PostgreSQL、OracleSQL Server、openGauss等包装为统一数据库访问接口,从而方便多种编程语言直接访问多类异构数据库。

2.2.2.3 安全能力快速补强

数据存储与计算面临着新型安全挑战,内生安全正成为传统防护的重要补充。一是随着自身规模不断庞大,数据存储与计算技术平台的边界不断延伸,网络安全防护体系随之指数级膨胀,容易出现盲点漏点;二是伴随数据开发利用的深化,数据存储与计算技术平台中的关键数据与其他系统将进行高频的互联互通,安全和效率难以均衡;三是数据存储与计算技术平台的技术组件60%以上基于开源技术,容易遭遇“0day”攻击;四是数据存储与计算技术平台中数据集中存储,但操作人员类型多、数量多、变更多,操作频次高,存在数据泄露风险。

2022年1月,美国交通运输业商业信用报告机构TransCredit因配置错误致使数据库无密码保护,共计涉及50万人财务数据的60多万条信用记录泄露;2022年6月,土耳其飞马航空公司因其AWS云存储桶未受保护,发生总计约6.5TB的数据泄露,其中包含敏感的飞行数据;2022年10月,跨国集团汤森路透因配置错误导致存有3TB敏感数据的Elasticsearch数据库发生泄漏。

近年来频发的数据泄漏事件,使得全密态执行环境敏感数据自动识别高效数据加解密细粒度的权限控制零信任等内生安全技术在数据存储与计算技术产品中的应用不断增加,与传统网络安全防护相辅相成。近年来,华为云阿里云相继推出全密态数据库,星环科技TDH、阿里云Dataworks纷纷加入敏感数据识别能力,亚马逊RDS增加内置防火墙。

2.2.3 主要挑战

2.2.3.1 数据存储与计算技术平台建设运营成本仍需控制

数据存储与计算技术平台规模体量大、建设周期长、前期投入高,但投资回报率却相对较低。随着疫情以来经济大环境发生变化,企业需要更加理性、务实的开展数据存储与计算技术平台建设,从实际收益的角度进行评估论证和精细化运营,同时数据存储与计算技术也应从降低运维使用成本等方面优化提升。

2.2.3.2 数据要素市场化的数据存储与计算技术创新仍需加强

随着数据成为生产要素,数据的潜在价值愈发受到重视,但当前数据要素市场建设面临数据权属、定价、安全保护等难点问题,这其中的一些问题是否能通过数据存储与计算相关技术得到解决或加以规避,正在成为摆在数据存储与计算领域发展过程中的关键命题。

2.2.4 发展趋势

2.2.4.1 技术和管理双管齐下,探索数据存储与计算技术平台精细化运营之路

据Wikibon研究,全球范围内企业数据存储与计算技术平台的平均投资回报率仅为55%,46%的企业数据存储与计算技术平台未达到预期价值。投资回报率低成为制约数据存储与计算技术平台渗透率进一步提升的重要因素,产业正尝试从技术和管理两方面探索精细化运营之路。技术方面,核心计算、存储等模块尝试与AI 结合通过智能资源调度、智能数据分层存储等,实现精细化运营;管理方面,探索公司内部成本分摊方式,从而避免业务部门无成本观念式使用数据存储与计算技术平台,例如技术部门向业务部门售卖资源模式按业务部门使用量计费模式等。

2.2.4.2 数据编织(Data Fabric)、全密态数据库等新理念新技术不断成熟,为数据的要素价值释放提供更强力的技术底座

数据要素市场形成涉及数据权属、定价、安全保护等一系列问题,传统数据存储与计算技术重点关注计算、存储效率,未解决数据要素市场面临的问题。随着数据规模和数据关系复杂度的增加、数据权属问题的复杂化,传统集中式数据管理模式无法满足需求,出现了Data Fabric这一概念。Data Fabric基于主动型元数据、增强数据目录、数据虚拟化等技术,形成了一套分布式、自动化、智能化的新型数据管理形式,当前IBM已经推出了相关解决方案。全密态数据库使数据在传输、计算以及存储的各个环节始终都处于密文状态,从而解决数据全生命周期的隐私保护问题,提供数据要素安全保护的能力,目前阿里云、华为均已推出相关产品。

2.2.4.3 我国数据存储与计算领域技术和产品将逐步走向海外市场

我国数据存储与计算领域产业经过多年发展,在部分技术领域的供给能力已经达到国际一流水平。当前,以东南亚为代表的新兴数字经济市场规模正在快速增长,数据存储与计算技术平台的建设需求十分旺盛。根据谷歌、淡马锡和贝恩公司发布的《2021年东南亚数字经济调查报告》显示,东南亚数字经济产业将在五年内实现翻倍增长,在2026年达到3600亿美元。在这一背景下,二十大报告中提出“发展数字贸易”,商务部、中央网信办、工信部联合印发《数字经济对外投资合作工作指引》,推动我国在数字经济领域逐渐形成对外开放新格局。当前,我国数据存储与计算领域的部分企业已开始走向海外市场,阿里巴巴、腾讯等企业已经开始借助自身全球云计算网络基础,PingCAP、OceanBase等企业借助开源优势,助力其数据库、大数据产品突破日本、印尼等海外市场。

2.3 数据管理

聚焦:在政策引领下规模化落地

数据管理通过规范数据采集、加工、使用过程,在企业释放数据价值的过程中扮演了“承上启下”的关键角色,是企业丰富数据应用、参与数据要素流通的前序基础。由于数据管理属于投入多、见效较慢的基础性工作,前期仅资源充足的数字原生企业对于数据管理工作的推进速度较快。近年来,在政策支持下,各领域企业的数据管理意识和能力不断增强,越来越多的企业开始从顶层统筹规划数据管理工作,我国数据管理能力建设呈现大规模落地态势。

2.3.1 发展历程

各领域政策为数据管理落地注入强劲动能通信领域,工业和信息化部于 2021年11月发布了《“十四五”信息通信行业发展规划》提出加强数据资源管理,探索建立数据应用处理、数据产品标准化数据确权、数据定价、数据交易信任、数据开放利用全流程的数据资源管理制度体系。制造业领域,工业和信息化部于2021年11月印发了《“十四五”信息化和工业化深度融合发展规划》,提出强化大数据在制造业各环节应用,制定制造业数字化转型行动计划,以制造业数字化转型为引领,培育专业化、场景化大数据解决方案。金融领域,央行于 2022年1月发布了《金融科技发展规划(2022-2025年)》要求全面加强数据能力建设。银保监会于同期发布了《关于银行保险业数字化转型的指导意见》,提出健全数据治理体系,增强数据管理能力,加强数据质量控制,提高数据应用能力。其他领域,交通运输部于2021年10月印发《数字交通“十四五”发展规划》,农业农村部于2022年8月发布《农业现代化示范区数字化建设指南》,提出加大数据治理力度,完善数据质量管控,推动数字交通、数字乡村等。

行业、地方大力推动DCMM贯标评估,通过“以评促建”的方式提升数据管理能力。工业和信息化部信息技术发展司组织协调全国信息技术标准化技术委员会(TC28)于2014年开始了我国数据管理国家标准研制工作,于2018年发布了《数据管理能力成熟度评估模型》(Data management capability maturity assessment model,简称DCMM),从组织、制度、技术、人员等方面综合评价企业数据管理水平。

头部企业数据管理工作已经进入深水期,但大部分企业仍处于数据管理初期。中国电子信息行业联合会DCMM评估统计结果显示,现阶段通信业、银行业、电力业数据管理能力相对领先,逐渐迈入深水区,以上3个行业DCMM评分普遍在3级以上,通信业4级占比超过了 60%,银行业3级占比接近70%,电力业3级和4级累计占比达到 85%。软件和信息技术业、制造业数据管理能力相对薄弱,以上两个行业集中于2级和3级,同时2级比例远高于3级,其中软件和信息技术业的2级占比是3级2倍以上,累计占比达到97%,制造业的2级占比接近3级的5倍,累计占比达到98%。

2.3.2 发展特点

头部企业数据管理起步较早,数据管理能力相对成熟,管理方法和模式对于发展初期的企业具有良好的参考价值。宏观管理层面,成立了专门数据管理团队,发布独立数据战略规划,提升数据管理专业性微观执行层面,强化数据供给能力,全面提高数据质量水平,依托统一数据管理平台,提高数据管理效率

2.3.2.1 通过成立专职团队增强数据管理执行效率

为推动数据管理有效开展,越来越多的企业成立统一数据管理归口部门,形成了决策、管理、执行的数据管理三层架构组织,并设置了专门的数据管理岗位,建立了数据部门、技术部门和业务部门协同机制。例如,中国移动成立IT管委会统筹数据管理制度、标准、流程,信息技术中心牵头全网各域数据治理和平台建设,并加挂大数据中心负责大数据管理和运营,与各业务部门及省专单位数据“管、建、战”协同。中国联通在集团成立了数字化转型部门,统筹负责数据管理工作,在网络域、管理域、客户域的业务部门、市场部、分子公司指定了数据管理对接人,由联通软研院承担数据管理技术平台开发和运维工作。工商银行在金融科技委员会下设数据治理委员会作为决策层,数据管理部/信息管理部作为管理层,大数据中心/软件开发中心提供技术支持,核心业务部门负责数据采集和数据应用,负责执行具体数据管理工作。

2.3.2.2 通过成立专职团队增强数据管理执行效率

在企业纷纷发布数字化转型整体战略基础上,为精准提升数据管理工作的质量和效率,越来越多的企业发布了独立的数据管理战略规划,从而确立数据管理工作的中长期目标和管理活动优先级,明确需要的资源投入总量和资源分配机制,指导数据管理团队的工作有效执行。例如中国电信集团 2021年发布了《中国电信数据治理体系化推进工作指引》,旨在结合“云改数转”数字化转型整体思路推动数据管理工作体系化开展,指导集团下各单位从数据模型管理、数据质量管理、数据安全管理、数据共享等方面推进数据治理工作高效开展。

2.3.2.3 通过开展专项行动进一步提升数据供给质量

良好的数据供给能力是数据分析挖掘的基础,在工业物联网、工业互联网、边缘计算等技术快速发展的背景下,企业业务线上化加速数据规模爆炸性增长,如何保障数据质量水平、增强数据可信可用成为了数据管理的关键一步。以南方电网为例,数据量从“十三五”初期的220TB提升至2.4PB,数据采集范围拓展至竞争性业务、金融业务等板块,关键运行数据采集频率提升超过60倍。在数据源头快速变化的背景下,南方电网在常态化数据质量治理的基础上开展数据质量提升专项,短时间内、集中资源力量打通数据质量工作的难点、堵点,在主配网数据治理领域,形成配网数据问题识别规则14项,累计识别并整改2100余万条数据质量问题,全网各单位变电站轮廓坐标、杆塔坐标准确率达到99%。

2.3.2.4 通过统一技术平台消除数据管理协同难点

早期,各企业针对数据管理中的各项工作,逐步建设了数据标准管理平台、数据质量管理平台、数据架构管理平台、元数据管理平台、主数据管理平台等单一功能型技术工具,这些技术工具通常独立存在使得数据管理各项活动间衔接性较差,例如数据标准难以应用于数据模型、数据质量难以从源头把控等,导致管理资源的冗余和浪费。随着统一数据管理平台的成熟,其将各单一功能型技术工具进行集成,构建了数据管理工作的“一站式”技术平台,对于统筹数据管理工作、提高数据管理效率的作用日益突出。例如中国移动构建了元数据驱动的统一数据治理平台,全面拉通异构跨地域跨平台的元数据,统一支撑数据管理、开发、运营、运维人员的数据治理工作,实现数据一点可看、可控、可管。国网大数据中心基于统一数据管理技术平台,实现总部及27家省(市)公司PB级数据的统一管理,有效加快电网整体数字化转型升级。

2.3.3 主要挑战

2.3.3.1 数据的业务价值不显著,数据管理内驱动力不足

推动业务创新和发展是数据价值的最终目标,由于企业缺乏对数据产生业务价值进行度量的体系,导致企业决策层、管理层和业务部门难以对数据价值有效感知,进一步降低了企业持续开展数据管理的动力。

2.3.3.2 数据、IT和业务仍存在割裂,组织架构亟需变革调整

尽管越来越多的企业成立专门的数据管理团队,但是尚未明确数据管理团队与IT团队、业务团队的协作机制,导致数据管理与企业信息化建设和业务发展脱节,阻碍了数据管理成果在企业系统和业务场景的落地。

2.3.3.3 数据管理人才缺失,数据管理推进后劲不足

由于数据管理是一个新兴领域,有别于传统的数据库和计算机领域,需要的是具备管理能力、技术能力和业务能力的复合型人才,因此面临较大缺口。

2.3.4 发展趋势

2.3.4.1 首席数据官(Chief Data Offcer,CDO)制度助力企业全面开展数据管理

CDO是有效管理和运用企业数据资源、充分挖掘数据价值、驱动业务创新和转型变革的企业负责人,负责为公司制定一个明确的数字化战略,确保相关举措都获得资源分配,并通过衡量数字项目投资回报率的方式,提高客户参与度和忠诚度,推动企业形成数据管理良性闭环。事实上,在过去的几年里,国外已有包括通用电气、富国银行在内的众多企业设置了CDO岗位,全面推动企业数字化转型。国内广东省于2022年在政府工作报告重点任务分工方案明确提出,要“出合企业首席数据官建设指南”,鼓励具备条件的企业在决策层设立CDO,按照“企业主导、政府推动、价值优先、多方协同”的建设原则组织实施。

2.3.4.2 数据研发运营一体化(DataOps)将有效提升数据管理协同效率

随着数据应用场景日益丰富带来数据分析需求快速变化,数据工程师、数据管理员、报表开发人员、运维工程师在内的各类数据管理角色逐渐增多,导致企业各类数据交付任务难度大大增加。DataOps旨在打破数据管理各环节之间的割裂,将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满足度等指标作为数据设计、开发和测试的要求,优化数据生产者和数据消费者协作效率,并通过标准化大数据组件,构建一体化平合打通数据设计、开发、测试和运维各环节,实现编写代码、生产部署、调度监控全过程线上化,引入可视化编排、CI/CD等技术降低数据研发技术门槛,推动敏态数据研发提高数据运维质量。

2.3.4.3 提高智能化程度将成为降低数据管理成本的关键

通过利用AI、MI、RPA、语义分析、可视化等技术,自动识别或匹配数据规则(包括数据标准规则、数据质量规则、数据安全规则等),自动执行数据规则校验,自动发现数据之间的关联关系,并以可视化的方式展现。此外,利用VR、AR、3D可视化等技术,帮助数据使用者探索数据和挖掘数据,提升数据应用的趣味性,降低数据使用门槛。

2.4 数据流通

流通规范体系加速构建

数据流通是指以数据或数据中蕴含的价值(信息内容)作为对象,按照一定规则从数据提供方传递到数据需求方的过程,即数据资源先后被不同主体获取、掌握或利用的过程。在数据要素市场建设的背景下,数据流通领域受到了空前的关注,各方均在积极探索参与数据流通,进而实现充分释放数据要素价值的目标。

2.4.1 发展历程

数据流通发展重心向“规范化”转移

数据流通是释放数据要素价值的关键一环。一方面,数据具有外部性,即同一组数据可以在不同的维度上产生不同的价值和效用。借助数据流通数据可以在不同的数据接受者一方与自有数据汇聚,不断开拓使用维度,数据价值也将在社会面层层放大。另一方面,数据存在分布不均衡的问题,企业采集的数据通常具有较强的行业属性,特征不够全面,同时中小型企业收集的数据样本量较少,难以支撑业务数据流通。为利用数据的外部性,解决数据分布不均衡的问题,充分释放数据要素价值提供了有效手段

数据流通随商业信息分析需求增强而日益旺盛,合规性逐渐引起关注。1841年,邓白氏集团(D&B)率先将各种商业信息收集汇聚,构建信用评定的数据指标体系,“数据服务商”的雏形初现。2000年左右,随着互联网领域的迅速发展,企业对于数据的采集与流通需求进一步增强,例如谷歌就借助了AdSense 获取大量用户行为数据用于优化其广告投放效率并以此获利,这也带动了后来广告营销场景的大量数据流通活动。2008年,随着Infochimps、Factual、DataSift、Datahub、Acxiom等一批知名专业数据服务商相继涌现,现代意义上的数据流通正式形成。在这一时期,原始数据直接流通成为数据流通的主要形式,商业形态也较为原始粗放,有较高的合规风险。2014年后,贵阳、上海等为代表的一批具备官方背景的数据交易所成立,银行等金融机构开始大量引入外部数据,数据流通需求广泛提升,API接口调用的数据流通形式逐渐增多。与此同时,数据流通的合规性逐渐成为业界的关注点。

制度创新和技术创新双轮驱动数据流通行业实现“规范化发展”。制度创新方面,2022年6月22日中央深改委第二十六次会议强调“要促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系”,为我国数据流通产业发展提供了重要思路。技术创新方面,以隐私计算为代表的数据流通技术提供了“数据可用不可见”、“数据可控可计量的数据服务新范式,在保障数据安全前提下实现了数据流通效果,从而为需求方企业安全地获取和利用外部数据提供了技术可能。

2.4.2 发展特点

2.4.2.1 数据流通规则逐渐清晰

由于数据流通存在技术依赖、非标准化的特点,面向多元数据主体和多样数据流转形态,参与流通的供需双方需要科学、可靠且共识的规则体系,才能建立信任。现阶段,从政策指引到应用实践,各方均在积极探索建立健全数据流通规则。在政策指引方面,2022年内发布的一系列政策文件(如下表)中均提出了建立数据流通规则的相关内容。在实践探索方面,各地方、各行业、各类市场主体也在实践过程中积极探索数据流通配套规则。例如,贵阳大数据交易所于2022年5月发布一系列数据交易规则,为交易主体权责划分提供依据,并依据规则为数据产品、数据商、第三方数据服务中介机构等提供登记凭证,以确认数据和主体具备进入市场交易的条件,探索解决市场主体互信难的问题。

表3 2022年数据流通规则建设相关政策清单

时间

文件

内容

2022.01

国务院《要素市场化配置综合改革试点总体方案》

探索“原始数据不出域、数据可用不可见”的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用。探索建立数据用途和用量控制制度,实现数据使用“可控可计量”。规范培育数据交易市场主体,发展数据资产评估、登记结算、交易撮合、争议仲裁等市场运营体系,稳妥探索开展数据资产化服务。

2022.04

国务院《中共中央国务院关于加快建设全国统一大市场的意见》

加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。

2022.12

中央深改委《关于构建数据基础制度更好发挥数据要素作用的意见》

要建立合规高效的数据要素流通和交易制度,完善数据全流程合规和监管规则体系,建设规范的数据交易市场。

2.4.2.2 流通参与热情高涨,供需对接向多行业扩展

随着数字化转型的不断深入和智能化水乎的不断攀升,企业参与数据流通的热情空前高涨,数据流通的供需方从金融、互联网持续向其他行业扩展。

金融、互联网行业的流通实践不断深化。金融行业中,风险控制要求极为严格,各大金融机构以雄厚的资金实力做支撑,早已成为数据要素市场的主要参与者。互联网行业中,许多头部企业已对外提供众多数据接口或数据产品,以满足中小互联网企业或其他行业研发应用、精准营销、智能服务等需求。调研显示,当前金融机构及大型互联网企业普遍建立了统一的部门或团队管理外部数据,头部企业每年的外部数据采购额已经达到了亿级规模。根据推算,仅银行及互联网金融行业的外部数据采购额即可突破百亿规模。

其他各类传统行业也在不断探索参与数据流通。工业领域中,数字化转型刚刚起步,还需经历产线内数据联动、工厂内数据协同、企业内数据共享、企业间数据流通等多阶段探索。目前,国家工业互联网大数据交易平台已处于内部测试阶段,着力解决工业企业数据流通的难点,促进工业数据要素市场发展。此外,政务、气象、交通、医疗等行业和场景的数据需求也逐步显现,相应公共数据的开放或企业数据的供给获得更广泛的关注。

2.4.2.3 安全流通技术重要性凸显

在合规要求日趋收紧的背景下,能够提供合规前提下充分挖掘数据价值、促进数据流通的各类技术解决方案受到了业内的广泛关注。

数据脱敏与数据合成技术主要作用于数据流通的输入阶段,能够有效降低原始数据中包含的隐私信息泄露风险。当前,脱敏技术从基于SQL脚本的人工脱敏,自动化、流程化的平台脱敏,逐渐走向了应用机器学习等技术的智能化数据脱敏阶段。但是,目前该技术仍面临降低数据价值无法明确是否满足法律要求以及无法有效防止数据复制和篡改等问题。数据合成技术仍处于初级探索阶段。在应用实践方面,医疗、金融、通信领域的相关企业如Illumina、J.P.Morgan、Telefonica等都引入了数据合成技术试图解决数据隐私问题。

隐私计算作用在数据流通的输入、计算、输出阶段,实现了全流程的数据“可用不可见”、“可控可计量”。现阶段,隐私计算已成为最有希望解决数据安全流通问题的关键技术。全球知名咨询机构Gartner 已连续两年将隐私计算(其称隐私增强计算)列为了重要战略科技趋势。根据中国信通院调研显示,自2018年以来,包括综合科技、大数据、金融科技、人工智能、区块链、云服务、信息安全等类型的企业纷纷入局隐私计算赛道,累计孵化出100余款产品,广泛应用于金融、通信、互联网、医疗、政务等领域。

区块链为数据流通中的验证、追溯、审计提供了有效保障。将区块链与其他各类数据安全流通技术相结合,能够为数据源、交易存证、数据侵权举证等数据市场化等问题提供可行的解决方案,实现数据流通全流程可验证、可追溯、可审计,并为进一步建设高效、高安全和高流动性的数据要素市场打下基础。

2.4.2.4 数据流通产品形态逐渐向个性化定制方向转变

随着各行业企业逐渐对业务进行数智化升级和改造,数据应用的场景不断丰富,数据流通市场逐渐从“以数据产品为主”向市场驱动的“以数据需求为主”转变。数据提供方趋向以数据需求作为入口与市场和用户接触,根据需方企业的个性化需求提供针对性更强的解决方案,反向带动数据流通的活力。以最早挂牌新三板的数据源服务提供商数据堂为例,其商业模式可以概括为两个方面,一是大数据交易平台二是面向B端客户提供定制化数据源服务。再如科创信息、百融云创、神州泰岳等我国大数据服务领域的头部上市企业,都是通过提供定制化服务快速占领细分领域市场,根据现实场景构建适合企业自身的大数据体系。

2.4.3 主要挑战

2.4.3.1 数据权属界定的场景与问题复杂

数据权属界定的场景与问题复杂,对于参与数据流通的主体权利关系,理论、制度和产业实践层面均尚未形成共识。

2.4.3.2 数据的估值定价尚缺乏科学、标准的评价方法

传统的估值定价方法很难完全适用于数据流通的特点。

2.4.3.3 数据流通的准入、竞争等行为约束没有清晰的法律界定

数据流通的准入、竞争等行为约束没有清晰的法律界定,配套的激励和监管规则也不完善,相关市场主体顾虑很多、动力不足。

2.4.3.4 隐私计算等数据流通关键技术应用还不成熟

隐私计算等数据流通关键技术应用还不成熟,数据安全流通的技术方案仍需持续探索。

因此,对于参与数据流通的企业而言,需重点关注两大问题。一方面,如何稳定本企业的数据供应链。外部数据如何持续、稳定地被获取,如何不断提升数据的质量,如何管理好引入的外部数据,成为企业在数据流通中关注的重点。中国信通院云大所构建的外部数据源评估标准和外部数据管理标准,就试图为这一领域提供值得借鉴的经验。另一方面,如何深刻地参与到国家数据要素市场建设之中。数据如何对外提供,需要满足哪些责、权、利方面的程序,如何更高效更低成本地参与到统一大市场中的数据流通环节,成为企业面临的新命题。

2.4.4 发展趋势

2.4.4.1 公共数据开放带动数据流通供给

“以高价值公共数据为突破口,强化政府的引领作用,带动商业数据供给”已成为解决数据供给不充足,激活市场主体内在动力的最为紧迫的任务之一。近年来各地方政府在政务数据开放平台建设方面积极推进,取得了良好成效未来,针对已有的公共数据开放,应明确公共数据开放规则,建立公共数据开放的社会需求受理渠道,基于公共数据开发利用清单,结合应用需求建立公共数据开放动态调整机制,推动公共数据有序开放针对各地正在积极推进的非个人数据授权运营,应在规范的基础上持续创新,一是加快规则建设,二是鼓励市场主体参与,三是强化数据安全保障。此外,还需持续探索创新思路,推动公共数据产品通过数据交易场所挂牌上市,探索公共数据资产登记,创新公共数据供给形式等。

2.4.4.2 场景化的技术分级框架将促进数据安全流通实践落地

各类安全流通技术的使用往往会带来数据应用价值的损失。一般来说,随着数据可控程度的提升,数据应用价值的损失也会进一步增大,两者之间难以兼顾。在数据流通过程中,各应用场景对应的参与方信任程度不同、数据类型不同,这造成了其需要达到的数据可控程度也是不同的。一味的追求高安全水平可能会造成数据流通价值无法达到预期降低了各主体的参与积极性。在未来的数据流通实践中,参与主体也应结合实际业务需求,基于场景选取适当分级条件下的技术方案,实现数据可控程度和数据流通价值的最大化。

2.4.4.3 可信流通体系将为数据有序流通提供条件

可信流通体系旨在为有序的数据流通提供信任,全面提高数据可信、可用、可流通可追溯水平。近几年,以数据为主要驱动的行业,特别是金融和互联网行业的头部企业,都在构建自己的可信流通生态圈。一方面,根据业务需求划定数据供方,确保数据源的合法合规、持续供应、安全可靠;另一方面,提升数据引入后的应用管理水平,通过构建组织架构明确各部门职责要求、建立和实施系统化制度、流程和工具等方式,全面统筹外部数据的需求和使用。未来阶段,企业与行业间的可信流通生态需要融合打通,形成规范的可信流通体系,重塑数据流通规则重组数据流通资源,重建数据流通渠道,在提高数据流通效率的同时实现对数据流通全流程的动态可控。

2.5 数据应用

2.5.1 发展历程

积极探索数据深层价值的释放路径

数据应用通过建立数据与业务的高效衔接,实现数据最终赋能业务。数据应用决定了数据对业务的赋能效果,是数据价值释放的“最后一公里”。若数据应用不充分,将反向影响企业对数据存储与计算、数据管理等其他数据工作的整体投入信心。虽然数据应用早已存在于人类社会的各项活动中,但由于技术能力不足、前序工作未就绪等因素限制,传统数据应用主要针对的是少量、局部、非实时数据,依赖大量人工决策,导致数据主要释放其浅层价值。当前,国内外各方正积极探索新的数据应用方法论,并在不同行业、不同场景进行滚动式实践,从而释放数据深层价值,目前已取得初步进展。

数据应用发展已有60余年,总体分为三阶段。数据应用是利用数据对各项事务进行探索、分析、洞察并最终推动决策的过程,其是数据价值释放的最终一环。在各企事业单位中,数据应用是否充分直接决定各企事业单位对于数据相关工作的整体投资性价比,进而反向影响对数据存储与计算、数据治理、数据安全等环节的投入程度。虽然数据应用早已存在于人类社会的各项活动中,但随着数据本身形态、数据处理技术、产业发展环境、数据应用需求等的不断演化升级,数据应用内涵和模式不断丰富,总体可分为三个阶段。各阶段特征如下所示。

表4 数据应用三个阶段

第一阶段-1960s开始

第二阶段-1990s开始

第三阶段-2015s开始

数据源

业务系统数据库

数据仓库

数据湖+外部数据

数据与业务关系

随机、离散

常态化、体系化、外挂式

全域、敏捷、嵌入式

分析方法

图表统计

BI分析

BI+AI

对决策的影响

辅助决策

增强决策

自动决策

由于信息化的发展成熟,数据应用第二阶段是当前主流形态。信息化催生了数据应用的第一阶段,各企业利用Excel等工具,进行小数据量、随机的、专题问题的分析。伴随各企业信息化成熟,第二阶段是当前数据应用的主流,即财务、人力、业务增长等关键领域信息,以固定周期、通过BI图表可视化的方式,将其现状和趋势呈现给关键决策层,再通过人工完成决策。例如招商银行BI分析平台自2020年上线,仪表盘数量超过3万,覆盖零售、信贷、风控、运营等核心业务,累计任务执行次数超 600 万次,协助完成 44 家分行业务工作,业务渗透率达 80%。

第三阶段进入萌芽期,实践经验正在快速沉淀。随着现代化企业间竞争加剧,以及数据来源增多、体量变大,数据存储与计算逐渐升级等环境因素变化,头部企业开始率先探索第三阶段实践路径,例如互联网、金融、电信、制造等行业领域的龙头企业,在营销、风控,经营分析等核心业务中,开展从组织架构、数据存储与计算到商业模式的全方位探索,并取得一定成功经验。例如某头部银行围绕数据打造风控体系,放款周期从数天降低到秒级,同时坏账率下降超过30%。根据中国信通院2022年企业数字营销评估结果,已有约30%的企业实现了自动决策能力。同时,近年来国内外头部研究机构已开始针对迈入第三阶段的企业实践过程,总结梳理相关实践方法论,从而为后期企业大面积迈入第三阶段构建理论基础。

2.5.2 发展特点

2.5.2.1 从应用方向看,面向个人消费者领域的应用相对领先

针对每个用户进行精细化运营是企业竞争力跃迁的必要手段。个人消费端用户量大,导致精细化运营资源成本高,而数据应用可以有效助力个人消费端的精细化运营,所以面向个人消费端的领域数据应用水平普遍较高。如表6所示,根据神策研究院发布的《2022中国企业数字化运营成熟度报告》,泛零售、金融、互联网的数据应用综合评分排名前三。全球跨境电商企业希音通过将消费侧和生产侧进行业务数据实时互通从而搭建敏捷供应链系统,从开发、生产、仓储、物流等各环节进行全链路的数据应用商业模式改造,快速响应消费市场需求。目前,希音从下单、生产到仓库验收最快可在7天内完成,库存率也远低于行业平均水平。

表5 多个行业的企业数字化运营成熟度情况

泛零售

金融

互联网

企业服务

其他行业

样本数量N

58

68

88

60

41

数据驱动综合指数

46.2

43.8

43

32.1

34.3

数字洞察能力

15.3

15.1

13 8

10.9

11.8

数据决策能力

8.4

8.5

8.6

5.7

6.1

数字运营能力

11.5

10

9.1

7.5

7.9

提升优化能力

11

10.3

11.4

8

8.5

2.5.2.2 从服务对象看,正在从决策层向基层业务人员延伸

由于数据分析工作的专业性和复杂性,传统数据应用依托专业的数据分析工具以及数据分析师等,主要以大屏、报表、领导驾驶舱等形式,用于企业高层或战略、财务等进行周期性的大决策。这种模式决策效率低、线条粗,无法精细指导基层人员的业务执行方式。随着市场变化逐渐加速,数据应用在固定的分析逻辑和报表基础上,向个性化、多样化转变,伴随自助式分析工具的成熟,数据应用门不断降低,业务终端小决策中的数据应用渗透率也在不断提高,数据应用在企业中的两级模式正在不断形成。例如某省运营商大数据平台直接支撑社区网格运营人员,在2021年实现5.3亿次拓客营销、提供 2486万条任务商机等。

2.5.2.3 从价值导向看,以人为本和可持续发展的定位日益明确

随着数据应用对各行业的经营模式进行革新和升级,也出现了大数据杀熟、个人信息泄露、数字鸿沟等问题。为构建数据应用的可持续发展秩序,监管部门迅速出台相关措施,多管齐下强化数据应用价值导向监管。一是加强个人信息保护。《个人信息保护法》《征信业务管理办法》等政策法规相继出台,持续细化个人数据在国内金融电信、互联网领域的应用规范。二是明确界定大数据杀熟行为。国务院反垄断委员会制定发布《反垄断指南》对大数据杀熟行为做出明确界定,规制企业价格歧视和差别待遇等损害消费者权益行为。三是建立大数据算法治理体系。中央网信办等四部门联合发布《互联网信息服务算法推荐管理规定》,全面搭建算法治理机制,强化信息服务领域算法推荐活动治理。四是倡导提升数字素养。为降低城市与乡村数字发展鸿沟,《提升全民数字素养与技能行动纲要》《数字乡村发展行动计划(2022-2025年)》等文件多次提出并强调提升全民数字素养,倡导大数据企业在青少年数字伦理教育、大数据应用适老化等方面持续发力。

2.5.3 主要挑战

2.5.3.1 数据管理等前序工作难就绪

数据应用对数据管理等前序工作具有强依赖性但由于企业治理工作待完善,造成业务侧难以进行数据的二次加工利用。

2.5.3.2 组织架构不符合新需要

数据应用需要多部门共同协作,传统组织架构责权分工过于明确,存在业务对接盲区,不符合数据应用新业务模式发展需要。

2.5.3.3 复合型人才紧缺

数据应用需要兼具业务理解和科技能力的数字化复合人才,人才门槛高,随着数据应用持续深入业务,人才紧缺已成为制约数据应用效能提升的最主要因素。

2.5.3.4 技术工具适配度不足

供给侧标准化技术工具不能适应不同企业实际情况,甚至倒逼企业开展定制化业务改造,导致企业开发工作负担过重,业务人员也存在上手难等问题。

2.5.4 发展趋势

2.5.4.1 自动决策将成为数据应用的主要形态

当前,一方面伴随业务的精细化运营需求,传统人工决策效率瓶颈逐步显现,且成本居高不下;另一方面,随着数据源增多、模型精细度提高、数据应用技术工具优化,数据应用的能力不断提高,所以数据应用正快速从感知、诊断向研判智能决策延伸。以金融风控业务为例,传统风控主要依靠专家经验,通过客户信息、央行征信数据以及公司内部资料进行简单规则触发和人工审核;而智能风控当前则是结合了更多的第三方数据和线上线下多维数据及行为特征数据,通过复杂模型和策略体系完成自动化分析,极少触发人工复核。

2.5.4.2 企业组织架构以数据应用为中心加速演进

数据应用需要业务、技术、数据管理等多部门共同协作,但是部门间对数据应用的沟通理解存在明显偏差。为配合数据应用新业务模式开展需要,部分企业尝试调整组织架构以配合数据应用。一方面高层领导牵头总体工作据《金融业数字化转型发展报告(2020-2021)》调研,34.78%的金融机构由最高领导牵头数据应用的总体管理决策,自上而下加大数据应用实施力度。另一方面引入业务伙伴(Business Partner)模式助力应用协作。为业务部门配置技术和数据人员,进行点对点业务对接,提供技术和数据的专业化决策与长期运营支撑。

2.5.4.3 咨询、技术、代运营一体型数据应用服务形态将崛起

在数据应用层面,技术工具仅仅能够快速进行数据采集、处理及策略触达等,要充分释放数据价值,则需要业务人员具有优质策略产出及运营等能力。目前大部分应用侧企业缺乏运营及策略能力,因而在其采购技术工具的同时需要配套的咨询服务,以及一段时间的代运营服务从而助力其数据应用落地。以零售行业为例,业内应用侧企业对实时效果要求较高,在选购技术工具时会更在意通过怎样的策略与技术产品的结合能立即推动业务增长。因此,有较强咨询能力和代运营的供给侧企业将更能获得应用侧企业的青睐。

2.5.4.4 低代码数据分析工具将助推数据应用平民化进程加速

我国各行业企业发展水平差异较大、业务属性不同,随着数据应用的持续推广,企业在业务层面延伸出越来越多的个性化、敏捷化的产品需求,但是传统的 Saas服务难以满足。此外,数据应用要求业务人员参与到数据建模与运营过程中,因此标准化的技术工具必须考虑如何降低其使用门槛以便用户操作使用。当前国内大多数应用服务商陆续推出低代码技术工具,试图通过模块封装、可视化建模、自动化建模等方式让用户快速地、直观地完成应用程序的组装和配置,有效降低了数据应用门槛。

2.6 数据安全

强需求牵引产业生态飞速发展

2021年《数据安全法》《个人信息保护法》颁布以来,数据安全监管要求逐渐落地,国家、行业、地方相继颁布了一批数据安全方面的配套性政策文件,数据安全体系建设进程明显提速,数据安全供应能力不断增强,数据安全产业生态各方面都呈现快速发展态势。

2.6.1 发展历程

数据安全发展基础不断夯实

数据安全法律政策逐步细化,政策环境不断完善。国家层面,逐渐明晰的监管红线,为企业数据安全建设提供政策引领。2022年7月中央网信办公布《数据出境安全评估办法》,为各行业企业规范数据出境活动、保护个人信息权益提出了更加具体的要求和措施,翻开了数据出境安全管理的新篇章。行业方面,工信部于2022年12月印发《工业和信息化领域数据安全管理办法(试行)》,明确了本领域数据安全监管范围和监管职责,提出了对包括重要和核心数据在内的管理要求,是对工业和信息化领域数据安全管理工作的进一步指导。地方层面,河南省、江西省、重庆市等省市纷纷出台数据条例,明确数据安全责任义务和管理监督措施等内容,规范各地方数据安全建设工作

数据安全技术产品持续变革,产业发展动力愈发强劲。随着5G、物联网、云计算等数字技术的快速发展,数据形式更加灵活多样,传统数据安全防护边界被颠覆,新技术应运而生。根据 IDC发布的《IDC TechScape:中国数据安全发展路线图,2022》,零信任之数据安全、AI赋能数据安全、数据风险管理、数据安全基础设施管理平台等9项变革性数据安全技术将重塑数据安全市场,创造新的市场机会、新的技术公司以及新的用户需求。

数据安全意识及能力逐渐提升,数据安全建设工作逐步启动。随着企业数字化转型的逐渐深入,各行业企业的数据安全意识有效提升,数据安全能力建设不断突破。据中国信通院调研,企业在开展数据安全培训、参与数据安全评估、部署数据安全技术产品等方面需求旺盛。目前已有联通数科、电信云、中移信息、百度、蚂蚁等40余家企业完成数据安全治理能力评估工作,旨在通过“以评促建”方式对标监管要求,梳理建设现状,推动企业数据安全建设工作的开展。同时,供应侧受市场需求引导,奇安信、卫士通等企业也全面开展了数据安全相关产品及服务的研究布局,根据中国信通院数据安全推进计划发布的《数据安全产品与服务图谱(2.0)》,目前共有116家企业、488款产品与服务收录其中。

2.6.2 发展特点

2.6.2.1 全面布局成为需求侧建设重心

有效的数据安全治理是企业利用数据赋能业务的重要前提,但传统的离散式、补丁式的数据安全策略已不能适应当前敏捷化、动态化的业务创新。企业数据安全能力建设重心,也开始从单点技术部署走向广范围、细粒度、一体化的全面布局,围绕组织架构、制度流程技术工具、人员能力构建“闭环”数据安全体系。金融、电信、互联网等行业作为数据密集型行业,是产生数据、使用数据最频繁、场景最丰富的领域,其数据安全已成为企业保障业务发展的内生需求。这些行业企业基于不断细化的法规政策,已开展较为体系化数据安全建染

组织架构方面,工行、建行、移动、联通、电信、百度、蚂蚁等头部企业已经确立了由数据管理部、信息安全管理部或数据安全部等部门牵头管理协调全企业内部的数据安全工作,一方面向上对接相应委员会,细化工作内容,另一方面向下对接各业务部门,制定管理要求。制度流程方面,基本建立了自上而下的多层级数据安全管理制度体系,通过一级数据安全管理制度明确原则要求,再通过二级、三级等管理规范的逐级细化,形成可落地的实施细则。技术工具方面,围绕数据全生命周期,在数据脱敏、监控预警、安全审计等方面构建了覆盖事前预防、事中监控、事后审计的全流程技术能力底座。人员能力方面,通过建立企业内部数据安全学习专栏,学习国家、行业、企业发布的相关管理要求和工作规程,提高全员数据安全认知水平和建设水平。

2.6.2.2 一站式解决方案成为数据安全主流服务形态

数据存在于业务中,离业务越近才越能解决客户的问题。在数据安全市场中,仅通过把相关产品和平台部署在需求方网络内的交付过程已不能满足当前数据安全建设需求,深入业务场景和数据视图是必经之路。因此,相较于提供单一技术产品,融合了“技术”与“服务”的整体解决方案已成为供应商角逐的新领域,这也体现了数据安全需求方企业开始布局体系化数据安全建设的发展重心。

目前,供应侧数据安全解决方案主要有以下三种服务方式:

一是提供行业化的数据安全治理建设解决方案。主要针对特定行业的某一项或某些项具体数据安全需求,输出体系化的整体建设方案,例如,电信行业数据安全解决方案通过交付数据资产梳理服务,部署脱敏、防泄漏、审计等工具帮助运营商企业建设数据安全治理体系。

二是提供场景化的数据安全解决方案。这种服务方式的关键在于对通用场景的提炼,目前常见的场景划分方式分为基于数据全生命周期(如数据使用、数据共享场景等)和基于业务运行环境(如办公生产、研发、云场景等)两种划分方式。比如数据安全合规解决方案,一方面通过实施风险评估服务、梳理管控点、明确管控措施等手段,对管理制度体系进行补充完善;另一方面通过部署监控审计等技术工具,对各项管控措施进行落地实践。

三是提供“行业+场景”的数据安全解决方案。这种服务将建设思路聚焦在某个具体的行业业务应用中,有助于需求侧快速解决重要业务场景面临的数据安全问题。比如金融行业数据分类分级解决方案聚焦金融行业数据分类分级相关标准规范,梳理识别规则,编制分类分级模板,通过数据自动发现和动态运营技术实现企业全域数据的分类分级和安全管控工作。

2.6.2.3 数据分类分级成为全行业关注焦点

数据分类分级方法论逐渐形成共识。数据分类分级作为《数据安全法》明确提到的概念之一,引起地方、行业、企业的研究探讨,并逐渐形成从建立组织保障到落实对应级别数据安全管控策略的“七步走”方法论共识,如下图所示。

通过建立一个包含高层领导的数据分类分级组织架构,推动各业务的数据资源及业务数据流向理工作,进而完成分类和定级,并最终根据级别定义完成数据安全策略制定。

知识分享系列三:大数据技术(上)_第3张图片

图3 数据分类分级“七步走”方法论图示

数据分类分级工作在各领域逐渐细化。为指导数据分类分级工作的推进落实,各行业、各领域纷纷制定相关标准规范,通过明确分类分级工作的原则、方法、定义,并在此基础上给出部分分类分级示例,进一步细化国家关于数据分类分级工作的要求,推动该项工作在不同行业企业及组织机构的落地实施。下表展示了近几年关于数据分类分级相关规范的编制情况。

表6 近几年数据分类分级相关规范

发布时间

名称

发布方

2020年2月

《工业数据分类分级指南(试行)》

工业和信息化部办公厅

2020年4月

GB/T38667-2020《信息技术 大数据数据分类指南》

国家市场监督管理总局、国家标准化管理委员会

2020年9月

JRTO197-2020《金融数据安全 数据安全分级指南》

中国人民银行

2020年12月

YD/T 3813-2020《基础电信企业数据分类分级方法》

工业和信息化部

2021年5月

YD/T 3867-2021《基础电信企业重要数据识别指南》

工业和信息化部

2021年7月

DB33/T 2351-2021《数字化改革 公共数据分类分级指南》

浙江省市场监督管理局

2021年10月

《重庆市公共数据分类分级指南(试行)》

重庆市大数据应用发展管理局

2021年12月

《网络安全标准实践指引--网络数据分类分级指引》

全国信息安全标准化技术委员会秘书处

2022年3月

《信息安全技术 重要数据识别规则》(征求意见稿)

国家市场监督管理总局、国家标准化管理委员会

2022年9月

《信息安全技术 网络数据分类分级要求》(征求意见稿)

国家市场监督管理总局、国家标准化管理委员会

数据分类分级工具及服务蓬勃发展。数据分类分级作为一项长期工程,自动化及智能化的“工具+服务”发展模式已成定局。一方面由于企业数量大,仅靠人工方式导致投入产出比低,需要借助自动化工具降本增效。另一方面由于业务场景将不间断地采集并衍生新数据,需要借助智能化技术提高识别率和准确率,以适应数据分类分级的常态化和持续化工作方向。同时,数据分类分级的顺利开展需要参与团队具备数据治理、数据安全、数据合规等领域的综合知识体系,对人员能力的要求较高,因此相较于采购单一工具产品,企业针对数据分类分级专业服务的采购需求也在持续发酵。

2.6.3 主要挑战

2.6.3.1 数据安全责任体系构建尚不成熟

数据在实时产生及流动过程中涉及的主体很多,导致数据安全的主体责任边界模糊,难以清楚划分,容易影响数据安全建设工作的整体推进。

2.6.3.2 数据安全管理与技术易脱钩

当前大部分企业的数据安全管理制度聚焦在原则、管理规定等较粗颗粒度的层面,对数据业务的下沉指导不充分,导致具体业务场景下的技术落地仍然缺乏实践指引,容易与管理要求脱节。

2.6.3.3 数据安全产品与服务优势能力构建有待突破

随着新技术新业务的不断发展,传统网络安全防护思路与措施已无法满足当下的数据安全防护需求,供给侧数据安全技术产品与服务的突破创新成为竞争关键点。

2.6.4 发展趋势

2.6.4.1 由监管单一驱动转向监管与内生的双驱动

由中国信通院数据安全推进计划发布的《2021年数据安全行业调研报告》显示,97.0%的受访企业认为“合规需求”是开展数据安全能力建设的主要原因之一。由此可以看出,监管驱动对企业数据安全建设具有强推进作用,然而随着数字经济的迅猛发展,数据驱动的业务创新成为各行业企业的重要营收来源,保障数据安全在推动业务健康运营方面的重要作用愈加明显,企业数据安全建设的驱动力也逐渐由合规监管的单一驱动转向合规与发展的双重驱动。

2.6.4.2 数据安全左移逐渐成为建设核心思路

伴随着数字化转型的深入,数据资源的爆发可以预见,数据安全的管控范围和管控深度也因此扩大,为了提高数据安全工作效率,降低数据安全事件发生概率,需要在数据安全的风险源头进行及时管控与处置,这就要求企业必须把数据安全能力从运维环节前置、左移到设计、编码阶段。管理层面,需要提升各项安全管理要求在企业内的技术落地能力,部分互联网企业已经建立了较为完善的从管理到技术的映射能力。技术层面,聚焦于智能化在数据安全领域的应用,需要加强其对数据识别、风险识别等多项数据安全技术的赋能,提高数据安全监控分析的准确率,进而持续推动数据安全工作左移。

2.6.4.3 数据安全风险治理能力将成为下一步建设重点

由于数据本身具备流动性、泛在性等特点,导致数据在不同的网络区域、业务场景、应用系统中流转时,有可能被具有不同角色、权限的用户采取不同的处理方式访问使用。过长的流转链条、过大的威胁暴露面、过多的数据处理活动,导致数据安全风险的触发源和不可控性显著增加据IBM发布的《2022年数据泄露成本报告》显示,2022 年全球数据泄露平均成本高达435万美元,创下该年度报告发布17年以来的最高纪录。为了进一步防范数据泄露、数据篡改等安全事件的发生,落实数据安全风险的源头管控,将常态化数据安全风险评估提上日程提升数据安全风险治理能力也成为企业的关注重点。

参考文献

1.大数据白皮书(2022年)——中国信息通信研究院

2.大数据——https://zhuanlan.zhihu.com/p/474902137

3.机器学习:盘点最常见的7种数据预处理方法和原理——https://zhuanlan.zhihu.com/p/485962415?utm_id=0

4.大数据预处理方法——https://wenku.baidu.com/view/c68e82e3b84cf7ec4afe04a1b0717fd5360cb2b5.html?_wkts_=1706599332597&bdQuery=%E5%A4%A7%E6%95%B0%E6%8D%AE+%E6%95%B0%E6%8D%AE%E9%A2%84%E5%A4%84%E7%90%86%E6%96%B9%E6%B3%95

5.启动按钮,“数据要素x”红利释放——华西证券股份有限公司

6.数据要素全知道系列——东吴证券研究所

7.数据要素周度跟踪:2024有望开启数据要素产业元年——天风证券

你可能感兴趣的:(知识分享,大数据)