2022年中国湖仓一体平台市场研究报告|爱分析报告

摘要
为适应数据应用需求,大数据平台架构持续演进,历经数据仓库、数据湖两个阶段。2020年,湖仓一体概念提出,湖仓一体架构因能实现数据资产统一管理、降低数据冗余、降低大数据平台架构运维复杂性,将成为大数据平台的主流架构。
根据爱分析调研,2022年中国湖仓一体平台软件市场规模15.2亿元。其中,科杰科技市场份额占比11.1%,华为云占比9.5%,星环科技占比7.3%。爱分析预测,2025年,中国湖仓一体平台软件市场规模将达近100亿元,2022-2025年三年复合增长率为86%。

湖仓融合作为湖仓一体的先进架构,在ACID事务性、存算分离、批流一体、元数据统一管理等方面具有明显优势,未来将成为湖仓一体架构实现的主流技术。
要在竞争激烈的湖仓一体市场取得成功,厂商应当重点关注云原生、湖仓融合、Data Fabric、DataOps等能力的构建,以上能力将构成湖仓一体平台软件的技术壁垒。在布局上,需重点布局金融业,同时关注工业、交通等潜力行业。
01 湖仓一体架构介绍
1.1 大数据平台架构进入湖仓一体时代
随着数据量级持续扩展,数据类型多元化,以及数字化转型深入企业数据应用场景变得日益复杂,业务对于数据实时性的要求需要企业兼具批处理、流处理能力;复杂的业务类型又需要企业同时具备描述性分析、预测性分析、诊断决策性分析以及探索性分析等能力。相较数据仓库、数据湖,湖仓一体更能完全满足数字化转型企业对大数据平台的各种需求。这也预示着大数据平台架构历经数据仓库、数据湖两个阶段后,正式进入湖仓一体新时代。
图表3:大数据架构演进驱动因素
[图片]
1)企业数据分析需求推动数据仓库出现
20世纪90年代,为满足企业敏捷数据分析需求,基于联机分析处理(OLAP)的数据仓库概念开始出现并迅速发展。数据仓库能解决分散数据源的集成、分析问题并作为第一代数据分析平台开始被大范围使用。
图表4:数据仓库示意图
[图片]
2)海量异构数据的分析需求促使大数据平台进入数据湖阶段
21世纪互联网时代,社交媒体、搜索引擎等新应用层出不穷,为数据应用场景带来剧烈变化,数据体量从GB级提升至TB和PB级,原有大数据平台架构的可扩展性远远无法满足计算需求。同时文本、图像、语音等非结构化数据量急剧增长,异构数据低成本存储对大数据平台提出了新的挑战。数据湖以极低成本实现任意格式数据的统一存储、管理和分析,尤其适用于数据挖掘、预测、推荐等高级分析场景等优势开始被广泛应用。
图表5:数据湖示意图
[图片]
3)数字化转型时代,数据资产统一管理和共享服务推动湖仓一体发展
在实践中,数据湖本身具有明显的局限性,如数据湖对SQL标准、ACID特性的支持较差,数据质量难以保证,数据版本控制和索引功能也不足,难以完成批处理和流式作业融合,致使数据湖难以完全取代数据仓库,敏捷分析类的企业级应用场景仍然是以数据仓库为主。
数字化转型时代,企业需要采用新的架构实现海量异构数据的低成本存储和高效分析的同时实现数据资产统一管理和共享服务。
为兼具数据湖低成本存储、数据仓库高效分析的特性,企业尝试通过松耦合的方式分别承建数据仓库和数据湖。数据湖集中存储所有数据,数据仓库主要存储结构化数据。此种架构下,数据需要在两套架构间多次备份,产生数据孤岛、存储冗余、开发维护困难、数据响应周期长等问题。
2020年,Databricks首先提出“湖仓一体”的概念,湖仓一体是一种结合了数据湖和数据仓库优势的新范式。同期,国内技术厂商开始探索湖仓一体实践。本报告中,湖仓一体是指结合数据湖和数据仓库的新型架构体系,能实现海量异构数据的统一存储、计算、开发、管理和服务,支持多种高级分析引擎,为企业打破数据孤岛、提高数据应用价值。湖仓一体能有效解决数据孤岛、降低数据存储冗余,减轻系统维护难度,是在数据仓库、数据湖基础上升级后的新型数据架构,未来将广泛被大型企业采纳用于提升数据生产力,助力数字化转型升级。
1.2 实现湖仓一体的两种路线:湖上建仓和湖仓融合
业界对湖仓一体的探索存在湖上建仓、湖仓融合两种路线,湖仓融合代表未来趋势。
1.2.1 湖上建仓
图表6:湖上建仓架构示意图
[图片]
湖上建仓一定程度上实现了数据湖和数据仓库的结合。在这种架构中,多源异构数据先统一ETL至数据湖中进行集成、存储,再被ETL到数据仓库中,支持数据分析;同时也支持数据科学、数据挖掘、机器学习、深度学习等多种计算分析引擎访问。
但湖上建仓没有完全解决数据一致性、数据冗余等问题,并没有真正实现数据统一管理,而且从数据湖ETL数据到数据仓库的形式,也带来了ETL的复杂性。湖上建仓架构的不足体现在以下几个方面:
数据质量不可靠:数据从数据湖ETL至数据仓库中,数据湖和数据仓库的数据一致性需通过多个流式引擎处理,相较传统数据仓库的批处理,操作复杂度大幅增加,可靠性难以保证,极易产生数据一致性问题。
未实现全量数据对ACID事务性的支持:数据湖中的大部分数据仍是非结构化数据,数据仓库并不支持对数据湖数据的治理,数据湖数据仍不支持ACID事务性。
数据冗余未消除:湖上建仓本质上是数据湖、数据仓库两层架构,同一份数据仍以不同的模式存储在数据湖和数据仓库中,数据冗余并没有彻底消除。
数据仓库不支持机器学习、数据挖掘等计算引擎:以TensorFlow、PyTorch为代表的机器学习、深度学习框架需要使用非SQL代码处理大型数据集,不能直接访问数据仓库的内部数据格式,因而不适用于数据仓库系统。
1.2.2 湖仓融合
图表7:湖仓融合架构示意图
[图片]
如图所示,湖仓融合将数据湖多类型数据低成本存储优势与数据仓库高效分析能力融合,通过事务层实现元数据统一,彻底消除数据孤岛、数据冗余,以一套数据实时、准确地支持多种工作负载,加速数据共享流动和价值挖掘。
湖仓融合在数据湖上增加事务层,事务层具备诸如事务管理、统一元数据、索引、事务版本和状态控制、数据目录以及支持湖表格式等功能。事务层支持数据用户灵活读取多类数据,以一份数据支持BI、可视化、数据科学、机器学习等多种计算引擎。事务层使得数据湖在实现对结构化数据、半结构化数据、非结构化数据的统一管理的基础上,具备ACID事务性。目前,Delta Lake、Apache Iceberg、Apahce Hudi等数据湖解决方案均已实现数据湖上的事务层。
而在数据实时分析需求、数据分析体量、资源动态扩展等需求的驱动下,存算分离和批流一体也已成为湖仓融合的必备功能。
此外,对于多数据源系统,湖仓融合也能通过数据虚拟化实现多源系统数据资产的统一管理。
基于国内外企业用户的数字化成熟度和应用场景差异,国内外湖仓融合的产品功能略有差别。
国外湖仓融合厂商侧重垂直技术能力的实现,如Databricks侧重底层湖仓一体架构的实现以及对机器学习的支持,在数据管理和数据应用如数据质量、数据治理、数据指标等方面通过提供丰富、开放的数据API,与生态第三方合作实现。
国内湖仓融合厂商,相较国外企业的垂直技术能力,平台属性更明显。如科杰科技基于湖仓一体具备一站式数据平台能力,提供从数据采集、数据开发、数据治理、数据资产管理、数据建模分析到数据服务等全链路数据能力,更适应国内企业需求。
1.2.3 湖仓融合是湖仓一体架构的未来
爱分析认为,数字化转型时代,湖仓融合更能有效满足企业对多元应用场景的复杂需求,成为湖仓一体架构的主流技术路线,具体原因如下:
1)湖仓融合在数据计算、数据管理、数据应用方面均有明显优势,更好地满足企业数据资产统一管理需求
数据计算方面:湖仓融合路线真正实现基于一套数据的开发、计算和管理,彻底消除数据冗余,在ACID事务性、存算分离、批流一体、实时分析等方面具有明显优势;
数据管理方面:以一套数据支持实现数据工程DataOps和先进数据管理理念Data Fabric;
数据应用方面:以一套数据支持BI、可视化、数据科学、机器学习等数据应用场景,实现多场景融合分析。
图表8:湖上建仓、湖仓融合功能对比
[图片]
2)湖仓融合降低数据迁移风险和成本,为大中型企业的数字化转型提供成熟的解决方案
大中型企业在数字化转型过程中,已经形成数据湖、数据仓库、专用数据库、云存储、大数据平台、流数据处理平台等多种系统并存的复杂架构。企业既有系统与业务深度融合、运行稳定,系统效能仍有潜在利用空间,企业希望既有建设成果继续复用。湖上建仓需要企业将既有系统中的数据迁移进新数据湖,用新的湖仓引擎彻底替换掉既有的数仓和数据湖引擎,再基于湖仓一体实现数据的统一存储、开发和管理。这不仅会带来巨大的迁移成本以及数据迁移安全风险,也意味着企业需要摒弃旧有的数据仓库、数据湖等架构,原有的架构效能将被浪费。
对比之下,湖仓融合能通过数据虚拟化以逻辑的方式实现对数据库、数据仓库、数据湖以及云上数据的统一组织、管理和共享,降低数据迁移风险和迁移成本。
3)湖仓融合行业团体标准初步确立,市场定义和实践路径逐渐形成共识,加速湖仓融合商业化进程
中国信息通信研究院已于2022年9月组织完成《云原生湖仓一体数据平台技术要求》主体内容研制工作,明确湖仓一体的的五大能力域,为湖仓融合厂商和企业用户评估湖仓融合平台产品的研发方向和技术能力提供评估标准。湖仓一体标准的确立将规范市场竞争,加速湖仓融合商业化落地。
02 湖仓一体平台软件市场规模
2.1 湖仓一体平台软件定义
中国大数据IT投资包括硬件、软件和服务三部分。软件部分即指大数据平台软件,根据引擎不同可将大数据平台软件分为数据湖引擎和湖仓一体引擎。
本报告中,将基于湖仓一体引擎架构实现的大数据平台软件定义为湖仓一体平台软件。
2.2 中国湖仓一体平台软件市场规模
图表9:湖仓一体平台软件市场规模及增速
[图片]
爱分析测算,2022年湖仓一体平台软件市场规模为15.2亿元,未来三年复合增长率为86%,预计2025年市场规模将达到近100亿元。
大数据平台软件市场持续增长,湖仓一体引擎快速崛起。2022年起,国家层面先后发布《关于构建数据基础制度更好发挥数据要素作用的意见》、《全国一体化政务大数据体系建设指南》等文件,企业对数据驱动、对数据价值的重视进入新高度,将推动大数据平台市场快速增长。根据IDC数据,中国大数据平台软件市场2022-2026年复合增长率接近28%。而湖仓一体的复合增长率86%远高大数据平台增长率,预示代表更先进技术能力的湖仓一体将迎来高速发展,湖仓一体将成为未来主流引擎。
企业原有大数据平台架构能力不足以满足数字化时代企业需求,促使湖仓一体引擎的渗透速度加快。存量市场,湖仓融合的技术先进性决定了其能平滑替代企业数据仓库架构、数据湖架构,不断提升湖仓一体引擎在企业大数据平台的占比。增量市场,从数据管理成本和运维成本出发,很多企业更加愿意直接采取湖仓一体引擎这样的新大数据平台架构。
2.3 湖仓一体平台软件厂商能力要求
信通院《云原生湖仓一体数据平台技术要求》认为,云原生湖仓一体平台能力划分为湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理以及湖仓其他能力等五大能力域,具备存算分离、存储分级、弹性能力、多场景融合分析、多计算模式支持、统一元数据管理等特征。
爱分析参考该要求,结合调研,对湖仓一体平台软件厂商应具备的基础能力进行提炼总结如下:
1)存算分离:具备存算分离技术,存储资源和计算资源可各自独立扩展、弹性管理、按需伸缩。
2)批流一体:支持批流一体,实现多模态数据融合实时分析,提高数据分析效率。
3)ACID事务性:具备完善的ACID事务机制,支持原子性、一致性、隔离性、持久性,保障不同用户在查询和计算一份数据的一致性。
4)元数据统一管理:基于元数据管理标准,对数据湖与数据仓库的元数据进行统一采集,形成统一元数据目录。
5)多模数据存储及存储分级:平台支持HDFS文件存储和S3/OSS对象存储,支持结构化、时序、文档、图像等多模数据存储为统一湖表格式,可按需冷热分级存储,数据可在数据湖和数据仓库之间自由流动。
6)支持多计算引擎:内置引擎路由的能力,支持离线计算引擎、实时计算引擎、交互式查询引擎等多种引擎,并支持机器学习、深度学习框架,为数据集成和开发提供多种计算环境,供客户按需选择。
7)多场景融合分析:支持BI、可视化、数据科学、机器学习等应用场景分析。
8)DataOps:提供完善的软件工程和数据管理组件和工具,软件工程包括数据协作、数据开发、数据部署、编排、测试监控等,数据管理包括数据获取、数据集成、数据准备、数据治理、数据建模等,提高数据管理、数据应用、数据开发协作效率。
9)Data Fabric:支持通过数据虚拟化对分散的、多源的数据基础架构数据进行逻辑统一管理,形成完备的数据资产,支持数据业务表达,将数据转化为业务可理解的指标、标签,满足业务用数需求,加速数据价值挖掘。
2.4 湖仓一体平台软件厂商全景图
图表10:湖仓一体平台软件厂商全景图
[图片]
湖仓一体趋势下,主流厂商纷纷推出湖仓一体产品或解决方案。主流厂商类型覆盖广泛,涉及云厂商、数据库厂商、数据仓库厂商、数据中台厂商、大数据基础软件厂商等。主流厂商的积极研发投入侧面验证了湖仓一体的趋势和未来,但不同产品的实现路线(湖上建仓抑或是湖仓融合),产品的性能与稳定性以及解决方案的成熟性等均有待客户和市场的长期检验。目前,各类型厂商在实现湖仓一体的路径和行业布局上有较明显区别:
1)云厂商
实现路径:基于自身IaaS云基础能力,构建云生态或软硬一体化的湖仓一体解决方案。
行业布局:依托于云能力面向政府政务和互联网企业提供湖仓解决方案,如华为侧重政府政务,阿里云面向互联网。
2)数据库、数据仓库厂商
实现路径:以单一技术路线为主,在自身数据库、数据仓库的基础上实现湖仓一体方案。
行业布局:优先在数据库、数据仓库的深入性行业如金融、政府提供服务。
3)数据中台服务商
实现路径:在数据中台的计算引擎层提供湖仓一体架构,通过数据集成、数据开发、数据治理形成数据资产,为数据消费者提供结构化、非结构化湖仓数据。
行业布局:优先服务零售消费、先进制造、生物医药等新经济行业的集团型企业以及部分金融企业。
4)大数据基础软件厂商
实现路径:采用湖仓融合的技术架构,对数据存储计算引擎进行独立研发,兼容上游数据库、数据湖与下游数据中台应用系统,提供开放的湖仓一体引擎。例如KeenData Lakehouse湖仓一体基础数据底座,一方面,面向上游兼容纳管数据库、数据仓库、数据湖等多源异构系统;另一方面,面向下游提供完善的基础平台能力,如基于DataOps理念的数据工程体系支持数据低代码开发;数据治理与数据工程融合可实现主动元数据探查、基于AI增强的数据血缘分析等主动实时的数据治理;以及基于数据虚拟化提供智能指标、智能标签等数据业务表达能力。
行业布局:以独立引擎提供兼容性的湖仓能力,可在金融、政府、能源、零售、汽车等全行业实现落地。
2.5 湖仓一体平台软件市场份额
图表11:2022年湖仓一体平台软件市场份额占比
[图片]
2022年,在湖仓一体平台软件市场中,科杰科技市场份额占比11.1%,位居第一。华为云、星环科技市场份额占比分别为9.5%、7.3%,分别位列第二、第三。
科杰科技湖仓一体产品KeenData Lakehouse融合湖仓一体、DataOps、Data Fabric等理念,为企业提供覆盖数据生命周期的一站式数据底座平台搭建服务。科杰科技的服务范围辐射国内以及亚太地区,覆盖金融、工业、能源、汽车、零售等众多行业头部客户,如中国联通、中国石化、中国一汽、国家电网、吉利汽车、中金公司、永旺集团等公司。
华为云湖仓一体产品FusionInsight为客户提供完整的大数据云服务产品组合,基于云计算软硬一体优势和专属云服务,FusionInsight已经广泛应用于政务、金融、通信、交通等行业。
星环科技湖仓一体产品大数据基础平台TDH具有云原生、多模态异构存储、1湖N仓多租户体系、自主可控等特点,星环科技凭其高度独立自主的特性,在信创领域如金融、政务积累丰富客户。
2.6 代表厂商介绍
2.6.1 科杰科技
科杰科技是国内领先的大数据&AI技术创新公司,专注于提供复杂场景下大数据基础软件产品服务;核心技术团队均来源于头部互联网企业的大数据基础技术研究部门,致力于通过基础软件能力的研发创新为企业提供数据存储计算引擎、数据管理、开发挖掘、运维一体化的整套方案,助力企业快速构建数据能力,实现高度规范化、敏捷化的数据工作协同与数据应用创新。
科杰科技核心产品湖仓一体数据智能平台 KeenData Lakehouse是基于云原生技术自主研发的数据底座产品,提供端到端的一站式大数据基础软件解决方案,帮助企业实现IT到DT的转型。产品应用了包括Data Fabric、Active Metadata Management、Data Mesh等在内的多项领先技术,融合了DataOps和Observability理念,将数据开发IDE化、流程化、协作化和自动化,同时产品工程化能力和治理能力相融合的设计能极大降低IT技术人员和半IT技术人员工程的难度,提高企业自治理能力。
图表12:科杰科技湖仓一体数据智能平台 KeenData Lakehouse技术架构图
[图片]
2.6.2 Databricks
Databricks是一家全球领先的大数据公司,由Apache Spark、Delta Lake和MLflow的原始创建者于2013年成立。Databricks在云上建立Lakehouse架构,结合了数据仓库和数据湖,为数据和AI提供开放统一的平台。
Databricks 湖仓一体平台软件包含Delta Lake、数据科学工作区、机器学习、SQL分析以及安全管理等核心功能。Delta Lake是开放格式的存储层,能实现事务性和数据版本控制,形成统一元数据目录,将异常数据以统一的Parquet数据格式供各种API和引擎调用。数据科学工作区支持Notebook建模,支持SQL、Spark任务开发。机器学习提供了一个集成的机器学习环境,为简化ML开发流程提供数据工程能力,如数据探索、管理和治理、特征工程等。SQL分析使企业能在数据湖上运行数据仓库负载。安全方面,Databricks 提供基于角色的访问控制。
图表13:Databricks湖仓一体架构图
[图片]
Databricks与科杰科技采用相同的湖仓一体技术架构,两者产品均覆盖存算分离、批流一体、ACID事务性、Data Fabric 等特性,区别在于Databricks充分利用云生态工具,依赖云服务的运维能力,支持客户自定义丰富的场景建设和拓展,这点对于客户要求比较高;科杰科技在企业级DataOps、Data Fabric的实践落地上提供标准的能力和解决方案,客户可以依托KeenData Lakehouse快速实现场景构建。
03 对湖仓一体厂商的建议
3.1 重点关注云原生、DataOps和Data Fabric与湖仓一体平台的融合
3.1.1 云原生技术能够极大释放湖仓一体平台的价值
云原生是一套全新的IT技术体系,包括容器、Kubernetes、微服务、服务网格、DevOps、可观测等关键技术。爱分析认为,云原生技术具有松耦合、自动化、弹性调度、按需分配计算资源、容错性高等特点,能够极大程度释放湖仓一体平台的价值,具体原因如下:
1)核心关键组件容器化封装,提升部署交付效率,能够更加灵活地满足不同企业的业务需求。
2)存算分离降低数据存储成本,提升数据计算效率。
3)自动化编排调度,降低湖仓一体平台的运维成本。
3.1.2 DataOps、Data Fabric能够放大湖仓一体平台的应用价值,提升湖仓一体平台的竞争优势
数字化时代,企业IT部门需要满足业务部门日益增长的数据消费需求,建立长期高效的数据运营体系至关重要,DataOps和Data Fabric都是解决上述问题的实践方法。
DataOps是先进的数据工程理念,覆盖数据获取、数据集成、数据准备、数据治理、数据分析与建模等全流程,提供数据协作、数据开发、数据部署、编排、测试与监控等功能,能大幅提升数据开发管理效率。
Data Fabric作为前沿的数据管理理念,能实现主动实时的数据治理,改变企业传统、被动的数据集中管控、集中治理的局面,如Data Fabric的元数据主动发现功能可以自动检测到数据源的变化,并通知到下游使用数据的算法和模型,或是提前判断数据的可预测性错误予以警告,加强湖仓一体中的数据标准、主数据管理、数据质量、数据资产目录等功能。
尤其湖仓融合已经基于数据虚拟化技术实现异构系统数据集合,以及全量数据建模、数据治理等功能,是Data Fabric理念的阶段性落地,未来,湖仓融合将推动Data Fabric技术在企业内的快速落地应用。
3.2 重点布局金融,关注工业、交通等潜力行业
金融业湖仓一体架构渗透加快,其他行业认知待提高。金融行业对多源实时数据分析场景需求强烈,如智能营销、智能风控、客户行为等的实时分析。金融行业的数字化转型进程领先,因此也是各行业中率先实现湖仓一体落地的行业。目前金融行业的湖仓一体建设进程从国有商业银行向股份制商业银行、地方性商业银行渗透,以中国银行、中国建设银行、光大银行为代表的大型商业银行已经完成湖仓一体平台搭建,中小型城商行也纷纷开展数据架构升级,采纳并建设湖仓一体架构。金融业湖仓一体架构价值已经获得验证,在行业标杆影响下,未来3-5年,金融业的湖仓一体架构建设将保持高速发展趋势。
其他行业如工业、交通、政务、零售等行业因数字化建设进程稍落后于金融行业,未来2-5年将迎来需求爆发。
工业企业湖仓一体需求明晰。在IoT环境下工业企业数据体量大且持续增长,企业自身数据化水平低造成数据采集汇聚困难、数据治理水平低、数据利用率低、数据流通共享难度大等问题。同时激烈竞争环境下工业企业对实时数据分析需求快速增长,如生产过程实时监控,客户需求实时预测等。湖仓一体的数据融合、存算分离、批流一体等特点将为企业落地工业互联网提供简单、便捷的解决方案。在工业互联网落地推广趋势下,爱分析预测,工业企业对湖仓一体的需求将在2-3年内爆发。
交通领域头部企业湖仓一体架构需求强烈。智慧交通趋势下,大型交通企业已启动建设跨地域的统一协同指挥调度云平台,以支持应急管理、实时指挥调度等。为实现平台建设,需要整合运管、公管、铁路、航空,以及交警、旅游、气象等多源数据进行融合、实时计算。湖仓一体契合交通企业需求,将加快在交通领域的落地速度。爱分析预测,交通领域实现大规模湖仓一体落地需要3-5年。

你可能感兴趣的:(大数据)