数字化进入深水区,湖仓一体让企业具备立体化数据能力丨爱分析访谈

[图片]
自“信创”概念提出以来,国家政策大力支持数据基础软件发展,推动国产基础软件市场快速增长。与此同时,业务侧对数据分析、数据挖掘、数据探索的广泛应用也反推企业升级底层数据架构,通过优化数据引擎支撑数据开发、数据资产管理、数据应用等数据能力建设。国产基础软件发展正当时。
近期,爱分析深度访谈科杰科技联合创始人兼副总裁郭振强,就数据引擎演进趋势、数字化转型对国产基础软件新要求、湖仓一体引擎对数据能力的支撑作用以及科杰科技湖仓一体数据智能平台产品优势等问题展开了探讨。
[图片]
科杰科技
科杰科技是国内领先的大数据& AI 技术创新公司,专注于提供复杂场景下大数据基础软件产品服务,致力于通过基础软件能力的研发创新为企业提供数据存储计算引擎、数据管理、开发挖掘、运维一体化的整套方案,助力企业快速构建数据能力,实现高度规范化、敏捷化的数据工作协同与数据应用创新。其核心产品湖仓一体数据智能平台 KeenData Lakehouse,是基于云原生技术自主研发的数据底座产品,提供端到端的一站式大数据基础软件解决方案。
郭振强认为,随着数字化转型深入,企业需要构建立体化的数据能力体系,包括具备兼容纳管特征的湖仓一体架构和多架构融合能力、数据工程化能力、数据自治理能力、集中式管治与分散式赋能的混合数据能力,以及数据驱动型组织能力,以支撑企业实现跨越式的规模增长。
针对能力建设实现路径,郭振强认为,中国企业应直接借鉴国内外行业最佳实践的落地经验,避免自己摸索走弯路。

01 湖仓一体是企业数据引擎演进必然趋势
爱分析:为什么说湖仓一体是数据引擎演进的必然路径?
郭振强:从数据引擎的发展进程来看,传统的结构化数据使用 Data Warehouse,主要面向 BI 场景。随着半结构化、非结构化数据的丰富,企业开始使用 Data Lake。Data Lake 主要支持实时计算及 AI 场景。尽管 Data Lake 比 Data Warehouse 具备更好的开放性与灵活性,但其在 OLAP 性能、数据一致性和 ACID 能力等方面存在不足或缺失,使其无法取代 Data Warehosue 。
于是,为支持复杂的业务场景,在企业的数据引擎环境中,Data Warehouse 与 Data Lake 并存的情形更常见,如银行的数据引擎中,Data Warehosue 与 Data Lake 长期共存、割裂,这使得数据需在两套引擎中重复执行 ETL 、转化等任务,带来了复杂、高昂的开发维护成本,以及数据不一致、数据资产分散等问题。
为解决以上多引擎割裂、引擎使用效率低等问题,主张湖仓融合的新概念“ Lakehouse ”成为大型企业数据引擎升级正式提出,Lakehouse 也代表了数据引擎演进的未来趋势。
需要补充的是,国内大型企业已经呈现出对数据引擎升级的强烈需求。而在国内强调信创、推进自主可控的大环境下,具备湖仓一体能力的国产基础软件厂商将成为企业数据引擎升级的首选。
图1:基于湖仓一体实现多架构融合逻辑统一
[图片]
爱分析:科杰科技认为湖仓一体架构应具备的特征是什么?
郭振强:目前市场中湖仓一体技术实现上,有湖上建仓和湖仓融合两种方式。湖上建仓,是数据先入湖,再将数据湖中的数据进一步 ETL 到数据仓库中,来满足 BI 分析。这种方式不能在一个存储引擎中完成多类型数据格式的转化,是一种不彻底的、过渡性的方案。相对来说,湖仓融合是更彻底、也更具生命力的方案。
考虑到湖仓一体的落地实践,科杰科技认为,湖仓一体除具备最先进湖仓融合引擎外,还需要具备对企业过往技术栈的兼容纳管能力。当前很多企业数据能力建设不是从 0 到 1 ——从头开始构建,而是从 1 到 N ——对现有能力的进一步提升,如金融行业在对既有 Data Warehouse、Data Lake 技术栈进行升级时,考虑到数据迁移的巨大成本和原有架构效能的持续发挥,不支持数据的大规模迁移,这意味着湖仓一体不仅不能彻底替换企业旧有的数据架构,还需要充分“利旧”、实现既有建设成果的复用。
科杰科技湖仓一体数据智能平台 KeenData Lakehouse 不仅能提供基于湖仓融合的统一性引擎,同时具备面向传统 Data Warehosue、Data Lake 以及 Object Storage (云数据存储)等架构进行纳管的能力,使企业在不迁移历史数据的前提下,以最低成本实现数据架构与引擎的统一,降低架构复杂性、实现数据统一管理。

02 湖仓一体为企业立体化数据能力构建提供稳固支持
爱分析:数字化转型进入深水区,企业对自身数据能力的要求发生了哪些新变化?
郭振强:数字化转型深入正推动企业业务端崛起。我们看到,数字化建设提升了企业整体数据采集、数据分析的能力,激发一线业务端产生更多数据分析需求,如需要几十张或更多报表支持业务决策、持续探索数据建立高效模型等。
而业务端的崛起正催生新的数据能力体系,要求数据存储引擎、数据开发、数据资产管理以及数据应用等能力全面升级,以实现数据驱动型组织的建设。具体包括以下五个方面能力建设:
第一,如前所述,企业需要具备兼容纳管过去的存储引擎和面向未来的更好的弹性扩张能力。通过湖仓一体实现统一的数据存储、加工计算和面向应用端的供给,尤其面向多引擎需支持多引擎架构融合的逻辑统一,以解决多引擎割裂、引擎使用效率低的问题。
第二,需要构建数据工程能力以应对广泛的数据分析与规模化的数据应用。在信息化时代,企业的IT部门已经建立起面向流程的软件工程能力,实现软件的快速构建、测试、部署和发布。而在数字化时代,面对规模化的数据应用需求,企业也需要建立数据工程体系,将单点的、零散的、组合式的数据技术使用转变为大规模工程化协同、数据产品化,降低数据使用门槛,向广泛的 IT 技术人员和半 IT、半技术人员赋能。科杰科技认为,数据工程应包含数据管理、软件工程、数据基础架构与运营自动化。但在实际中,企业往往仅关注数据管理工作,忽视了数据软件工程能力、数据基础架构和运营自动化能力建设,导致数据开发效率低下,难以满足业务需求。
图2:数据工程的三个核心实践
[图片]
第三,具备数据资产自治理能力。在信息化时代,企业的数据治理以专项形式开展,每间隔 1-3 年请咨询公司做一次自上而下的梳理,梳理之后对数据资产进行严格的管控,是一种被动的、静态的管控形式。但在数字化时代,数据生产端数据在快速变化,包括系统上下线、数据结构的快速调整;数据消费端数据需求井喷,如基于算法和模型的数据智能创新项目批量出现。在数据生产和数据消费两端都在高速变化的情形下,中间数据资产也需要快速变化,传统静态被动的管理方式已经不能满足业务需求,企业需要建立以结果为导向的敏捷、自适应的数据治理能力。
第四,兼具数据资产集中式管治与分散式赋能的混合数据服务能力。数据驱动型组织要求企业 IT 部门对数据工程化、数据管理、数据基础设施进行集中式管控,实现数据资产与数据的统一管理和融合,以全局视角审视数据资产的价值贡献;同时在业务侧需与业务高效协作,为业务侧可视化大屏、报表、自助分析、 BI 等分析场景,以及推荐引擎、动态定价、知识图谱等智能应用场景进行分散式赋能。但目前企业的痛点一方面来源于多种数据架构导致的数据资产分散;另一方面也来源于当企业尝试用数据资产对业务赋能时,数据资产的技术属性不符合一线业务人员日常“业务语言”的使用情境,造成数据资产“虽有但难用”的现状。针对以上痛点,企业需要数据虚拟化和数据业务表达,来构建混合式数据能力。
第五,建设数据驱动型组织的能力。如何在组织层面设置合适的职责、角色,设置一套有机协作和运转机制,使得企业不同部门不同角色的数据工作参与者能高效沟通,促进数据在企业内部高速流转,也是当前企业普遍面临的难点。
爱分析:湖仓一体架构在企业数据能力体系构建中发挥怎样的作用?
郭振强:对于企业来说,正是湖仓引擎、数据开发工程、数据资产业务表达化的贯连构成立体化数据能力体系,实现数据技术平民化与业务端数据价值的充分利用。在这套立体化的能力体系中,具备兼容纳管能力的湖仓一体架构,其对多源异构数据的统一管理和分析能力使数据虚拟化与业务表达的实现变得更为便捷。
爱分析:您对企业构建体系化能力路径有什么建议?
郭振强:在信息化到数字化再到智能化的过程中,不同行业的各个企业,应该根据具体企业数字化建设情况,规划并满足业务未来发展所需要的数据能力。在能力建设上,应直接借鉴国内外行业最佳实践的落地经验,避免自己摸索走弯路。科杰基于众多行业头部标杆客户持续落地和持续服务的最佳实践经验,可以更好的赋能更多行业客户的数据能力建设,加速数字化转型进程。

03 科杰科技 KeenData Lakehouse 为企业自主、立体化数据能力体系构建提供标准化产品和最佳实践指引

爱分析:科杰科技选择数据底座赛道的缘由和产品布局思路是怎样的?
郭振强:科杰的创始团队在大数据技术领域从事多年,观察到企业在存储计算性能、数据开发效率、数据资产管理等方面能力的缺失或不足,已经无法满足前端业务爆发式增长的数据应用需求,这是数字化转型深水区企业普遍面临的困境。企业需要建立一套数据技术、数据管理、数据服务与数据应用高效协作的体系。在可预见的未来,企业数据能力将与财务能力、供应链能力一样成为企业必不可少的能力。
同时,具体到未来企业数据技术的应用趋势上,科杰从不跟风热点,而是有较为清晰的判断。综合考虑技术演进趋势和企业数字化发展需求,我们认为湖仓一体、云原生、兼容纳管、数据工程化、数据资产业务表达等数据技术将成为企业数据能力构建的关键。
基于以上判断,科杰希望能为大型企业组织提供一套由大数据基础引擎和各类开发工具构成的,满足数据资产管理、实现数据开发和业务协同的完整的解决方案,为企业提供数据能力构建的最佳实践。科杰科技自成立以来,在研发上持续投入,推动技术创新突破,目前已经实现 Data Fabric、Active Metadata Management、Data Mesh等多项领先技术,并将 DataOps 和 Observability 等理念融入产品中,形成覆盖数据价值链条的完善的产品体系。
爱分析:科杰湖仓一体数据智能平台 KeenData Lakehouse 平台的竞争优势体现在哪些方面?
郭振强:KeenData Lakehouse 的竞争优势体现在技术先进性、数据底座能力构建以及信创支持等方面。
首先,KeenData Lakehouse 具备先进的底层架构技术。KeenData Lakehouse 实现了存算分离、ACID 事务性、批流一体、湖仓一体等技术创新,且湖仓一体引擎支持对多架构的兼容纳管。融合以上技术,科杰在计算能力上具备弹性伸缩能力,在计算性能上支持万台节点、千人协同规模验证,在数据资产上建立逻辑统一数据仓库、实现数据资产统一管理。
图3:科杰科技湖仓一体数据智能平台 KeenData Lakehouse 技术架构图
[图片]
其次,KeenData Lakehouse 具备完善的产品体系,能协助企业实现数据底座最佳能力构建。多年来,科杰在为大型企业服务中总结出一套复杂业务场景下数据能力构建的最佳实践方法论,包括数据工程能力、数据自治理能力、基于 Data Fabric 理念的数据资产管理能力以及面向不同组织角色融合的 DataOps 全流程服务能力等,这些能力共同构成企业数据底座能力。
具体来讲:
在数据工程能力方面,科杰科技通过提供 Studio 的工具,将数据开发 IDE 化、流程化、协作化和自动化,可为企业建立起一套兼具数据管理和软件工程能力的数据工程体系。其中,在数据管理方面,科杰科技为企业提供数据获取、数据集成、数据准备、数据治理和分析与建模等功能。软件工程方面,为企业提供数据协作、数据开发、数据部署、编排以及测试与监控等功能。该数据工程体系能帮助企业实现低代码开发,使数据开发平台更易用,实现数据产品规模化开发。

数据自治理能力方面,科杰将数据治理与数据工程相融合,帮企业建立自适应的数据治理体系。KeenData Lakehouse 将访问控制、管道连接、数据合并、主动元数据探查等技术融入数据工程中,提供基于AI增强的数据异常检测和数据血缘分析,加强对数据标准、主数据管理、数据治理、数据资产目录的管理,形成主动、实时的数据自治理系统。

对于数据资产管理能力的构建,科杰科技具备基于 Data Fabric 理念的数据虚拟化和数据业务表达技术,协助企业实现数据资产赋能业务。数据虚拟化使企业分散的数据资产实现逻辑统一,数据业务表达可将数据翻译成指标、标签等业务可理解的数据资产,供业务自由使用。

关于 DataOps 运营能力建设,科杰科技在服务大型企业客户的过程中发现,CDO 数字化转型官是推动数字化转型落地的关键,许多企业已经配置了类似的角色或部门,如 CIO、 CDO、科技部以及数字化转型办公室等。科杰通过指导 CDO 体系下不同职能单位和角色人员的配置,帮助企业建立一套数据技术、开发、管理、发布和业务协同一体化运作机制,实现组织性的开放赋能和持续性的价值运营,帮助企业达成数据驱动型组织建设愿景。

除技术先进性和能力构建支持外,KeenData Lakehouse 平台也极具信创优势。平台产品均为科杰科技自主研发,全栈产品全面兼容国产化软硬件产品,支持信创环境,全面支持国产替代。
总结来看,卓越的技术创新、一套各行业数字化转型通用的标准的企业软件以及为企业面向未来发展提供不可或缺的能力建设支持,这三点是科杰能向金融、工业、能源、汽车、零售等多行业大中型企业客户进行推广和建设,形成规模化业务的关键要素。
爱分析:科杰科技在湖仓一体产品方面有哪些发展规划?
郭振强:KeenData Lakehouse 为各行业数字化转型的数据底座构建提供基础软件产品和产品能力,后续在一些重点行业上的垂直能力建设是一个方向;此外,大模型产业落地的中间件基础软件研发是另一个方向。大模型在产业落地应用时,需要有对应的大模型中间件支撑对语料数据进行汇聚集成、预处理、标注以及进一步加工处理的工程化能力,并且需要具备应用价值链接的服务能力,科杰平台产品 KeenData Lakehouse 完全涵盖大模型中间件所必需的能力,将为促进产业大模型实践落地提供核心底座能力支撑。

你可能感兴趣的:(大数据,数据库)