最近几年,"数据湖"正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在"数据湖是什么"上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可能的原因是,数据湖将代表大数据和AI时代融合存储和计算的全新体系,特别是数据湖和云原生结合以后,这一趋势更加明显。要想理解这一点,还要从数据湖的发展说起。
2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。詹姆斯·狄克逊把数据湖中的数据比作原生态的水——它是未经处理的,保留原始结构的。
数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。于是,早期业界和用户多把数据湖定义为一个集中式的储存原始格式数据的系统,可存储任意规模的结构化、半结构化、非结构化及二进制的数据。
随着大数据技术的融合发展,数据湖的边界不断扩展,内涵不断变化,逐步演变成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。
这就让数据湖与数据仓库有了很大的不同。
数据仓库诞生于数据库时代,它的核心思路是把数据库众多数据进行一定格式转换后,定时地复制到另一个库里做列式存储,从而满足企业查询和数据分析的需求。
在过去,很多企业的数据以ERP、CRM数据为主,数据规模往往是TB级,企业通常在本地采用数据仓库解决方案来存储和分析数据。但数据仓库这种方式模型范式固定,底层数据无法做到多样变化。
随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。
传统的数据仓库无法满足大数据时代企业对于实时、交互式分析等方面的需求,而数据湖择了"前松后紧"的设计思路,初始化阶段放弃严格的模式,后置schme,从而获得更强的灵活性,同时通过统一存储和计算优化来保证数据的一致性和性能,这就让数据湖开始在大数据领域逐渐受到关注。
发展至今,数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。
随着以Oracle为代表的数据库中间件越来越难以满足企业业务迅速变化带来的数据处理需求,IT业界不断地产生新的计算引擎,比如,企业开始纷纷自建开源Hadoop数据湖架构,原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主,存储和计算一体。
**但这种架构的缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。**在这种情况下,云上托管Hadoop数据湖架构(即EMR开源数据湖)应运而生。底层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在HDFS系统上,引擎以Hadoop和Spark开源生态为主。这个架构通过云上IaaS层提升了机器层面的弹性和稳定性,使企业的整体运维成本有所下降,但企业仍然需要对HDFS系统以及服务运行状态进行管理和治理,即应用层的运维工作。
因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不是最优。同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目标。
而云计算可以让数据湖发挥出最大的价值与作用。云计算拥有极为灵活、弹性和可扩展的计算存储资源,使得数据的存储、分析和应用变得无比容易;而数据湖最大的价值在于将企业内各种格式的数据统一汇聚,在一份数据之上进行多种分析,高性价比且高效地挖掘数据价值,特别是数据湖的设计思路与云计算天然契合,因此自2010年数据湖概念被提出以来,云服务商是数据湖概念走向落地的重要推手。
随着云原生时代到来,当数据湖以云原生(当提到云原生时,很多人的第一反应是Serverless、容器化这些概念,其实近些年来,云原生的概念逐步泛化,涵盖了很多产品服务,从某种程度上讲,云原生是一种分布式系统的设计范式,这种范式具备弹性、安全、稳定等特征)的方式部署时,其强大的性能优势可以被最大化释放。
一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用(相较于自建IDC,云环境拥有更多的资源冗余,一节点发生故障可以无缝切换到其他节点,确保业务的连续性)、弹性(云计算具备动态扩充性与可负担性,可以解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求)、敏捷(云让企业从重复、复杂的底层IT工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维与创新)。
另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流失处理和批式处理的融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。这就让企业得以有效利用公有云的基础设施,数据湖平台也有了更多的技术选择,比如云上纯托管的存储系统逐步取代HDFS,成为数据湖的存储基础设施,并且引擎丰富度也不断扩展。总之,云特有的"池化、弹性、敏捷"等特性,让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。
如果对云原生数据湖做一个概括的话,云原生数据湖是大数据计算平台借助云计算理论发展出来的新技术产品,其支持异构数据灵活存储、计算资源弹性伸缩,能够帮助企业应对当前数据结构愈发复杂、数据处理时效性要求不断变高的业务环境。
也就是说,云原生数据湖只是一种架构原理,其具体实现的方式多种多样,基于EMR可以做云原生数据湖,基于Flink也可以做云原生数据湖。
不过需要说明的是,虽然中国数据湖技术正在逐年发展与突破,公有云厂商及其他厂商纷纷在尝试,但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足。总的来说,我国数据湖市场整体发展处于初期阶段,技术路线不统一,业内产品能力良莠不齐。
从应用现状来看,数据湖在国内的落地还存在许多痛点。
产品层面,数据湖的数据治理能力和全链路能力仍需要进一步加强。
就数据治理而言,数据治理要求在目录中包含数据的分类、规则,如果企业对于数据湖的掌控能力不足,会导致数据湖目录及整体架构设计不良,湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽无法进行数据检索,致使用户无法有效分析和利用数据。
就全链路能力而言,现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因此下游需求企业只能采购多家供应商来满足自身从数据采集治理到分析可视化的需求。
应用层面,云原生数据湖的行业认知和人才培养较为薄弱。人才方面,目前大数据、AI技术栈的发展日新月异,企业缺乏专业人才。从企业内部来看,管理者对数据治理一知半解,若在没有深入梳理企业业务现状及需求的情况下盲目搭建数据湖,追求大而全的概念,可能导致数据湖的落地效果不佳。行业认知方面,尽管数据的价值属性已经获得业界的广泛共识,但是选择观望的企业仍旧占绝大多数,数据湖在认知和推广上仍面临多方面的挑战。
另外,随着企业数字化转型进入深水区,数据已经成为企业的核心生产要素,而数据湖的最大风险之一就是安全性和访问控制。大量数据在没有任何监管的情况入湖泊,一旦某些数据包含其他数据没有的隐私和法规要求,将可能发生数据泄露和遗失,带来不可估量的后果。
当然,任何一个行业在发展初期都会存在这样那样的问题,有不完善的地方恰恰意味着这个行业还有发展的空间。根据艾瑞咨询的分析,由于国家政策利好,比如国家接连出台《促进大数据发展行动纲要》《全国一体化大数据中心协同创新体系算力枢纽实施方案》等文件推动大数据产业走向成熟,以及互联网技术高速发展的驱动、企业数字化转型加速等因素,预计中国云原生数据湖市场未来会以39.7%的复合增长率快速发展。
所以,云原生数据湖未来的发展前景值得我们期待和关注。