导读:2022年7月22-23日,第8届GIAC全球互联网架构大会将于深圳举行。GIAC是面向架构师、技术负责人及高端技术从业人员的年度技术架构大会,是中国地区规模最大的技术会议之一。今年GIAC邀请到了众多布道师、明星讲师以及近百位来自阿里、腾讯、字节跳动、美团、微博、商汤、华为、快手、哔哩哔哩、声网、微软、Shopee、亚马逊等公司专家出席。
在大会前夕,高可用架构采访了本届 GIAC湖仓一体专场讲师腾讯云的张志刚老师,就当下特别流行的湖仓一体与云原生相结合的问题进行了访谈。
邓启明:张老师您好,很高兴能采访到您,请简单介绍一下自己以及您的从业经历。
张志刚:你好,我目前在腾讯云负责云上大数据架构优化和场景方案设计方面的工作。加入腾讯之前,一直从事Hadoop平台的架构设计和优化工作,参与过数据集成平台,离线和实时分析等多个平台的建设。
工作中,主导过多个数据处理架构的升级优化,从Lambda、Kappa到流批一体,从数据仓库、数据湖到湖仓一体,从存算一体的架构优化到存算分离架构升级等。对大数据前沿的技术有极大的兴趣,很高兴能和大家一起探讨云原生的湖仓一体技术。
邓启明:请简单介绍一下湖仓一体架构以及湖仓一体架构包含哪些关键的技术栈
张志刚:湖仓一体本质上是数据仓库与数据湖两种架构的融合,以数据湖作为底座,像数据仓库一样管理数据,是数据仓库或者数据湖的架构升级。当前湖仓一体的架构建设思路,主要有2种方式。一个是在数据湖的架构之上,引入数仓建模的能力,在湖上面建仓。另外一个就在数仓架构下,打通数据湖存储,将数仓的贴源层融合到数据湖之中。
湖仓一体架构包含的关键技术主要包括以下几个方面:统一元数据、引擎加速和存储优化。其中,以元数据的统一最为核心,是确保湖仓一体在架构和应用层面达到统一的关键。而在性能和成本方面,则需要引入如元数据相关的语义优化、external service、local cache、谓词下推、索引等能力,解决存算分离分离的性能瓶颈,提升任务的稳定性。
邓启明:您认为湖仓一体解决的行业痛点是什么?为什么推荐湖仓一体?
张志刚:在湖仓一体出现之前,传统的数据管理系统主要以数据库、数据仓库和数据湖为主。数据库主要保障的是事务性,但在超大数据量级的分析场景下,会显得比较吃力。
数据仓库应运而生,基于分布式的存储和计算框架,很好的解决tb到pb级别的数据处理问题。例如以hive/spark为主的离线数仓,以sparkstreaming/flink为主的实时数仓等。而整个数据仓库的建设,需要遵守一系列的规范,如:标准化的数据集成模式和存储格式、统一的数仓分层分域模型和指标体系建设等。随之而来的是不断抬高的建设成本、各类组件维护和开发的技术投入以及越来越冗长的交付流程。
数据湖的出现,很好的解决了上面提到的数据仓库建设存在的一系列问题,将数据管理的流程简化为2个阶段,数据入湖和数据分析。数据湖一般以免运维、高可靠的对象存储为底座,支持各种数据类型的存储。数据分析则以schema on read的形式,想要什么,就去获取什么,极大的提升了分析的效率。而数据湖对各种类型数据的支持和灵活高效的分析方式,带来的问题便是治理难。因缺乏治理而导致的数据质量下降、数据膨胀和数据不可用等,数据湖慢慢就退化成了数据沼泽。
湖仓一体通过数据仓库治理能力的引入,既可以很好的解决上面提到的数据湖建设的问题,也为更好的挖掘湖中数据价值提供了基础,将高效建仓、灵活建湖的两大优势融合在了一起。湖仓一体的数据系统建设,随着Hudi、Delta和Iceberg的成熟,解决了流批一体面临的原子事务、一致性更新以及元数据性能瓶颈等问题。让数据系统的构建,既能满足短期业务发展的需要,又能支撑长期的数据应用需求。
邓启明:对比过去的大数据技术栈,湖仓一体给大数据行业带来了哪些改变?请举例说明。
张志刚:湖仓一体对大数据行业改变最明显的就是数据的处理方式。不同于过去数据仓库的管理方式,湖仓一体极大的提高了数据开发的效率,同时降低了数据管理的难度。过去我们处理数据,需要资深的数据架构师定义数仓的规划,从数仓的分层、指标的定义到数据集市模型设计,然后交给专业的数据工程师进行业务开发,再由业务人员进行验证,有一套规范但却复杂的过程。而湖仓一体的出现,让企业能够快速的基于业务进行开发,又能够灵活的调整和规划自己的数据管理方式。
另外,湖仓一体的出现,也让大数据行业内各个角色之间的交互变得更加自如。基于湖仓一体的数据管理理念,各类数据应用角色能够更好的相互协作,共同开发。如数据科学家可以方便的集成自己的数据并以纳入标准数仓流程进行管理、业务分析师也能够自己开发数据需求等。
邓启明:云原生和湖仓一体都是当下热门的技术,您觉得云原生与湖仓一体相结合将会给大数据从业人员带来怎样的改变呢?我们应该怎样更好的应对这些变化?
张志刚:云原生与湖仓一体的结合,将会给数据管理者带来更好的使用和性能体验。基于云原生的湖仓一体架构,以各大云厂商的湖仓一体架构为为例,在性能和可运维性上都得到了极大的提升。
得益于云原生的容器化部署、面向微服务和动态管理的能力,湖仓一体架构将更加健壮,更加具备通用性。例如各大云厂商使用的对象存储底座,弹性灵活且具备极高的可用性。而使用通用的协议,让架构可以随意的在各种云之间进行迁移。容器化的封装和编排能力,则很好的保障了资源和业务之间的隔离,提升了架构的稳定性,拓展了多租户的使用场景。
所以作为大数据从业人员,我们都应该尽量的去拥抱云原生,投入更多的精力到大数据与之结合的领域。关注大数据容器化的场景、理解微服务、Devops和持续交付相关的理念等。掌握云原生相关的技术,让自己从一个特定平台的开发者变成一类通用平台的开发者,也让自己的个人价值能够跨平台流动、展现。
邓启明:经过十多年的发展,大数据行业已经相当成熟。对于想要从事大数据领域的职场人,请结合您的亲身经验,介绍一下需要具备哪些知识和职业素养?
张志刚:大数据是一个非常有挑战,有价值的领域。大数据相关的工作,在未来也会是一个持续推动社会发展,实现人生价值的事情。很高兴看到有越来越多的人加入大数据行业,从我自己的经验看,大数据是一个比较宽泛的领域,不同的方向要求也会大不相同。
计算机理论方面,例如java、网络、数据库、Linux、分布式理论相等知识必不可少。其次是google三驾马车、hadoop1.0、2.0和3.0为基础的大数据组件及其生态。最后,比如场景相关的知识储备,搜索推荐、数据仓库建设、数据治理、数据挖掘,包括AI相关的知识都是必不可少的。
而根据具体从事工作种类不同,所需要的知识储备也大不相同。在具备基本知识储备的基础上,建议根据具体从事的工作内容,进行选择。
邓启明:作为湖仓一体的讲师,能否简单剧透一下您给观众带来怎么哪些干货?最后,您对GIAC大会有什么样的寄语?
张志刚:最近几年一直在做行业和场景相关的方案,站在企业和用户的角度,希望能够把最合适的湖仓一体方案带给大家。随着云原生和上云趋势的不断普及,腾讯云在云上大数据架构优化方面沉淀了很多的成果,希望能够在GIAC大会上和大家进行一次充分的交流。最后,祝大家在大数据领域不断取得心仪的成就,祝GIAC大会越办越好,圆满成功。
参考阅读:
Facebook是怎样保证缓存一致性的
百度评论中台的设计与探索
Web3在遥远的未来?不,它已经来了!
与Shopee实时计算负责人聊聊湖仓一体
本文由高可用架构原创。技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿。
活动预告
↓↓↓
GIAC 全球互联网架构大会 2022 将于 7 月 22 - 23 日在深圳举行,本届 GIAC 议题共设置有 24 个专题,覆盖各类架构热点领域,每个主题由业内知名架构师、技术负责人等专家担任出品人,负责议题选取和质量把控。本次大会包括数据智能平台演进(由白海科技创始人兼CEO卢亿雷担任出品人)和湖仓一体(由Shopee Data Infra Team罗李担任出品人)等专题,将有更多本文相关内容演讲,点击阅读原文查看 GIAC 详细日程。
点击【阅读原文】,了解更多活动信息。