我们正身处数据大爆炸的时代,据IDC数据显示,仅在2022年,人类就将创造超过97ZB的数据;要知道截至2012年,人类生产的所有印刷材料的数据量为200PB,仅为2022年一年所创造数据量的50万分之一。据预测,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%,为全球第一。
数据量激增,数据驱动型企业面临更大挑战
数据大爆炸对企业的发展机遇与挑战并存。数据量激增使得企业必须对这些数据创造更多的价值,在推动这一过程中,自然转变出数据驱动型企业。
那么,数据驱动型企业正面临着六大挑战:大多数企业缺乏一个明确的数据平台战略;高速的数据增长带来的存储、分析以及数据创新的成本太高;难以找到发挥数据价值的场景;不清楚应该使用什么样的新技术或者产品来支持业务创新;企业内部人员技能不足难以支撑一些创新型的数据项目;企业缺乏数据的治理和安全保护的能力。
如何将挑战化为机遇?第一,打破数据孤岛,实现数据一体化融合的分析。第二,数据驱动智能创新,利用创新产品重塑创新引擎;第三,采用云原生架构,助力企业数据驱动业务创新。
破局传统大数据技术架构的局限,云原生与K8s搭把手
以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:系统组件安装配置复杂、集群资源利用效率低、运维工作量大、数据应用开发迭代效率低、新的开发工具集成非常复杂。这些问题已经成为了困扰企业数字化转型加速迭代和升级的重要障碍。
既然不能够依靠Hadoop生态技术本身的发展来解决传统大数据平台带来的难题,那么我们就应该把注意力放到当前最新的技术发展趋势之上,也就是以容器和K8s为代表的云原生技术。
云原生技术在2013年容器项目以及2014年K8s项目正式发布以后,发展非常迅猛。现在,各大公有云厂商都支持K8s,还有上百家技术公司在持续投入K8s的迭代和更新工作。目前,CNCF的生态全景图包含了1000多个云原生技术产品,覆盖了数据库、消息级流处理、调度和任务编排、存储系统等10多个技术领域。
2021年应该是云原生大数据技术发展的里程碑,2021年3月,Apache 宣布 Spark 3.1 正式支持了 K8s,另外在2021年5月,Apache Kafka 背后的商业公司 Confluent 也发布了Confluent on K8s,一个能私有发布的在K8s之上运行的Kafka生产集群系统。这两个重要事件表明,大数据平台的云原生化已是大势所趋。按照这个趋势,Hadoop正逐渐迁移到K8s上。
云原生进阶之路,将大数据平台迁移至K8s上
顺应趋势,越来越多的企业将业务系统负载逐渐进行云原生改造,迁移到基于Kubernetes的私有或公有云平台上之后,在云原生体系之外独立运行一套传统大数据平台,在架构上和运营上又增加了不少不必要的复杂度和资源浪费。
那么,智领云自主研发的基于云原生架构的Kubernetes大数据平台(简称KDP),就是解决以上问题的关键平台。将大数据平台迁移至K8s上,以解决国内企业在使用K8s时,大多是在做云计算方面的相关调度,而针对大数据领域,企业还在管理另一套纷繁复杂的系统即传统大数据平台。
KDP系统架构图
KDP采用Kubernetes作为资源调度平台,统一调度和管理大数据组件以及数据应用。在对开源的大数据计算及存储引擎的改造和集成基础之上,通过智领云自研的大数据集成基座,该平台实现了以标准的方式来部署、发布、管理和运维主流大数据组件。
打个比方,大家一定用过Windows的资源管理器,KDP就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。
KDP管理界面图
KDP将为企业带来什么?
实际上,KDP给用户带来的高效是实打实的。比如拿某大型运营商来说,数据中心的服务器数量大约有3万台,这些服务器的利用率严重不足,平均使用效率只有20%-30%左右。但在KDP平台的统一资源调配下,只需要大约6000台设备就能达到原有效果,大大节省了设备、电力、空间等投资,并提升了客户的竞争力。
具体而言,KDP能够标准化配置管理,即采用统一的Kubernetes文件配置方式,对大数据组件进行标准化的配置管理,简化大数据组件与Kubernetes集群的集成;实现资源高效利用,集群资源作为一个可共享的资源池,实现实时、离线作业的混部,集群资源利用率相较于传统大数据平台的30%提升到60%;弹性扩展,利用Kubernetes的弹性扩容技术,从容应对计算作业的性能瓶颈,实现计算资源及集群资源的动态扩容;简化运维,基于Kubernetes标准的Operator操作方式,统一运维界面完成大数据组件的部署、升级、扩容、备份等操作,提升运维效率。
那么,在大数据技术落地实施的具体场景中,该平台能很好取代传统大数据平台,帮助企业在数字化转型过程中实现降本增效的目标。
高效的集群部署和运维:有的企业作为技术提供方要为多个内部或外部的机构进行大数据集群的部署和实施,但传统大数据平台的软件部署、组件互相适配、计算引擎调优等方案相对复杂,手工部署的步骤多,导致集群部署周期长,项目实施成本很高,运维流程复杂,运维人员能力要求高。在这种场景下,采用KDP,可以大幅度提升实施项目的部署效率,降低项目实施运维人力和时间成本。
提升IT架构资源效率:有的企业在生产环境中运行多种类型的数据应用、不同类型的存储引擎、实时和批处理的计算作业。在传统大数据平台环境下,一般都是采用独立的虚机集群来部署这样的生产环境,导致资源使用率很低。采用了KDP以后,企业可以利用作业混排、存算分离和精细化调度等平台特性来提升整体资源使用效率,降低IT架构的投入成本。
传统技术的升级改造:传统大数据平台因为技术扩展迭代流程比较慢,不能及时解决运维中碰到的性能瓶颈,同时大数据组件之间软件包依赖很复杂,导致组件升级困难,新的组件集成耗时费力。使用传统大数据平台的技术团队面对运维压力疲于奔命,没有精力专注于业务开发和数据价值的发现。传统大数据平台逐步迁移到云原生大数据平台后,可以显著提升运维效率,降低运维成本,解放技术团队的生产力。
自助式的数字创新:有的企业需要有多个大数据集群服务不同的业务部门,业务部门的数据科学家希望能自助式地尝试新的云原生人工智能机器学习工具。很显然,传统大数据平台满足不了这种自助式需要,企业可以通过KDP部署提升多平台管理效率,提供数据分析和人工智能开发工具的自助式发布,降低整体资源消耗的成本,加速数据价值的创造过程。
优势不可替代,所有大数据组件实现统一标准化管理
首先,KDP开箱即用,简单到几个命令和操作就可以轻松上手;其次,可视化管理,及可观测性的能力;第三,在调度方面的创新,将大数据平台迁移到K8s上。
当然,智领云KDP最大的优势,也是区别其他产品的地方是所有标准化的大数据组件在KDP的支持下,都能无缝地运行在Kubernetes之上。而且KDP几乎与业内所有主流的Kubernetes发行版都能完美适配,具备良好的兼容性。
在Kubernetes上运行大数据平台有以下四个好处:第一,统一管理,复用Kubernetes基础架构,复杂度大大降低;第二,资源混排,高效利用共享资源池,各个组件及整个集群都很容易弹性伸缩;第三,整个系统能够快速支持新应用的集成,快速迭代;第四,系统稳定性得到极大提高,运维效率高。KDP聚焦于各个大数据组件的安装,以及统一的资源管理。打比方说,类比Windows资源管理器,KDP就像大数据平台的资源管理器。
目前,智领云KDP适合以下几类用户:
需要在Kubernetes上部署和运行大数据组件和应用的用户,例如云原生开发者,数据工程师,数据分析师等;
需要对现有的大数据系统进行云原生改造和迁移的用户,例如传统Hadoop平台的用户,需要提高系统效率和降低运维成本的用户等;
需要快速打造一套企业级云原生大数据底座平台的用户,例如数字化创新和转型的用户,需要支持多种数据场景和应用的用户等。
如果想要使用智领云KDP部署和运行大数据组件和应用,可以参考以下步骤:
首先,你需要在Kubernetes集群上安装智领云KDP平台,这是一个容器化云原生大数据平台,可以在Kubernetes上管理大数据组件和应用。
然后,你可以在智领云KDP平台上选择你需要的大数据组件和应用,例如Hive,Spark,Flink等,并配置相关的参数。
最后,你可以在智领云KDP平台上启动和停止你的大数据组件和应用,并查看相关的状态和日志。你也可以通过智领云KDP平台访问你的数据源和存储,并进行数据分析和处理。
Kubernetes让业务应用的发布和管理趋于标准化。而智领云的终极目标则是让数据应用的发布和使用也变得标准化。从容器化云原生大数据平台开始做起,智领云正一步一个脚印前行。
●关于LinkTimeCloud 智领云
智领云是国内云原生大数据技术的创新领导者,为企业级客户提供以云原生大数据平台为底座的云原生DataOps产品系列,包括云原生数据集成开发平台和云原生数据资产运营平台。智领云通过产品及服务帮助企业搭建数据和AI中台,轻松打造业务数据能力闭环,建立数字化运营体系,并最终完成数据驱动的数字化转型。
智领云已经服务了能源、教育、医疗健康、物联网、金融等行业国内外多家知名企业,与多个合作伙伴在云原生生态领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算、大数据产品和技术服务。
- FIN -