出品 | CSDN云原生
2022年5月31日,CSDN云原生系列在线峰会第6期“K8s大规模应用和深度实践峰会”上,本期峰会出品人、网易数帆云原生首席架构师冯常健携手火山引擎资深云原生架构师李玉光、百度高级研发工程师沙翔宇、网易数帆技术专家黄久远、汽车之家运维技术专家彭兴勃,分享K8s大规模集群管理、混部、监控体系等方面的建设经验和应用实践。
网易数帆云原生首席架构师冯常健在开场时提到,根据最新的CNCF调查报告,有96%的组织使用或者评估了K8s技术,几乎覆盖了全部受访对象,这也证明了K8s的应用已经无处不在。在他看来,当前业界对K8s的关注点,主要可以体现在三个方面:
大规模应用场景下的K8s组件的承载能力和稳定性,以及配套的可运维性、可观测性
如何防范K8s这样的云原生技术可能带来的系统性的风险
新的场景化应用的探索
K8s峰会出品人冯常健开场
下面先简单回顾本期峰会的演讲内容。视频、完整文章将在本公众号陆续发布,敬请关注。
火山引擎资深云原生架构师李玉光将字节跳动的大规模K8s集群管理系统实践总结为几点:
在离线业务混部
统一资源池,常态混部
联邦化:Global Scheduling和Quota
服务QOS保障:监控加强,准确识别程序在各资源维度的具体行为;持续优化,不断解决容器引入的性能问题
经过这些操作,字节跳动取得了不错的业务效果。
结合百度云原生混部大规模落地实践经历,百度高级研发工程师沙翔宇总结了混部系统的五个核心目标:
混部离线后,优先保证在线服务的质量
保证在离线服务的前提下,最大程度地提高资源利用率
保证离线业务的SLA,离线业务不能被无限地压制、重试
可检测、可观测,有指标衡量在离线服务的质量
基于云原生架构,对K8s零侵入、零干扰
网易数帆技术专家黄久远从系统性风险的产生及监控体系的打造等方面,分享了大规模Kubernetes监控体系建设目标的实现:
推广并落地统一的云原生体系监控标准
提升监控方案的管理和交付效率
降低Prometheus等基础组件的资源成本
提升云原生体系下运维诊断的自动化程度
汽车之家运维技术专家彭兴勃结合汽车之家的发展现状和技术架构,从四个方面讲述如何实现Kubernetes集群稳定提升:
资源合理调控
自愈及准入策略和治理
集群组件优化
监控告警
聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注CSDN云原生微信公众号~
限时活动,数量有限
关注【CSDN云原生】公众号,回复【图书】
邀请好友助力即可免费领图书,赶快参与吧!