2022年11月10日,在中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第10讲上,腾讯Light云计算平台负责人魏巍分享了Eunomia云原生资源编排优化实践。本文整理自魏巍的分享。
相较传统的IDC部署方式,容器化部署在物理硬件、操作系统之上增加了一层容器运行时。当前云上部署的APP及二进制等均运行在容器运行时之上,Eunomia编排器的作用范围也在于此。
我们认为,上云的过程中并没有新技术,更多是一种新部署理念的产生。在上云之后,应实现CPU、内存等资源利用率上升,成本大幅下降,然而当前上云时的资源浪费现象十分常见,造成浪费的原因可分为三种。
云原生的资源管理方式要求应用在部署之前,需提前设置好CPU、内存、磁盘的最小和最大资源使用量,并且之后不能改动(除非重建所有实例),这就要求应用在正式上线前预估其资源需求。
线上的资源需求可以通过压测来模拟,但难免和实际情况有出入。此外,应用上线之后,其资源使用会随着业务、策略的动态更新而发生变化,因此在创建之初设置的资源使用量并不能很好地反映实际资源需求,容易造成资源浪费或资源不足。
在实际运行过程中,即使是相同的Pod,其CPU、内存、磁盘、网络等监控指标也会有很大的差异,极端情况下相差甚至会高达60%,有时还会有大部分Pod的CPU利用率低、个别Pod的CPU利用率却长期在90%以上的情况产生。对此最稳妥的解决方式是扩容,但这会造成资源的大量浪费。
集群在运行一段时间后,随着节点不断上、下架,Pod不断扩、缩容,会有越来越多的空闲资源分散在整个集群中,此类多维度闲散资源通常难以集中并下架,最终会造成资源的浪费。
资源使用的痛点、难点
游戏安全服务在正常运行时有着明显的周期性,并且周期与周期之间峰值变化不大,一般情况下晚上九、十点流量最高,后半夜流量最低。但是在某些突发情况下(突发性热点、大型节假日等),服务的请求量会在短时间内大幅上涨,造成资源不足,影响服务正常运行产生告警。
原生的调度策略只基于CPU、内存、磁盘三个维度来判断节点资源是否充足。然而实际情况下,磁盘IO、网络IO、连接数、定时器等资源同样是决定业务是否正常运行的关键,因此资源维度的匮乏会对业务正常的保障造成影响。
为了解决资源浪费与使用时的痛点,业界有诸多不同的解决方案,如HPA、超卖等。
Eunomia主要由预测模型、求解器以及调度器三大模块组成。
对于游戏安全的实时计算业务,资源使用往往具备明显的周期性且周期之间变动不大,因此可以基于Pod的历史监控数据预测未来的资源使用情况,以解决资源设置不合理问题。
如果把预测的Pod模型看做物品、Node看做箱子,那么资源优化问题就可以转化为一个多维度的装箱问题,我们可以从各个角度、根据项目的实际需求来求解最优的装箱方案。
根据求解器给出的部署方案,再结合业务的可调度性和现有集群的部署现状,可以利用Kuhn-Munkres算法优化调度代价,对集群实施离线、实时等调度策略。
整体工作流程预测模型
在做预测之前,首先需要找到模型是什么,这就面临“找到模型基准值”的挑战。
对于实时在线集成业务,由于在成本核算时CPU权重较大,所以这里仅以CPU的利用率来分析模型的基准值。如果业务特征不同、维度不同,则应该采用不同的方式来锚定基准值。
为了达到80%的CPU整机利用率,我们首先采集了各Pod 的95日峰值,并对其进行集中部署。虽然各Pod集中部署在了同一节点,但在实际运行中,由于其CPU并不在同一时刻达到峰值,CPU的整机利用率依旧不达预期,相差达30%。
Node实测值CPU的整机利用率 < 51% 曲线对比(绿:Node实测值、其他:各Pod曲线)于是,我们更新使用带时间序列的高维模型(1H),在模型中引入时间维度,可以有效改善错峰情况。
Node实测值CPU的整机利用率 < 56% 曲线对比(红:Node实测值、橙:Pod 95峰值、绿:Pod总和、蓝:Pod平均数总和)1H精度下,实际与理论仍有较大差距,所以我们在模型中引入高精度的时间维度,进一步提高精度到10M。
Node实测值CPU的整机利用率 < 63% 曲线对比虽然精度已进一步提升至10M,聚集性更加明显,但可以看到距离CPU利用率80%的目标值仍有差异。
相同业务的不同Pod间的细粒度曲线如上图所示,在细粒度的时间维度下,同一个业务不同实例间有着天然的巨大差异。此外,不同母机不尽相同的工况也会使Pod的表现存在差异。也就是说,期望精准的控制Pod是不切实际的。
若业务自身拥有巨大的不确定性,应使用能够削峰的曲线模型,采用中位数的带高精度时间序列的高维模型(10M)无疑可以列入考量。
如下图所示,引入中位数后,消除了Pod的个性化差异,Node实测值已达到77%,初步达成目标要求,如果把目标设定为90%,也可以得到接近的实测值。
Node实测值CPU的整机利用率 < 77% 曲线对比
预测模型的方法及比较
预测模型旨在基于Pod的历史多个周期资源监控数据,预测下个周期的资源使用数据,求解最优部署方案,有多种方式可以实现。
逻辑简单,可解释性好,但准确率低,相同类型Pod预测结果相同。
逻辑简单,可解释性好,但无法预测趋势,只适合周期性场景,对节假日、活动等特殊场景无法建模。
预测准确率高,可综合考虑趋势项、周期项、节假日项等,同时可处理异常值和缺失值。但计算速度慢,预测结果存在波动,鲁棒性较差。
基于MAPE(Mean Absolute Percentage Error)评价指标,对未来两周的CPU进行预测,可以清晰地看到预测数值与实际数值具备很强的相似性
求解器
求解器的目标是把Pod用最优的排列方式部署到Node中,其中Node数量越少越好。与此同时,我们可以把业务调度需求转化为约束条件:
调度器
在得到较好的部署方案后,需要在实践中对现有的集群进行迁移,可以通过三步实现。
计算映射关系
计算映射关系的目标是将当前集群节点和部署方案中的节点一一对应,使得对业务影响最小。
如下图所示,在计算时我们通常将集群节点和部署方案抽象为二分图,将计算映射关系转换成求解二分图的最佳匹配。
其中顶点集是集群节点和部署方案的节点,顶点集中的顶点两两之间各有一条匹配,匹配权重则是节点调度代价,最后形成当前集群节点和部署方案节点的映射关系。
无损驱逐
无损驱逐的目标是将不符合部署方案的Pod驱逐,并保证对业务服务无影响。在做无损驱逐时,服务可被分为无状态服务、弱状态服务及强状态服务三类。
再调度
再调度的目标是将新创建的Pod按照部署方案调度到理想的节点,一般基于Scheduling Framework,添加过滤和评分插件实现。
通过对某一集群做资源编排优化,可以在成本及稳定性等多个方面实现较大提升,如平均CPU利用率峰值可从28%增长至75%,告警可由88个/周降低至3个/周。此外,节点CPU利用率的周峰值均可达到80%以上。
优化前Vs.优化后节点部署负载多样
不同负载节点间部署均衡
【原动力×云原生正发声降本增效大讲堂】第一期聚焦在优秀实践方法论、资源与弹性、架构设计;第二期聚焦全场景在离线混部、K8s GPU资源效率提升、K8s资源拓扑感知调度主题;第三期邀请4家业界知名企业分享各企业云原生降本增效技术实践,为开发者带来更多样化场景业务下的技术干货。点击『此处』进入活动专题页,带你体验云原生降本增效实践案例、了解如何解决企业用云痛点、掌握降本增效关键技能……