研发运维一体化解决方案UAVStack升级系统设计

一、背景

作为微服务架构系统,UAVStack的主要服务组件包括:

  • 中间件增强框架(英文名MonitorFramework,简称MOF探针):部署在业务系统
  • 监控代理程序 (英文名MonitorAgent,简称MA):部署在业务系统
  • 健康管理服务 (英文名HealthManager,简称HM):部署在后台服务群

随着业务量的增长,部署在业务系统及后台的组件也会相应增加。当总量达到一定量级后,组件升级迭代的成本和效率都会面临很大挑战:

  • 人工迭代:人工/时间成本高,错误率也高
  • 对接发布系统:

    • 优点:流程化、标准化
    • 缺点:对接成本高,每次装卸组件都要一一对接。

因此,UAVStack基于自身特点开发了一套升级系统,实现了下列功能:

  • 运维数据实时同步:确保组件基础信息的实效性及对称性
  • 操作便捷:支持版本构建、信息查看、任务下发等
  • 任务粒度清晰:提供任务详情、问题诊断、重试、历史留痕等功能

二、UAVStack升级系统架构图

  • Apphub:前端应用,发起升级指令
  • MA/HM:自带升级进程的组件。支持自升级,升级成功后自重启
  • upgrade server(升级中心):存放升级版本,提供下载功能
  • upgrade client(升级进程):执行具体升级任务

三、升级中心与升级进程

upgrade server升级中心

  • 一个独立的HM组件
  • Web端CRUD后台接口支撑,服务端
  • 提供升级动作(action)入口,服务端
  • 分配升级事件(event)
  • 提供升级包下载能力,服务端
  • 提供反馈入口,服务端

upgrade client升级进程

  • 独立进程,脚本触发
  • 升级动作,事件驱动
  • 从接收参数中提取server地址
  • 升级包下载,客户端
  • 过程留痕、任务反馈,客户端

在分配event的同时,upgrade server升级中心会将详细的event信息一起发送给MA/HM。MA/HM接收到指令event后调用shell,拉起独立的进程upgrade client,同时附带详细的event信息。upgrade client作为独立进程完成对指定组件的升级。

upgrade server具备扩容能力,能够处理海量组件升级任务。当多个HM对同一个event做分配时,需要做特殊处理,保证event只会被派发一次。当多个作业人提交action时,若对同一个组件提交了多次不同的event事件,也需要做特殊处理,保证一个组件的event事件的单次完整性。

为降低代码复杂程度,提高功能可靠性,减少对第三方的依赖,同时考虑到action数据已经落地,最终决定通过存储实现event分配,即对存储并发下发修改指令,确保只有一条指令可以成功。而升级进程则通过文件锁保证了event事件的单次完整性。

四、升级过程

(状态机)

4.1 upgrade server通过event判断是否UAV自升级

1)UAV自升级:具备接收升级指令,自升级,自重启(HM、MA)

  • upgrade server作为HM也可以被升级

2)第三方升级:不能接收升级指令,升级后不能自重启(MOF以及其他软件目录)

  • 升级工作过程和原理与UAV自升级一致。
  • 任何安装了MA的软件都可以使用升级功能

4.2 upgrade server分配任务

  • NEW:action数据落地,解析event数据
  • ALLOCATION:扫描event数据,获取升级事件(发送修改指令占坑,标明当前HM负责的event)

    • 成功获取的event放入队列,等待派送
    • 队列消费:读取event信息,获取单次升级目标等信息;打包event信息,同时附加当前HM Server回调地址等;最后对指定升级目标发起升级指令。

4.3 upgrade client执行升级任务

基于业务代码实现事件驱动:每个处理过程被视为一个事件。升级成功后,将事件标识为成功;否则默认为失败。升级成功或失败都需要指定下一个动作,从而实现灵活处理并形成业务闭环。

  • BEGIN (文件锁获取) >

BACKUP >

PACKAGE_DOWN_LOAD >

OVERRIDE_FILE >

STOP_UAV_PRO(UAV自升级)>

START_UAV_PRO(UAV自升级)>

END_ACTION(释放文件锁、现场清理、反馈回调)>

END

  • 处理过程发生异常/错误:

OVERRIDE_FILE_CALLBACK(回刷备份文件)> END_ACTION (同理)>END

  • 多次并发event事件:若无法获取文件锁,则进程执行失败,任务直接结束。文件锁释放后,方可继续处理event事件

4.4 upgrade client重启MA、HM

  • 优先stop>start,停止不成功则kill pid
  • 利用crontab启动应用进程,关键解决按原有启动参数启动

    • MSCP程序启动时,会利用crontab的特性添加值守
    • 基于liunx本身的命令,获取到进程pid即可完成以上操作

五、UAVStack升级系统亮点

5.1 运维数据实时同步

同步业务系统的节点信息与当前组件的版本信息时,往往主要依赖人工维护或相关发布系统。而UAVStack天然的实时画像数据则解决了运维信息同步不及时这一问题,不仅不再需要人为干预,还能支持运维信息自动发现。通过画像数据,可以实时查看组件部署情况。

5.2 操作便捷

不需要人为干预即可实现信息自动维护,支持实时过滤与查看、批量操作及任务下发。

5.3 任务粒度清晰

  • 历史留痕

  • 过程留痕

  • 问题诊断、重试

六、总结

这套基于UAVStack自身特色的升级系统降低了运维成本、提升了迭代效率,单人迭代数十个组件迭代只需几分钟即可完成,已成功支持测试版本切换与迭代约400次,支持线上版本迭代约350次。

官方网站:https://uavorg.github.io/main/

开源地址:https://github.com/uavorg

作者:刘波安野

首发: UAVStack智能运维

你可能感兴趣的:(运维自动化)