基于 eBPF 的 Serverless 多语言应用监控能力建设

监控能力作为基础运维能力和核心稳定性措施,开发运维人员可以通过监控系统有效进行故障定位,预防潜在风险,分析长期趋势进行容量规划和性能调优,是软件开发生命周期中必不可少的一环。与此同时,Serverless 作为云计算的最佳实践和未来演进趋势,其全托管免运维的使用体验和按量付费的成本优势,使得其在云原生时代备受推崇,在下一个十年将成为云厂商提供的核心能力。随着 Serverless 的心智普及度越来越高,场景覆盖度越来越广,更多使用 PHP, Python,C/C++, Node.Js, Golang 等语言的用户开始进行 Serverless 架构升级。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第1张图片

对于这部分用户来说,传统的应用监控方案存在以下痛点:

  • 建设成本高:需部署一整套监控系统,包括数据采集,指标传输,持久化存储,可视化展示,告警等模块,增加了额外的资源成本和人力成本。
  • 埋点强入侵:需评估各语言,各框架,各接口的监控指标诉求,引入三方依赖进行繁琐地手动埋点。虽然对于 PHP, Python 等语言,已经有借助对象(模块)替换增强的技术实现无需修改的指标采集,但其能力成熟度,框架兼容性,运行稳定性等方面都还有进一步提升的空间。
  • 运维复杂:用户需要确保整个监控链路的低延时,高可用和指标准确性,需要对比分析引入监控埋点后对原有应用性能上的影响并持续优化。

Serverless 产品需要提供一种统一的,开箱即用的,无入侵零改造的方式来实现任意语言的应用监控能力,使得多语言用户可以充分享受 Serverless 带来的普惠技术红利。下面我们首先对其背后使用的 eBPF(Extended Berkeley Packet Filter) 技术进行介绍。eBPF 全称为 Extended Berkeley Packet Filter,始于 Linux 3.18,是一项革命性的 Linux 内核技术。

eBPF 提供了基于系统或程序事件的高效,安全,无入侵执行特定代码的通用能力。在 eBPF 诞生之前,由于用户态与系统态相互隔离,应用程序无法直接处理内核数据,而如果直接修改内核又具备相当的复杂性,每次开发或调试都需要重新编译,效率十分低下,安全性也无法保证。eBPF 作为一个运行在内核中的虚拟机,允许开发人员直接提交 eBPF 程序,在不修改内核代码的情况下运行特定的功能。

eBPF 程序基于事件驱动模型,当内核运行到特定 hook 点时会触发执行,预定义的 hook 点包括系统调用、函数进入/退出、内核 tracepoints、网络事件等。对于不存在的 hook 点也可以通过 KProbe,UProbe 进行动态埋点,提供内核态和用户态函数的追踪能力。借助丰富的 hook 点,eBPF 技术可被广泛应用于包括网络监控、安全过滤和性能分析等诸多场景。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第2张图片

eBPF 的工作流程如下图所示,首先通过在用户空间内使用 LLVM 或者 GCC 将编写好的 eBPF 程序编译成为字节码,然后借助系统调用 bpf 将其加载至内核中。eBPF 虚拟机将使用验证器对字节码进行安全性校验,如只能使用受限的 helper 辅助函数,有限的循环次数和执行时间,DAG 判断是否存在不可达代码等,避免其造成内核崩溃。

安全校验后 eBPF 字节码将通过即时编译器(JIT,Just-In-Time Compiler)编译成为原生机器码,提供近乎内核本地代码的执行效率,并挂载到具体的 hook 点上。用户态程序与 eBPF 程序间通过常驻内存的 eBPF Map 结构进行双向通信,每当特定的事件发生时,eBPF 程序可以将采集的统计信息通过 Map 结构传递给上层用户态的应用程序,进行进一步数据处理与分析。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第3张图片

SAE(Serverless 应用引擎)作为业界首款面向应用的 Serverless PaaS 平台,全托管免运维,实现了单体 Web 应用,微服务应用以及定时任务的 Serverless 化。其核心优势之一在于用户可以低心智负担,零改成成本的将其应用/任务直接部署至 SAE 中。目前在 JAVA 生态中,无论是代码包部署,监控调用链的集成,还是分布式调度框架的迁移,都可以让用户无需改动任何业务逻辑和版本依赖的情况下使用。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第4张图片

基于 eBPF 技术,SAE 应用监控支持了针对任意语言,任意框架的无入侵指标采集与监控告警能力,提供包括应用/实例维度的黄金三指标 RED(请求数,错误数,响应时间)和 HTTP 状态码统计,以及提供服务与依赖服务的接口级别调用信息。借助内置可视化大盘,开发运维人员可以及时评估当前应用对外服务状态,有效识别用户体验、服务中断、业务异常等问题。

SAE 应用监控能力具备以下核心优势:

  • 免运维:开箱即用,部署即生效,用户无需额外运行维护监控告警组件。
  • 代码无侵入:无需任何代码埋点,无需任何依赖修改即可获取到丰富的监控数据。
  • 语言无关:通过内核层进行网络协议解析,支持任意语言,任意框架。
  • 多协议覆盖:支持对 HTTP,MySQL,Redis,Kafka,DNS 等网络协议,进行指标和链路的监控。
  • 高性能:通过减少数据在内核态和用户态之间的拷贝,以极低的性能消耗获取指标数据。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第5张图片

技术实现上,SAE 通过将 eBPF 探针以 sidecar 的形式与用户业务程序部署在同一安全容器中,实现了多租隔离。eBPF 程序将会监听 accept/close/read/write/sendto/recvfrom 等系统调用,获取本地及远端地址,线程上下文,文件描述符 fd 等信息,同时关联当前容器实例信息产出原始事件。然后将原始事件的内容发送至用户态程序。用户态程序进行应用层协议识别,解析出协议的关键字段,匹配单条链路的请求和响应,同时经过事件过滤,维度收敛,元信息关联,预聚合等步骤进行数据加工,生成最终指标。最后周期性将采集指标上报至 Arms Promethues 中进行持久化存储。

基于 eBPF 的 Serverless 多语言应用监控能力建设_第6张图片

总结

面向未来,云计算将会全面 Serverless 化,多语言,全生态的支持将会是 Serverless 产品发力的重点,SAE 应用监控能力同样会持续不断的演进和增强,目前已经全面上线了无入侵,多维度,高性能的应用核心指标监控和告警能力,欢迎大家使用。同时在后续的 RoadMap 中,SAE 将会推出全局调用拓扑,服务上下游依赖,调用链路详情等进阶功能,打造更加完善的 Serverless 多语言可观测体系。

原文链接

本文为阿里云原创内容,未经允许不得转载。

你可能感兴趣的:(基于 eBPF 的 Serverless 多语言应用监控能力建设)