伴随着物联网(IoT)的快速发展,软硬件交互场景越来越普及,在自用和商用的空间场域中,我们智慧园区、未来酒店的智能化场景也得到了极大的丰富,打造出多款智能有科技感的产品,如人脸门禁、云前台、入住自助机、无线AP、云打印等等。空间域中围绕“人”、“设备”、“空间”打造的“智能化场景”有着特殊的物理空间上的分散和连接,硬件终端的异地分散部署、终端与云端(或边缘端)的连接通信,服务端-云端-硬件终端的远程指令控制等。物理空间上的分散和连接,增加了监控运维的难度,时常出现用户的各种问题反馈:
基于阿里巴巴最佳实践打造的智慧园区和未来酒店产品,已逐步走向商业化输出,问题也从内部用户反馈扩大到外部客户反馈,如果问题总是通过客户反馈才能被动感知到,必然会导致客户对我们的产品逐渐失去信心。如何才能变被动为主动,使得运维、开发和测试同学具备感知线上问题、诊断定位根因、快速应急止血的能力,是一件很必要的事情。
基于IoT打造的交互场景,从部署架构看,除了长链路的特性外,还有大规模分散部署的硬件终端,以及跑在终端上的软件系统。通常来说,智能终端软硬件交互系统是交付和长期运维的重难点,一方面存在硬件的不同厂商、不同型号、物理性损耗、ROM升级、摩尔定律等引发的五花八门的偶现问题,另一方面存在软件升级、依赖不可用等引发的重大问题。
我们从日常具体问题中抽象提炼出2大核心问题:
全链路日志和质量度量视图,是解决问题的关键所在。但要在智能终端软硬件交互系统中建设全链路日志和通用质量度量视图有一定的挑战,具体挑战如下:
基于IoT的智能终端交互系统,设备终端一般由交付同学来运维和升级,终端软件由客户端开发同学运维和升级,服务端由后端开发运维和升级。系统问题可能发生在硬件终端上、可能发生在终端应用软件上、也可能发生在服务端依赖上。多职能角色的协同,长链路的调用,导致问题“发现-定位-止血”的耗时远高于纯软件系统。
结合日常问题的分析经验,我们期待的问题发现定位方式是:首先能够实现终端问题的快速准确感知,其次基于业务场景指标呈现质量概览,并通过不同维度的质量分析模型进行下钻,最终通过全链路的调用日志明细确定根因。这样从业务场景出发,发现异常问题,串联全链路,任何职能角色都可以方便易懂的感知,关注和分析系统质量情况。同时我们的解决方案要满足以下要求才能真正的解决用户的难度和痛点。
针对上述的问题解决方式和要求,通过调研分析发现集团内普遍存在服务端应用的长链路监控预警和分析诊断工具,但串联终端应用在内的端到端的长链路诊断分析工具比较少。终端应用和服务端应用使用的技术栈差别很大,即使在同一个业务场景的逻辑实现中,日志也是独立埋点的,调用链路也是断开的。要建设一套各种技术栈兼容的通用埋点工具成本很高,经过内外部的多方调研,我们选择在自有业务中引入“狄仁杰”——它是专注于业务场景的全链路日志分析,轻量级的sdk接入,通过一行代码即可将系统中基于slf4j接口的业务日志全部用鹰眼traceId串起来,还支持“业务场景”语义的标识传递,可实现从终端到服务端的全链路染色。
使用狄仁杰将日志进行全链路串联后,一键接入基于IoT的实时质量工具魔洛哥,可实现基于专家经验设计的业务质量大盘等质量视图,以及自动配置的终端异常感知预警模版,整个方案采用魔洛哥产品化接入和数据服务(参考5.2 数据服务)的能力实现不同产品通用质量视图的分钟级创建,同时根据质量大盘指标自动配置预警规则和模版,做到终端异常的实时准确感知和问题的快速定位分析,整体方案如下:
整体方案
以上2个核心问题的解决方案,已在“魔洛哥”承载的多个业务产品中应用实践,详见4.1和4.2。为了支撑不同IoT产品的实时质量建设的差异化诉求,“魔洛哥”平台本身的基础能力也在持续打磨中。
智能终端系统由于其特殊性有很多偶现性的"疑难杂症",同时"疑难杂症"难发现难定位。经过分析发现导致这一问题的两个因素:
因此我们需要一种工具能够像服务端的Sunfire、云监控、eagleeye工具平台一样,能够快速感知智能终端异常,同时精准定位出异常的链路模块,使得异常模块的负责人可快速的进行问题的接手和处理。通过调研我们开发了基于IoT的实时质量工具-魔洛哥,针对智能终端异常难感知采用了以下策略:
通过基于专家经验定义终端系统的异常指标来实时监控异常并触发预警。首先将种类繁多且分散的智能终端系统日志进行SLS云化存储,其次借助魔洛哥平台的数据服务能力,直接通过SLS编写指标查询SQL来生成HSF/HTTP服务,最后使用魔洛哥平台配置基于专家经验且通用的终端预警模版和规则,最终实时匹配预警规则产生告警。
魔洛哥平台详细实践操作流程如下:
首先智能终端系统存在多角色的协调,一旦发现了终端异常后,需要多角色参与进行分析,导致问题的止血时间较长,因此我们需要一种工具除了能够反馈终端异常外,还能返回终端链路的过程质量,使得问题发生后,通过链路模块实时质量,能够精准的感知到异常链路模块,以此来提升异常的感知能力。其次智能终端系统还存在很多偶发性问题,而偶发性问题很难触发预警,但确非常影响用户使用体验(例如一台门禁设备人脸识别成功率低,导致高峰通行时段极差的通行体验),因此也需要一种工具能够及时透出偶发的设备异常问题,通知运维或者开发同学进行优化,提升终端用户的体验。
综上分析,我们需要提供一种标准化的运维工具,将终端硬件和系统的质量情况实时透出,帮助开发和运维同学快速感知问题,首先将种类繁多且分散的智能终端系统日志进行SLS云化存储,然后定义出基于硬件智能终端的链路质量度量模型,借助魔洛哥平台的数据服务能力,直接生成基于智能终端系统的实时质量。
详细方案如下:
魔洛哥平台详细实践流程如下:
4.2 基于业务场景的全链路实时质量
实时质量的度量分析已经存在很多成熟的产品,比如主要用于服务端的Sunfire、云监控、eagleeye和用于前端的体验+等,那为什么我们不直接使用这些平台,而要着重提到基于业务场景的全链路实时质量呢?在我们实践业务质量保障的过程中,发现单纯的服务端和前端实时质量度量及监控不能完全满足我们想从用户实际体验的角度来度量和发现质量问题的诉求,主要体现在以下方面:
当然,除了我们定义的产品视角和业务场景视角,基础的服务端和前端应用视角对于完整的质量全方位保障也是必不可少的,所以我们提炼了如下产品模块:
使用狄仁杰埋点的业务,一键接入魔洛哥,分钟级透出通用实时质量视图,包含产品质量、业务场景质量分析、服务端质量分析、前端质量分析、质量查询、多维分析(建设中)等,目前菲住布渴、餐配中台等多个业务已经接入使用。
根据上述的目标,在业务接入时,我们需要实现低成本快速接入,同时展示业准确的全链路实时质量情况,因此从技术角度出发要解决的问题有三点:
根据上述的三点,从技术实现上来说有一定的复杂度,首先要解决实时性,其次要能够将全链路日志进行串联,最后还要实现低成本接入,最终通过一定的调研分析,整体的技术方案如下:
为了能够将全链路指标进行串联,我们需要在业务应用中引用狄仁杰SDK,通过一行代码即可将系统中基于slf4j接口的业务日志全部用鹰眼traceId串起来,并将收集到的日志发送到应用自定义的SLS中。
为了降低接入成本,我们开发实现了基于SLS的数据服务工具,通过一条SQL即可将SLS数据查询结果生成一个可调用的API。
数据服务能力参考了DFaaS(Data Function As Service)的数据服务能力,提供数据函数即服务,使用户无需编码而直接可生成服务,降低研发门槛、实现低成本接入,使得开发同学更快捷、持续的交付业务以及产品需求。
通过基于IoT的全链路实时质量,业务使用狄仁杰进行全链路埋点后,可一键接入魔洛哥平台,实现终端问题的实时感知和链路分析,以及智能终端系统业务场景的全链路实时质量。整体方案接入成本低(分钟级别接入),可实现全链路的实时质量分析,以及精准的终端预警能力。帮助开发运维同学实时发现问题,快速问题的定位分析。
但目前整体方案还在持续建设中,还有部分能力需要持续进行迭代优化:
原文链接
本文为阿里云原创内容,未经允许不得转载。