目前,长安汽车金融已通过建设APM、用户体验、日志、NPM、ITIM等实现从用户到代码、基础设施到应用、覆盖日志、网络、指标、链路、用户等多元化的数据采集体系和监控体系,实现通过全链路监控、日志分析等技术,实时分析快速定位故障,实现对IT/业务运行情况全方位感知。
但随着IT系统规模日益庞大,面对着海量的监控数据,长安汽车金融在智能告警方面面临着严峻的挑战。
部署前:挑战与机遇
● 告警处理:在独立工具数据下的故障事件跨平台监控;
● 告警信息统计:事前、事中、事后的告警信息统计挑战与运维管理成本高;
● 数据优先级判别:告警数据无效告警数据过多,告警事件数据缺乏有效关联;
● 故障处理:部分故障处理依赖经验和规则,影响根因定位效率,无法对业务系统、资源等实现统一全面可观测,提前预警。
为什么选择博睿数据?
✓ 一体化智能可观测平台功能丰富、高度灵活且部署功能直观;
✓ 解决方案面向千行百业,并能推荐卓越实践,同时提供优质的服务,满足更多场景的支持需求;
✓ 拥有丰富的行业服务经验和优秀的专家团队,能够帮助企业顺利转型。
服务内容
告警接入
对接监控平台的告警事件,如基础资源监控、网络流量监控、应用监控、APP监控、日志平台等,具备足够的扩展性,可以通过REST API自定义方式快速接入告警事件。
告警标准化
进行各类告警事件的标准化映射,将不同来源的告警信息,统一成相同的数据格式;针对不同的告警来源系统,可设置不同的映射规则,并可通过图形化界面进行管理与配置。
告警屏蔽
支持对指定异常事件的告警进行屏蔽,支持设置维护期间自定义时间及周期屏蔽告警。
告警降噪收敛
不仅支持跨告警源合并,能将多个跨源事件合并展示,还支持基于原始告警源与原始告警字段进行分组收敛并生成对应的告警,以及根据告警事件文本相似度、发生时间相关性以及智能关联场景进行收敛。
智能异常检测
运用人工智能技术,通过机器学习算法学习历史数据中的正常行为模式,自动化建立正常数据的参考区间,并识别和判定数据中的异常行为模式,发现复杂单指标或多指标的异常波动。
智能异常预测
运用机器学习和统计方法,学习历史数据中的规律,预测未来发展变化,并在异常时进行预警通知,以规避故障、进行资源规划、容量预测等上层业务,主动把控未来风险的发生。
智能根因分析
基于业务指标的异常分析,同时进行下钻分析异常链路和告警数据,结合对业务指标、基础性能指标、监控告警的综合排查,简化运维人员排查故障的流程,提高故障解决的效率,直观准确地找出根因。
“我们基于一体化智能可观测平台 Bonree ONE 为长安汽车金融建设智能告警管理系统,实现对应用系统运行情况的预测分析、告警故障的智能收敛、故障问题的智能根因分析,提升长安汽车金融信息系统智能运维水平及运营效率,保障业务系统高效运行,推进长安汽车金融信息科技向数字化、自动化、智能化转型。”
——博睿数据
部署后:客户价值
提高运维效率。通过智能告警系统的建设,实现了告警事件的统一管理,通过AI检测、AI预测、根因分析能智能算法,大大降低了无效告警信息的干扰,减少运维人员处理告警的时间和精力,提高运维效率及运维质量。
降低故障的业务影响。智能告警系统可以实时监测和预警可能影响业务连续性的各种因素,确保企业业务的稳定运行,避免因IT故障导致的业务中断,及时发现并处理故障,降低故障对企业业务的影响和损失。
提升业务稳定性。通过对告警数据的分析和挖掘,可以发现IT系统的潜在问题和隐患,为运维人员提供针对性的改进建议和优化方向,从而不断提升企业IT运维水平,保障业务的稳定运行。
提升运维自动化能力。智能告警管理系统具备开放性和可扩展性,能与其他运维工具和平台集成,通过跨域数据共享和协同工作,实现告警与工单、配置管理等运维流程的自动化衔接,提升运维自动化整体水平,促进运维团队的高效协作。