背景与挑战
自信息化“十二五”以来,“三通两平台”成为教育行业信息化建设领域的重点。在以上背景下,各地教育部门和学校纷纷开展了大量建设实践。
随着当前教育应用创新的层出不穷,高校信息化建设也从数字校园向智慧校园转变时校园IT系统也面临着新的变革与挑战,主要包含以下两方面:
- 应用平台层面:教育资源公共服务平台、教育管理公共服务平台中的重要业务系统如一卡通、财务、查分系统等对可用性和敏捷性均提出了更高的要求;
- IT运维层面: 大量的系统和设备对运维提出了更高的要求,系统复杂难有有效的监控工具,因此导致运维问题难以快速定位,运维效果难以有效评估。
此外,随着数字校园向智慧校园的转变,该过程给校园IT运维也带来了以下痛点:
- 健康度感知:教育资源公共服务平台、教育管理公共服务平台整体健康度体系难以建立,无量化指标管理;
- 定位难:由于第三方提供的系统质量难以保证,导致师生在使用各系统平台(如备课系统、自主学习系统、校园综合管理系统等)时出现的问题难以复现,难以定位;
- 高并发:难以提前评估系统的并发瓶颈,导致阶段性爆发的考生查分热潮,时常引发系统宕机。
解决方案
高校智能业务运维三大阶段包含运维工具补全阶段、IT运维管理标准化阶段以及智能运维阶段。
高校运维工具补全
运维工具补全阶段主要包含基础设施监控,业务应用监控、用户体验监控、集中告警等校园IT基础设施监控的补全。
此外,随着智慧校园的的建设,学校IT基础建设的逐渐完善,多校区共用同一机房的特点,使得IT基础设施的实时在线与安全性能显得尤为重要。
基于以上背景,云智慧基础设施监控通过丰富的协议接入能力以及模型化定义能力,可快速支持新资源,实现资源的一体化监控,实时了解掌握服务器网络硬件软件等基础设施当前的健康状况,以便评估衡量基础设施使用率,为用户基础设施优化和了解基础设施设备的处理能力提供准确的数据,预测潜在的故障,进行提前预警。
校园机房可视化实时告警方面,云智慧提供机房的三维全景视图,包括机柜、机柜外单独设备;温湿度采集模块采集机房区域温湿度状态后接入该机房的串口服务器,串口服务连接网络后可将温湿度状态数据传送到云智慧服务器统一监控。
指标检测方面,云智慧内置了上万指标项,成功做到了开箱即用。
云智慧可主动发现业务问题,保障各园区教学楼专线高可用。一方面,云智慧通过全国乃至全球节点对高校对外业务进行7*24小时主动拨测,以便及时发现问题,主动告警;另一方面,通过在各校区办公楼布置云智慧监控魔盒,实时监控专线质量,提高用户体验。
随着校园各业务系统的逐渐完善,业务和业务之间的调用关系也逐渐复杂化,因此导致业务系统出现问题时难以快速定位。基于上述因素,面对复杂多样化的系统时,学校业务系统需要可视化的工具进行集中管理,同时量化第三方提供的业务系统质量,以便学校业务系统故障定位和分析。
云智慧拥有端到端全技术栈应用性能管理,包含支持移动和智能设备以便更好的理解真实用户体验;支持端到端高度虚拟化应用来跟踪负载变化;以及支持公有云、私有云及混合云的跨云环境部署方式。以上性能可快速定位教务系统问题,包含以下几方面:
- 精细运维:包含自动发现全局拓扑图、快速定位性能问题、应用间关联分析;
- 用户体验:包含自动获取所有用户行为、细粒度追踪真实的用户行为、操作及流程性能;
- 深度诊断:包含代码级问题诊断、分析堆栈语句性能影响、数据库SQL细化分析;
- 行为分析:包含业务行为统计分析、端到端事务追踪、快速定位性能问题。
业务分析方面,云智慧可基于唯一的请求ID标识自动串接整个请求,从前端到后端应用代码以及基础设施,基于单次请求序列还原问题快照,帮助高校从外到内逐步分析师生使用系统的问题根源,以此达到师生使用问题快速复现的目的。
云智慧高效解决方案可快速定位代码级问题。包含基于业务拓扑发现问题、移动端代码崩溃问题分析、Web端真实用户体验监控分析、请求与关键事务分析以及单次请求分析。
云智慧可基于各教务系统整合梳理应用以及IT资源情。一方面,系统架构拓扑图分层展示系统所有对象的健康程度及相互之间的依赖关系。另一方面,用户可根据资源快速查看纵向依赖关系以及分析关联的对象,从而加速根因排查过程。
云智慧提供告警的统一出口,以此实现告警集中化、自动化、多样化、智能化、人性化。主要包含以下几方面:
- 汇聚分散告警,进行标准格式化,实现集中化处理;
- 告警处置的自动化,确认、派单、升级、恢复;
- 告警通知功能支持多种通知方式,确保问题事件通知能够被即时送达;
- 基于规则对海量的、持续的冗余消息进行告警压缩和告警合并,抑制告警消息的数量,减少告警消息的频率;
- 提供告警静默选项,对系统维护时间窗口内的告警进行静默处理,从而减少不必要的告警骚扰。
高校运维管理标准化
高校运维管理标准化阶段包含ITSM、CMDB、运维自动化等方面技术的实现。云智慧通过基于标准化的管理流程,规范第三方服务,以此优化师生用户体验。
IT服务管理(ITSM)总体设计方面,通过云智慧数字化运营服务管理产品可以满高校IT服务管理系统的建设。通过现有产品功能+系统API接口+自定义流程+部分功能二次开发定制即可以满足对智慧校园项目的建设内容。
信息化资产集中管控方面,云智慧拥有基于自动发现的CMDB数据维护。通过Agent、API等多种方式,自动采集Iaas、Pass、Saas层的配置项信息。支持多数据源联邦采集,并调和各数据源的采集数据,确保CMDB中配置项信息的全面和准确。
下图为CMDB整体架构设计图。通过云智慧CMDB,可以完成对IaaS、PaaS到SaaS层的运维元数据的全面管理,为运维监控、服务管理和自动化等系统提供完整而准确的元数据支撑。
以下是CMDB应用于监控告警处理与自动化平台的数据良性循环过程。CMDB作为各种资源的配置信息库,为监控告警信息提供信息下钻能力,让单点告警信息拓展到具体影响面。自动化平台通过告警自愈触发系统修复,此时将通过CMDB获得任务执行的目标列表,提高任务执行的准确性与可性行。待问题系统修复后,CDBM将自动采集系统信息并更新原库中信息,完成信息归档。
信息办工单可视化方面,云智慧通过工单统计,使得高校信息办工作有迹可循,从而达到持续优化的目的。
高校运维智能化
高校运维智能化包含智能分析、预测分析、机器学习、AI等技术的实现。一方面,通过实现AIOps智能运维场景,转变运维管理模式,从而提高智能化和自动化水平。另一方面,运用人工智能算法基于数据特征感知业务隐患,从而可基于历史数据预测故障发生。
云智慧提供的指标异常检测旨在通过算法发现KPI(关键效益指标)时间序列上的异常点,然后通过告警告知运维人员相关风险。与此同时,指标异常检测也是其他AIOps场景的前置场景,其检测结果为后续的告警收敛、根因定位、故障自愈等场景提供输入信息。
单指标智能异常检测具体如下图所示:
多指标智能根因分析具体如下图所示:
智能日志异常检测包含日志异常模式检测、日志统计异常检测、日志顺序异常检测以及其他异常检测等。
云智慧提供基于用户体验的运维思路。从数据监控,到分析优化,到管理指导,最终提升了师生的总体满意度。达到了从基础、提升、管理、高级4个阶段的转变,实现从工具化运维接到智慧化运维的演进。
落地实践
某高校统一监控平台案例
需求痛点
- 业务系统众多,调用关系难以可视化;
- 难以感知用户访问体验;
- 出现问题,无法快速定位根源;
- 系统众多需要集中管理和集中监控。
方案亮点
- 对已有业务系统建立的统一监控平台
- 使用APM探针技术对业务系统的用户体验进行端到端的追踪
方案价值
- 管理价值:对庞大、多样、复杂的业务系统能够有全局上的把控;
- 运维与开发价值:能够有效监控业务系统的全量访问数据,从全局到局部做到精准定位、深入问题诊断。(譬如,业务系统运行拓扑、访问效率、数据库查询语句、主机信息等)
- 整体价值:快速提升业务系统的性能,满足全校师生的用户体验,保障正常教学活动的开展。
FlyFish开源福利
云智慧已开源数据可视化编排平台 FlyFish 。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现符合自己业务需求的炫酷可视化大屏。 同时,飞鱼也提供了灵活的拓展能力,支持组件开发、自定义函数与全局事件等配置, 面向复杂需求场景能够保证高效开发与交付。
如果喜欢我们的项目,请不要忘记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,我们需要您的鼓励与支持。此外,即刻参与 FlyFish 项目贡献成为 FlyFish Contributor 的同时更有万元现金等你来拿。
GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish
Gitee 地址: https://gitee.com/CloudWise/fly-fish
微信扫描识别下方二维码,备注【飞鱼】加入AIOps社区飞鱼开发者交流群,与 FlyFish 项目 PMC 面对面交流~