ai智能运维总结

sdn控制器可以真正帮助运维工程师感知网络,基于telemetry技术实时传输,按业务所需的数据采集点和基于硬件的精确时刻下的数据采集,真实呈现网络状态,从用户体验,应用真实的运行状态感知网络,对网络进行多维度的运维。

sdn控制器数据处理流程:订阅数据(syslog获取设备日志,snmp设备数据,telemetry性能数据);采集(sdn订阅数据后,有采集服务完成数据采集,用telemetry秒级采集);缓存/分发(海量数据上传至sdn后,经过高吞吐消息缓存机制,分发到对应的ai服务进行分析);ai运算(sdn控制器根据采集的原始数据多维度分析处理,结合ai机器学习算法来进行业务问题分析);存储/显示(数据分析完后,保存到快速分布式数据存储系统中,并完成功能展示。)

智能运维解决方案支持有线无线网络故障识别和根因分析,所以必须从有线无线设备获取相关kpi数据,通过telemetry上报刚sdn控制器,sdn控制器将这些大数据进行归类,用ai算法呈现整个网络质量和故障识别。再一个是根据设备提供的数据,建立可视化用户体验质量评估体系,基于接入体验,漫游体验,吞吐体验,网络可用性四大类指标的质量评估体系,直观的呈现全网质量。
无线设备主要采集:ap的cpu,内存利用率,在线用户数,射频信道,干扰,流量,用户接受信号强度,丢包率,时延抖动,dhcp,认证。
有线设备主要采集:cpu,内存利用率,接口收发包次数,广播包数,丢包数。交换机上的光链路的光功率,电压,温度。
sdn控制器基于协议回放,实现用户接入问题的故障定位,以图形化方式展现用户接入每一个过程,协议回放实现用户接入三个阶段(关联,认证,dhcp)全流程可视,统计各个协议交互阶段的结果和耗时,实现问题的精准定位。运维人员接到用户反馈认证失败信息后,根据用户mac信息查找回话记录,成功和失败的情况一目了然,根据失败记录点,查看失败详细记录。

运维总结四种问题:
连接类的问题:关联失败,认证超时,认证失败认证慢,dhcp失败,dhcp慢。
空口性能问题:弱信号覆盖,信道干扰,空口拥塞,非5g优先。
漫游类:乒乓漫游,漫游异常
设备类:设备离线,cpu和内存暂用高,供电故障。

ai运维用到四种以下算法:
高斯过程回归算法:利用历史数据来计算和评估下一个调优周期内的ap负载预测值。
神经网络算法:利用历史数据来计算和评估下一个调优周期内的ap负载预测值。
聚类算法:利用大数据计算和完善网络设备拓扑分组信息,使得完了拓扑更加精准。
随机森林算法:通过对历史数据分析来识别边缘ap。

有线无线通过telemetry采集网络设备的丢包,流量,状态,配置等信息,可以完成高性能,实时采集,通过ai算法对数据信息进行分析极呈现,结合emdi(增强型媒体传输质量指标,对音视频业务监控,质量感知,保证音视频业务用户体验)emdi协议对视频每一帧进行监控,底层用udp协议。。
telemetry通过push模式实时高速的向采集器推送网络设备的性能数据指标,提高网络设备和网络利用率。采集精度可以达到亚秒级和毫秒极。sdn控制器中的telemetry(tcp协议)通过yang语言采集原始数据,使用protobuf编码格式通过加密通道将原始数据通过grpc谷歌远程调用协议送给sdn控制器,从而实现:原始数据采集,数据模型,编码类型,传输协议的融合。

你可能感兴趣的:(笔记)