什么是网络智能运维?如何保障业务7x24小时在线?

华为推出了网络智能运维方案,一方面,可以实现各类运维数据的可视化;一方面,实现故障快速发现、定位以及恢复;另一方面,提供健康度全面评估、故障预测等智能化能力,实现基于异常检测和风险预测的主动性防护,保障业务7x24小时在线。

为什么需要网络智能运维

当前各行各业的数字化转型已成为一种必然趋势。大数据、机器学习等软件技术的发展,加速了行业数字化转型的步伐,越来越多的业务和应用将被部署到云端,企业使用和访问云的行为变得趋于日常。随着SDN(Software-Defined Networking,软件定义网络)时代、云计算时代的到来,计算和存储资源池化,让企业的数字化转型变得更简单,但是却让网络变得越来越复杂,网络运维也面临着巨大的挑战:

业务难感知

  • 当前网络运维主要还是面临单一的告警事件,但是由于现网的告警事件比较多,所以会针对告警做一些过滤,这样会导致缺乏网络级的完整评估能力。尤其在SDN等新技术在网络大规模应用后,除了要维护Underlay物理网络外,还需要额外维护一张虚拟的Overlay网络,而面向告警的运维能力是没有办法覆盖整个层面的内容。

  • 传统运维模式,运维人员往往扮演着事后“救火”的角色,需要事故发生后才处理。管理员无法对未来可能发生的故障进行动态预测,掌握运维的主动权。

故障难定位

  • 管理规模大:云计算场景下运维人员的管理对象从物理设备延伸到虚拟机,网元管理规模增加了几十倍;另一方面由于实时性分析的要求,设备指标的收集粒度从分钟级提升到毫秒级,数据量增加了近千倍;更重要的是对于故障的主动感知和排障,除了收集分析网络设备指标外,还需要结合实际转发业务流进行分析,数据规模则进一步扩大。

  • 业务路径多:网络为了提供高可靠和高带宽,往往被设计成负载分担方式转发流量,此时会使节点间流量经由哈希算法选择路径,转发路径的可能性随网络节点数幂级增加,管理员无法确定某业务流量究竟通过网络中什么样的路径转发,传统的定位手段时间长、严重依赖运维人员的个人经验。

故障恢复慢

  • 网络的稳定运行关系着国家信息安全和社会稳定。为了防范灾难和风险,保障业务连续性,国内外监管部门颁布了一系列业务连续性及容灾的标准。对于金融行业而言,若单机构单省中断半小时,那么定位为III级事故并上报银监会。对于大部分企业,业务中断会导致企业经济利益不同程度受损。这就要求遇到故障首先要在最短时间内恢复业务。

  • 在金融业务场景集中式部署转向分布式部署,系统部署复杂,运维人员被动响应加长了故障定位周期,故障定位时间平均76min,不能保障业务连续性。

为了解决以上问题,实现对网络实现精确运维,使网络的管理水平和服务质量得到持续提升,华为推出了网络智能运维解决方案。

网络智能运维有哪些好处

1、健康度全面评估,实现业务、网络实时感知

网络健康度评估方案对整个网络进行系统化的网络级的评估检测,帮助运维人员“看网识网”,提升运维效率和业务体验质量。主要包括三大部分:

  • 网络级的抽象建模:构建多层评估体系,定期收集网络的设备、协议、连接、业务等状态。

  • 全面智能化的健康状态评估:针对每一个层面分别构建网络对象模型,与传统网管的差异是,会关联网络的日志数据、性能数据、网络设备配置数据、以及业务主机交互的业务流等多个维度的数据。结合智能分析算法,智能化的评估网络每个层面的状态。还能够动态检测工作状态、网络容量等关键指标异常,主动预测容量、流量风险。

  • 界面化实时可视:通过多维度(包括图表等)的方式实时展示给客户,支持周期性生成网络健康度评估报告。便于用户网络部例行进行网络健康度检查,辅助用户主动排障。

2、故障根因快速定位,实现智能诊断

当前网络规模大、配置复杂、变化量大,很难快速地进行故障定位和排查。并且定位手段时间长,严重依赖运维人员的个人经验。

网络智能运维方案,可以实现故障根因快速定位:

  • 通过随流检测技术iFIT,对质差类业务(业务未中断但主观感知体验差)进行端到端的逐跳检测。智能网络控制器逐跳收集检测信息,并根据收集的检测数据精准定位故障点。

  • 结合用户现网的海量故障案例库和华为运维专家经验,根据不同的故障模式编排出用户可执行的排障任务链,从而缩短故障定位定界时长。例如针对业务连通性类故障场景,自动编排出相应的排障步骤,支持用户一键式自动排障。

  • 通过采集设备的ERSPAN流、Telemetry性能Metrics进行大数据分析,并结合AI算法,主动感知Fabric内可能存在的故障,智能分析识别是否存在网络或者应用的群体性故障。辅助用户逐步实现故障主动感知、分钟级故障定位定界的主动智能运维目标。

  • 通过AI算法,也可对一些未知故障进行学习和故障推理,帮助运维人员深度探索未知故障的根因。

3、故障自闭环,业务运行“0”中断

  • 网络智能运维系统采用规则引擎、智能化引擎、知识图谱等技术进行大数据挖掘分析,实现对故障的快速发现和定位,并通过与控制器的联动,可实现对故障的一键式恢复或隔离。在此过程中还可根据具体故障信息给出对网络或业务的影响分析,在下发恢复或隔离预案之前,也会向用户展示对应预案下发后对网络或业务将产生哪些影响,以便用户进行决策。

  • 针对质差类业务,网络智能运维系统可进行业务路径自动调整,避开引起质差的链路或者节点,实现业务SLA的自动恢复。

网络智能运维的架构

网络智能运维按照场景不同,又分为数据中心网络智能运维和运营商网络智能运维,下面分别介绍两种方式的架构。

1、数据中心网络智能运维的架构

数据中心智能运维方案架构如下图所示,逻辑上分为网络层、控制层和分析层:

  • 网络层:主要是指数据中心网络设备,这些设备在运行过程中上报指定的镜像报文或性能、日志等信息给分析层做进一步处理和呈现。网络层是分析层的数据来源。

  • 控制层:主要由iMaster NCE-Fabric控制器组成。iMaster NCE-Fabric与FabricInsight对接,完成运维过程中网络业务自动发放,可以对接云平台实现云网场景或对VMM实现网络虚拟化场景下的逻辑网络编排及网络设备配置的自动转换与下发。除了网络业务自动发放以外,还能实现路径探测、网络可达性校验、以及故障智能发现、定位、恢复或隔离。

  • 分析层:主要由iMaster NCE-FabricInsight承担。iMaster NCE-FabricInsight基于华为大数据平台构建,接收来自网络设备的Telemetry方式的数据上报,运用智能算法对上报的数据进行分析、呈现。iMaster NCE-FabricInsight可辅助用户逐步实现故障主动感知、分钟级故障定位定界的主动智能运维目标。

什么是网络智能运维?如何保障业务7x24小时在线?_第1张图片

数据中心网络智能运维方案架构示意图

2、运营商网络智能运维的架构

运营商智能运维方案架构如下图所示,逻辑上分为数据收集、数据分析、数据呈现三部分。

  • 数据收集:智能网络管控器iMaster NCE-IP向设备下发订阅消息,网络设备通过网络管理协议实时上送运行数据、配置数据、资源数据给数据分析域进行分析。

  • 数据分析:数据分析实现对网络数据(设备、连接、协议、安全)和业务数据的分析。分析包括以下3个方面:

    • 对网络数据进行网络健康度分析、评估,向数据呈现模块提供健康分析数据,并将分析评估后的网络隐患上报给数据呈现模块,实现网络的主动运维。

    • 对业务数据进行业务质差分析,识别出质差业务,上报给数据呈现模块,对于有自愈需求的业务可同时实现业务路径自动切换,实现业务的主动故障感知、主动运维。

    • 对网络数据和业务数据进行关联分析,基于AI大数据以及专家经验等,实现故障的智能诊断,生成故障诊断报告上报给数据呈现模块。

  • 数据呈现:智能网络管控器iMaster NCE-IP将接收的数据分析结果多维度展示给客户,包括仪表盘、图表、报表、关系图等。数据呈现还可通过北向接口供第三方调用数据分析结果。

什么是网络智能运维?如何保障业务7x24小时在线?_第2张图片

运营商运维方案架构示意图

网络智能运维的应用场景

1、数据中心网络智能运维的应用场景

  • 业务变更的应用:实现仿真验证,评估业务下发是否符合预期;实现网络变更差异实时可见,识别设备变更前后快照数据及表项变化,从而辅助分析网络状态;实现VM生命周期跟踪,快速了解当前在线设备分布情况,帮助提前合理规划资源;提供配置回滚,快速恢复生产,减少业务中断损失;提供服务器自动化扩容,保障业务快速上线的需要。

  • 日常巡检的应用:评估设备、网络、协议、Overlay、业务多维度的网络健康度,结合Telemetry机制,整合网络中的配置数据、表项数据、日志数据、KPI性能数据,实时发现网络中各个层面的问题和风险;检测范围覆盖工作状态异常、网络容量异常、器件亚健康、业务流量交互异常等范围;还能实现网络性能异常的智能化检测,使网络先于业务发现隐患。从而帮助运维人员“看网识网”,直观地呈现全网体验质量。

  • 故障应急恢复的应用:通过收集网络中多种故障信息,从海量信息中找到故障相关的线索,实现故障快速准确的分析定位。并提供一键式故障闭环能力,保障业务持续稳定运行。

  • 故障根因定位的应用:通过基于“知识图谱”的推理引擎对收集的网络数据进行分析,对故障进行快速根因定位。对于未知故障也能进行学习和故障推理,帮助运维人员深度探索未知故障的根因。

2、运营商网络智能运维的应用场景

运营商智能运维已应用于智能云网解决方案。

目前,XXX运营商已使用了运营商智能运维方案,应用场景包括:

  • 专线业务质量多维多视,质差主动预警。

    • 运营商智能运维系统提供异常VPN KPI指标分析、异常VPN流量分析、接入点KPI指标分析。

    • 专线客户可实时查看专线业务丢包率、时延等SLA指标,并设置质差阈值,超过阈值可主动预警。

  • 故障自动精准定界,支撑精准故障派单。

    • 专线业务路径精准呈现,故障点逐跳定界,辅助运维人员快速排障。

    • 专线业务7x24小时历史回放,便于事后故障按需分析。

你可能感兴趣的:(华为认证,网络,运维,华为认证,HCIA,HCIP)