AIOPS 智能运维 转

从去年下半年接触DevOps到在公司内部落地,花了半年时间,公司相关人员实在体会到效率的提升。

我公司目前的流程是svn/gitlab + jenkins做ci和cd,分测试环境、准正式、正式环境。自动化测试等都没有做。

【人肉运维】上下班路上在java程序员上刷文章,AIOps关键词一再出现在我的视野,手里有120几台阿里云服务器,有问题都是人肉处理,虽然使用了saltstatck做了配置管理和程序管理,但是不够理想。特别是有问题比较难快速定位到问题。

今天学习了《企业级AIOps实施建议白皮书V0.6》,把学习笔记整理在下面。

AIOps就是智能运维(Artificial Intelligence for IT Operations),目标是基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维所未能解决的问题,提高系统的预判能力、稳定性、降低IT成本,并提高企业的产品竞争力。

AIOps 不依赖于人为指定规则,主张由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。

类似于使用tensorflow使用CNN训练出图形验证码识别模型吗,然后就无敌了!!!

AIOps的能力等级:尝试应用、单点应用、串联应用、能力完备、终极AIOps

【学件】学件(Learnware)=模型+归约,也称AI运维组件,在类似API/公共库的基础上,保存了通过自学习/专家算法学习到的解决特定场景的智能规则。

AIOps能力框架?

【智能变更】DevOps通过串联变更的各个环节形成流水线提升了效率。智能变更的系统决策来源于运维人员的运维经验,这些经验通过机器学习、知识图谱等手段转化成系统可学习和实施的数据模型。

【智能问答】AIOps智能问答系统通过机器学习,自然语言处理等技术来学习运维人员的回复文本,构建标准问答知识库,从而在遇到类似问题的时候给出标准的,统一的回复。这样,不仅可以有效地节省运维人员的人力成本,还能够使得提问得到更加及时的回复。

【智能决策】AIOps 智能决策一方面可以将运维人员的决策过程数据化,构建决策支持知识库,从而实现经验积累;另一方面,由于系统掌握了从全局到细节的数据,再结合决策支持知识库,可以为更加准确的决策提供最有力的支撑。

质量保障:数据源/指标/文本异常检测、基于人工故障库/数据挖掘的故障诊断、故障预测、故障自愈。

成本管理: 成本优化、资源优化、容量规划、性能优化

关键技术:

1. 数据采集

2. 数据处理

3. 数据存储

4. 离线和在线计算

算法技术

1. 指标趋势预测

2. 指标聚类

3. 多指标联动关联挖掘

4. 指标与事件关联挖掘

5. 事件与事件关联挖掘

6. 故障传播关系挖掘

参考资料:企业级AIOps实施建议白皮书V0.6

http://www.gaowei.vip/lib-69714852.html

---------------------

作者:wxmgcs

来源:CSDN

原文:https://blog.csdn.net/wxm6614/article/details/80457568

版权声明:本文为博主原创文章,转载请附上博文链接!

你可能感兴趣的:(AIOPS 智能运维 转)