如何改善监控问题,试试打造企业统一监控平台体系!_第1张图片

上了一定规模的企业里,在IT运维管理方面一般都上线了相应的监控工具,例如:基础系统监控、网络监控、机房动环监控、应用性能监控、日志监控等。但是可能每隔个1~2年,企业就会发现监控工具可能满足不了当下的需求了,又会进行新一轮的监控产品选型和引进的过程,以此循环往复。



企业监控的现状&问题


如何监控?

  • 从动环到硬件到软件到应用到用户,监控对象多且杂,如何一一覆盖?

  • 针对存量监控工具如何消化?

  • 监控工具之间的孤岛要如何处理?


如何告警?

  • 告警太多,熟视无睹,如何沉淀有效告警?

  • 系统越来越大,运维成了摸象的盲人,怎样看到监控全局?


如何处理?

  • 告警处理无记录,和企业运维流程管理脱节,怎样形成知识沉淀?

  • 告警处理纯靠手动,每个月都在徒手处理相同的故障,如何避免?

                                             

如何改善监控问题,试试打造企业统一监控平台体系!_第2张图片


  • 企业IT业务和技术发展太快,监控能力跟不上;

  • 产品化监控建设思路,导致存在各种监控烟囱;

  • 市场监控产品现状和运维人对于监控认知的误区;


如何解决呢?首先需要我们认清以下3个关于企业IT监控治理的客观现实:


  • 企业IT监控治理的目的是为了及时发现问题,解决问题,直至预测问题,不是为了整合监控系统。


  • 企业IT架构现在很复杂,未来更复杂,难以通过1~2个监控产品就解决所有的监控诉求;也不存在这样的产品和厂商,必然各有所长。


  • 新的业务、系统和场景催生新的监控需求(例如容器),企业未来监控一定是多种监控产品并存,构建功能可持续成长的监控平台势在必行


如何改善监控问题,试试打造企业统一监控平台体系!_第3张图片

在认清监控治理的现实的基础之上,需要实现监控建设的思路的转变:由产品化思路向平台化思路的转变


由要找一个大而全的监控产品,囊括全部的监控诉求……转变为需要一个具备功能生长性的监控平台,来承载核心监控诉求,并能统一集成外部的各种监控产品,服务于业务监控的目标……。


如何改善监控问题,试试打造企业统一监控平台体系!_第4张图片

构建功能可持续成长的监控平台,关键在于监控平台需要具备PaaS属性:


监控iPaaS层

我们称之为监控平台层,负责提供面向各类监控对象的基本的监控采集、存储、分析和告警的能力和工具;同时需要提供PaaS集成能力,能够对接和集成外部监控工具和系统


监控aPaaS层

我们称之为监控场景工具层,通过调用平台层的监控能力和监控工具,面向具体的应用和业务,提供组装式的、复合的监控场景工具,例如:统一告警中心、监控可视化中心、故障自愈处理中心、转工单处理等。

如何改善监控问题,试试打造企业统一监控平台体系!_第5张图片

回到文章开头的问题,基于监控平台+监控场景的模式,我们能够实现整体的监控平台体系的建立:

如何改善监控问题,试试打造企业统一监控平台体系!_第6张图片


如此,则能够实现:

  • 各类IT对象的监控需求的覆盖,并且能够通过集成方式有效利用存量的监控工具,实现监控数据之间的共享和融合;


  • 通过告警中心结合CMDB数据,实现面向业务和应用的有效告警的沉淀,并作为最终的告警输出到外部的可视化系统、通知系统和工单系统等;


  • 基于监控平台与ITSM系统,实现有效告警的转工单处理,实现告警处理的跟踪和知识的沉淀;基于监控平台与自动化工具的集成,实现常规告警的自动处理和故障恢复。


重塑企业IT监控治理格局

如何改善监控问题,试试打造企业统一监控平台体系!_第7张图片

如此一来,基于平台化监控体系,我们就能够解决文章开头部分的问题,实现:多采集源兼容、监控告警统一关联处理、监控逻辑分层、监控对象灵活扩展、监控架构解耦,避免过往隔三差五重复建烟囱的企业IT监控建设模式,实现企业IT监控资源的有效整合,实现真正面向业务及应用的整体监控,重塑企业IT监控治理新格局。


作者:赵海兵


文章回顾

云计算 | 数据在云上安全吗?DDoS***怎么办?

如何基于TAPD实践Scrum的敏捷开发?

嘉为出席GOPS全球运维大会:运维巅峰时代,研运中台或是唯一选择

错误提示:网络连接问题?试试用netstat监控网络连接!

2019年嘉为研发运营一体化技术中台落地研讨会完美收官!