对于以“软件作为服务”的互联网公司而言,系统的可靠性、可用性、性能、安全性是互联网公司的核心竞争力之一,很大程度决定了服务质量、客户满意 度。为了提升客户的服务满意度,要建立一种“主动维护”的综合运维机制,对网络及系统进行定期检测和实时监控,在用户还没有感知的情况下,及时发现网络的 故障隐患并将其排除,从而保障电子商务系统的长期安全稳定运行,为客户提供满意的SLA服务。可以说有效的网络管理已不仅局限于网络层,它还面对着业务管 理的需求,甚至影响着商业运行的方方面面。
但是随着互联网公司的网络规模不断地扩展、网络类型逐渐增多,网络管理系统的作用越来越重要、也越来越复杂,数据配置、告警、统计和检测手段的不足直接影 响了运维效率,排除网络故障、软件系统故障更加困难、维护成本也急剧上升,单靠日常的手工方式进行维护已经不能满足业务发展要求。通过网管系统对系统进行 “主动维护”可以保证网管系统能够7×24小时对全网进行监控维护 ,满足系统高可用性、高可靠性、高性能、高安全性、高扩展性要求,同时有效降低运营成本,及时发现并排查故障,有效提升服务质量。
第一、管理对象的接入类型及系统的管理功能是水平可扩展的,随着被管理网络类型的多样化,网管系统具备管理各种类型网络的能力,而且功能实现也能够逐渐扩展。
第二、系统在处理能力方面要具有垂直可扩性。随着网络规模的不断扩大,网管系统必须满足能够管理始终处于增长态的网络的要求
第三、系统必须能够通过权限的划分,保证不同层次、不同地域的用户拥有不同层次的功能。
第四、网管系统应当具有较好的软件架构,提供较好的插件式扩展机制,以方便定制开发。对于电子商务系统核心业务功能的监控应该作为核心业务需求进行设计和开发,在规范上应当遵循网管系统的管理接口,以方便系统的集中统一管理。
第五:满足提供标准化的接口,包括JMX、SNMP等。
网管系统的功能分类:
Hyperic :http://www.hyperic.com/
Zenoss:http://zenoss.com/
GroundWorks:http://www.groundworkopensource.com/
OpenQRM:http://openqrm.org/
Nagios:http://nagios.org/
OpenNMS:http://www.opennms.org/
Zabbix: http://www.zabbix.org/
以上几个提供功能相对完整的综合解决方案,也即所谓的“企业级网管软件”,其他的参考10 Great Open Source Network Tools
最佳选择:Hyperic
Hyperic HQ 可以监控和管理:
最佳选择:bacula
系统的可监控性、可维护性、易部署性是电子商务系统建设必须考虑的核心功能之一,必须提前未雨绸缪,而不是上线之后再补充和完善。
基本原则:必须实现系统的集中统一管理、数据统一备份管理。
基本思路:选定一个相对完整的管理平台,然后在此基础上进行二次开发。在系统需求分析时候就必须把对核心功能的网管监控需求、系统的数据归档及备份 需求体现到核心业务需求中去,而不是作为可有可无的功能。在架构设计时候就必须对核心功能设计网管接口、对系统数据的备份归档进行统一设计考虑。这样后期 运营维护时候,才能够及时发现系统故障,降低系统的风险点。所有系统的管理监控功能、数据备份应当遵循网管系统、备份系统的接口要求。
使用 vs. 开发:网管系统不应当只是停留在监控数据库、操作系统等使用层面,必须让网管系统帮助把核心业务系统的功能管理起来。核心系统的网管接口由程序员完成,但 与网管系统的融合及二次开发可以考虑让系统人员来做,这样可以帮助系统人员提升其职业技能,也可以让程序员集中精力完成业务功能的实现。
怎样利用网管系统来简化软件上线部署统一的分发管理、部署管理?
https://www.theforbingroup.com/files/TFG%20-%20Monitoring%20Whitepaper.pdf
http://www.itmanagement.com/features/10-open-source-network-tools-052407/
http://redmonk.com/cote/2007/01/16/open-platforms-in-systems-management/
http://www.openxtra.co.uk/blog/network-managements-new-wave/