浅谈小型开发团队的运维

场景


最近从大公司离职后,现在带领小团队做后端开发,刚起步,手下有几个弟兄(木有运维汪)……紧急的开发1.0版本的业务中……突然一天,运营小妹说客户反映APP端下不了单了,排查之后,是因为线上主服务器的php-fmp进程挂掉了……涉及到交易和钱的都是大事,运维刻不容缓……


分析


1.在帝都立马招一个运维团队,对现在的小团队既浪费又不现实……
2.只好选择搭建个运维平台……由于之前就是运维出身,zabbix和nagios都搞过,个人比较偏向zabbix,原因就不在这里解释,网上一搜一大把……但是问题又来了,zabbix必须得有专人维护,譬如添加报警,修改报警条件,还会设计写python脚本,得还招人,又走了1中的套路,感觉不可选(就当前的 人员结构不可取)……其实我的运维需求很简单,就几台服务器出现问题的时候给我发邮件通知就行,不涉及交换机,不涉及视频宽带什么的……偶然让我发现了cloudinsight,感觉这就是我想要的

zabbix: 上家公司在用,涉及到视频和CDN等5万台服务器,是监控利器,可以二次开发, 源码我也分析过,木有用框架写,前后端是一起的,当时很尴尬,很蛋疼
cloudinsight: 一个脚本命令就可以使用监控平台,平台图比较直观,对于小团队来说,这些监控策略就够了,报警邮件通知也就够了


使用


结合大公司的运维开发经验,个人建议在cloudinsight设置以下几类监控报警策略(具体参数自己设定):

  1. CPU使用率大于70%
  2. 内存使用大于80%
  3. 磁盘使用率大于80%
  4. 服务器Ping不可达
  5. nginx(各类进程)进程停止
  6. 80(各类端口)端口不可访问
  7. 5分钟/15分钟load负载大于3
  8. 接口(API)URL相应状态码不为200
    9.磁盘分区发生改变

你可能感兴趣的:(operation)