前言:

最近开始值班了,半夜三更处理一些个小问题,自己感觉是小事,但是对于边缘节点业务线来说可能是天大的事。 在想,其实这些个东西,完全可以做成自动化的东西。但是这个时候就出现了走流程和承担责任的问题了 ~ 大家懂的~


其实对于快速运维方案来说,容易卡壳的地方,肯定会有走流程,确认流程 ~ 其实有些时候,咱们可以下放些权利,让普通管理员有少许控制权 !

     我就拿下面的例子说说吧,基础部门和业务部门分别做啥的大家肯定是有了解的 ~ 当业务运维工程师连接不上一台服务器的时候,会发邮件找人解决,其实发为啥发邮件,是因为他没有权限,他没有这个责任,他不是基础部门。其实这些个问题,往往是自己的程序致使cpu跑死了,或者是利用率跑满了,导致ssh连接不上,可以让他们选择重启或者是在特殊的环境下自己连接到管理网处理的 ~

      既然要这么做,那方方面面都要想到,尤其是权限的控制问题了~


首先需要使用kerberos用户登录到平台上,后端会检测你是否已经有改组的权限。

对于复杂流程确认的运维自动化方案的理解与探讨_第1张图片

然后输入你要处理的服务器ip地址  (只有个别机房支持这套系统),系统会做ip的配对和字段的过滤。

对于复杂流程确认的运维自动化方案的理解与探讨_第2张图片


下一步后,会根据系统里面你的手机号码进行验证码推送。


对于复杂流程确认的运维自动化方案的理解与探讨_第3张图片


这时候就可以输入你的验证码了 ~


对于复杂流程确认的运维自动化方案的理解与探讨_第4张图片

验证通过后,你就可以赶紧自己的情况操作服务器了,需要注意的是,状态只存在于20分钟,20分钟之后会清空服务器端的session对应。

这里的重启服务器,调用的是ipmitool接口,可以实现针对硬件的操作。

如果想执行管理网的console操作的话,需要你的领导审批一个认证,你得到一个验证码,也就是说 当你有手机验证码和审批下来的验证码才可以用这个功能。  我们也不建议他们使用。

对于复杂流程确认的运维自动化方案的理解与探讨_第5张图片



点击执行后,还会给技术部抄发一份你刚才执行的过程和结果。

对于复杂流程确认的运维自动化方案的理解与探讨_第6张图片


像这样一个简单又高效的平台就产生了。这套系统安全方面我设计了两个点,一个是他的登录的判断,还有就是手机验证码的判断。如果想用控制台这样的功能,就要走一个流程了,但是也不建议他使用,对于一般人来说,这些已经够用了

总结下:

         我们可以把这些个小来小去的东西,都做成一些个小系统,以后这些个功能多了,可以集中在一个平台上。 这些都是咱们能提高效率,而不用为一些个鸡毛蒜皮的事情所打扰的好路子。