自动化运维面临的挑战

为什么80%的码农都做不了架构师?>>>   hot3.png

    我这里所说的挑战,是在达到一定规模的IT公司,或者对计算机较为依赖的各个行业公司都会遇到的,在全球信息化的今天,是很难回避的问题,特此叙述一下,欢迎大家来讨论:

  1. 分布在全国(全球)各地的网络节点
    网络节点通常和机房等价,一个大公司在北上广,乃至国外各有一个机房再正常不过了。每个机房自身是独立的局域网,对外有一个(或者多个,特别是双线机房)出口交换机,每个机房由本地网管日常维护。
  2. 成百上千台服务器,型号多种多样,配置五花八门,操作系统不统一
    像谷歌和淘宝这类巨无霸,万台才算起步啊!品牌一般就是这几家:IBM、Dell、华为、浪潮等,型号不同,各种硬件可就多了去了,DIY组装的服务器也有不少,操作系统可以粗分为windows和linux2大类,微软的还好,而linux的发行版碎片化严重(想到了安卓也有这个问题)。
  3. 半手工化的软件安装方式
    服务器出厂时,多半只有一个操作系统,其他公司要用的软件要靠网管人肉安装,一台机器装个把小时,如果来上一批机器,网管都想跳楼,效率可想而知。
    稍微好一点的做法是远程控制,弄个安装脚本让机器自己下载、自己安装——这很考验网管的脚本编写水平,用于不同业务的机器装的软件当然各不相同,脚本得跟着换模块和参数(顺带提一句,网管为此累积的不少脚本很好使哈)。不管怎么说,和第一种相比,网管总算可以轻松不少,至少可以一边喝着咖啡,一边上网,一边监控着一批机器的安装进度。
  4. 服务器实时状态的监控和预警
    为了实现负载监控,业内通常的做法是安装开源的监控软件,如mrtg、Nagios等经典工具,不得不佩服国外的大牛们。遗憾的是这些开源软件适用性和扩容性需要公司针对自己的业务,二次开发,这方面请咨询业内高手,非我擅长。
  5. 远程控制
    只远控一台机器,用ssh就足够用了。现在问题来了,如果有一批机器需要修改某个相同的配置文件,怎么办?一台台ssh?网管晕倒在地

以上是我的一点看法,此外还有和财务资产系统对接等问题,就不提了。关于我的解决方案稍后再写 ^_^

转载于:https://my.oschina.net/yygh/blog/121489

你可能感兴趣的:(运维,操作系统)