Tech Minds | 邵海杨:三大法宝,应对互联网运维三大挑战

分享 | 邵海杨
整理 | 路途

Tech Minds | 邵海杨:三大法宝,应对互联网运维三大挑战_第1张图片

Tech Minds是又拍云主办的高端技术领导人私享会系列活动,每个月在全国不同城市巡回举办。为了保障私享会的分享效果,我们对参会人数进行了控制(15人以内),参会者主要是互联网公司技术负责人(C-Level、总监级或运维负责人)。
Tech Minds的第一、第二期分别在深圳、广州举办期,第三期Tech Minds将于8月27日移师北京。

运维乃IT之本。
8月6日,以“运维与架构之美”为主题的又拍云Tech Minds第二期在广州举办。作为10~15位嘉宾规模的小型私享会,Tech Minds不仅关注技术,同时关注管理,“老司机”分享的经验教训一定能让你有所启发。
之前小拍发布了优维科技DevOps管理专家王津银在的Tech Minds第二期上的精彩分享。
今天小拍带来又拍云运维总监邵海杨的分享,邵海杨从架构设计和协同管理的角度诠释了运维的经验启示。

过度的优化就是毁灭


互联网运维主要解决三大挑战:高并发、高可用性、快响应。互联网运维或云运维难免要经历几大阶段:
第一个阶段,机器从少变多,这个阶段遇到的挑战就是业内较火的自动化部署,也叫作高效运维,实现服务器轻松部署。
第二个阶段,监控的体量从小变大,如果只有几十台机器的时候,用一台电脑,单屏或多屏就可以完成,可是当面对3000台机器、几十万的监控项的时候,就需要用一些其他的工具,比如说又拍云正在用的小米的监控、分布式的Zabbix、ELK大数据日志监控等等。
第三个阶段,性能要求由慢到快,随着负载增大,应用复杂,要想把服务器的潜力性能全部挖掘出来。这个阶段对运维人员的经验、开发的内功要求都会很高。
根据又拍来自身的运维发展史,从“可用”,到“用好”, 现在往“好用”的方向前进。
我认为,过度的优化就是毁灭,运维的艺术一定是审时度势,在合适的时间,用合适的资源去完成合适的事情,做到弹性可控。如果在这个进化过程中,不把握好节奏和协调性,自动化部署时机器虽然增加了,但是监控不到位,这个时候就会失控, 好事也会变成灾难, 所以,除了有加速器还要有刹车机制 。
在运维的道路上,一是弹性可控,二是恰到好处,过度设计、过早优化取决于公司的综合条件。”

运维的法宝,三位一体


在运维、监控、性能三个方面,有三大法宝:运维自动化、监控常态化、性能可视化。

Tech Minds | 邵海杨:三大法宝,应对互联网运维三大挑战_第2张图片

首先是运维自动化。运维的自动化是基础,又拍云现在已经过了运维自动化这个阶段。我们会通过一些工具把工作做自动化、流程化。又拍云的4000多台机器,绝大多数都是自有采购的,要求服务器厂商根据我们的需求做一些定制,如将又拍云自有的嵌入式系统烧进去,出厂时直接发往机房。因此,就算业务扩展非常忙的时候,都没有发生过几十台机器在公司上电, 部署系统, 打包发货的情况,服务器直接从产线发到机房, 连上网络,就可以对服务器进行远程控制,甚至做系统整体升级。
第二点是监控常态化。不同的阶段它其实有很好的一些工具会出现。比如早几年前没有ELK,只能靠Zabbix这样的工具。现在的Zabbix监控,我们会根据不同的运营商分配不同的节点,构建分布式的监控系统。
第三点性能可视化。性能可视化主要是提供一个延续的健康报表,争取内部资源。很多运维又苦又累,其实苦于没有过多的资金,也没有过多的人力,但在业务发展期,又需要运维保证设备负载稳定,这是一个非常矛盾又现实的问题, 而专业术语老板听不懂,这样就更不容易获得资源支持。因此,可以提供一些数据报表,便于老板理解,从而争取资源。
一个好的运维架构师,绝对不会局限于运维这个专业领域, 而是要像优秀的销售一样,能够说的漂亮,抓住老板和开发人员的焦点和共鸣之处, 也要写的生动,利用数据可视化的工具,生成浅显易懂的图表,争取资源, 敢赌敢拼的精神, 运维往往是背锅侠和接盘侠的化身,但是如果能够抓住机会改变, 就是成功逆袭。

让机器像人一样有感知


运维的指导思想,就是让人像架构一样扩展。
运维人熟知web如何扩展,数据库如何读写分离、动静分离、层层缓存等等,其实在管理运维团队的时候,也是要像架构一样可扩展,从而避免失控。
第一,要做到与人无关,是人总会犯错, 受情绪影响总会误操作,但是机器不会。所以尽量能用机器生成的方式就不要浪费人力,能够将变化的东西固化成一个流程。要做到不管是谁操作,无论操作了多少次,出来的结果仍然是一样的。
第二个,就要与己无关。当做到“与人无关”的时候,还要做好培训和工具。这样的话即便某个人不在,至少有后备的人员在,相当于人员的backup。
第三个,就是与状态无关。大家都知道web的扩展性最强,就是因为它是无状态的,可以通过前端加一个负载均衡做到水平扩容,所以,要把有状态的东西变成无状态,就要利用好消息队列和各种中间件如rabbitmq、kafka、redis等。
第四个,与数量无关,部署要恒定。就像把操作系统固化以后,无论一天上多少个节点,每天部署多少次,都不受影响。

海杨的分享有没有Get到你呢?
关注又拍云,关注Tech Minds,收获你的技术干货。

你可能感兴趣的:(Tech Minds | 邵海杨:三大法宝,应对互联网运维三大挑战)