[阅读笔记]专访刘毅:阿里巴巴云计算平台运维故障分析与排查

渐渐的从命令行自动化做到web自动化,点点鼠标完成5000台服务集群的停起,升级、查看状态信息等工作

工具写的越多越感觉到需要用数据的分析来帮助我们判断怎么样做才是高效的,借助我们身后平台的力量
现在这些廉价的PC服务器,几乎每天都会有宕机
大规模服务器下,我们不能每天去重复劳动,对运维价值的提升不大
我们通过研究磁盘参数,做到磁盘健康的预测
我们拥有庞大且真实的实际数据,把这些数据采集并且在云平台下做数据分析挖掘,提炼适合我们不同业务场景下的磁盘监控度的预测 双11之前,做到预测结果不好的硬盘提前下线
预测硬盘健康的时候,并不是说我们拿一个值,越大越好或者越小越好,真实数据告诉我们是有临界区间

文章:专访刘毅:阿里巴巴云计算平台运维故障分析与排查

你可能感兴趣的:(运维)