云计算之路-阿里云上:终于找出了500错误的真正原因

云计算之路-阿里云上:终于找出了500错误的真正原因_第1张图片

最近,您在逛园子时,可能与上面这个画面相遇过,尤其是今天下午。

不知道这个画面给多少园友带来了不快,造成了麻烦,在此向您致歉,请谅解!

这个是很棘手的问题,500错误是由阿里云负载均衡SLB返回的,但很难确定究竟是SLB的问题,还是云服务器上站点本身的问题(SLB相当于是一个反向代理,只是将用户的请求转发给云服务器,再将云服务器的响应返回给用户)?

刚开始偶尔出现时,我们无从下手。今天下午500频频出现,很多园友的热心反馈让我们了解到了更多的错误信息。我们一边从我们的云服务器本身查找问题的线索,一边将了解到的错误信息反馈给阿里云,从负载均衡SLB中寻找线索。虽然不知道问题出在哪一方,但我们相信只要双方都认真对待,努力查找问题的原因, 问题就一定能解决。

在晚上快7点的时候,我们接到了阿里云技术人员的电话,说找到了问题的原因——有一位负载均衡用户的节点被攻击,我们的负载均衡被牵连。阿里云针对这个情况进行处理后,我们的负载均衡恢复了正常。阿里云说他们还会进一步从产品层面有效解决这个问题。

这和之前的磁盘IO问题是同一类型的问题——不同用户使用的资源之间如何有效隔离,互不影响。这可能是一个很难解决的问题,但是作为一个公众服务平台,这是必须要解决的问题。希望阿里云早日解决这个难题,让用户能安心地享用属于自己的资源。

你可能感兴趣的:(云计算)