2025年3月1日,亚马逊云服务(AWS)位于中东阿联酋的ME-CENTRAL-1数据中心发生了严重事故。凌晨4点30分左右,一个不明物体撞向该中心的mec1-az2可用区,引发了火花并点燃了火灾。消防人员为了控制火势,不得不切断了电力供应和发电机。这次意外最初只影响了一个可用区,但很快波及到了mec1-az3,甚至连未直接受损的mec1-az1也出现了EC2 API错误和实例启动失败的情况。为了确保客户服务的连续性,AWS把流量重新路由到了其他区域。 这场火灾导致EC2实例、EBS卷和RDS数据库暂时不可用,还有其他很多服务的错误率也随之升高。不过,那些在多个可用区有备份的用户反而没有受到波及。截至发稿时,AWS还无法在受影响区域启动新的实例,只有未受影响的地区里的旧实例还能正常运行。 亚马逊方面把这次事件归咎于物体撞击导致的局部电力问题。这个问题是从大约凌晨4点30分开始出现的。那个时候,有一个可用区(mec1-az2)被物体撞了一下,产生了火花并引发了火灾。为了把火扑灭掉,消防部门把这个设施的电力给切断了。 这次中断影响了很多AWS服务,光是美国东部时间凌晨4点30分前后发生的事故就给ME-CENTRAL-1地区带来了巨大的影响。最开始是mec1-az2的单个可用区出现问题,后来又扩展到了mec1-az3和mec1-az1这两个区域。受影响的服务包括EC2、EBS、DynamoDB、Cognito还有RDS这些关键服务。另外还有超过50项服务也受到了牵连,比如Lambda、S3、EKS、Redshift还有CloudWatch等。 面对这种情况,AWS建议大家尽量使用备用的可用区或者直接把故障转移到别的地方去处理。至于具体的原因,AWS还在调查当中。他们没有透露更多关于那个所谓“物体”的细节信息,也没有把责任推给任何人或者任何组织。 这次事故是AWS自2025年10月以来遇到的最严重的一次中断了。那次也是在美国北弗吉尼亚州的US-EAST-1地区发生的问题。现在的情况还在不断变化中,数据中心知识网会随时跟进最新消息来更新这篇文章。 Q1:AWS中东数据中心到底出了什么事? A:大概是在太平洋标准时间凌晨4点30分左右的时候吧,一个不明物体撞到了位于中东阿联酋的ME-CENTRAL-1数据中心的mec1-az2可用区。因为这一撞产生了火花并引发了火灾。为了把火扑灭掉嘛,消防部门把这个设施的电力给切断了,结果就造成了大规模的服务中断。 Q2:这次AWS的服务中断影响了哪些方面? A:主要是EC2服务出了问题嘛。DynamoDB、Cognito还有RDS这些数据库和应用服务的性能都有所下降。总共加起来将近60项服务都受到了影响呢。比如Lambda、S3、EKS、Redshift还有CloudWatch这些也在列。 Q3:用户该怎么应对这次AWS中东地区的服务中断? A:AWS建议大家尽量使用备用的可用区或者直接把故障转移到别的地方去处理。在多个可用区都有备份的客户就没什么大碍了,但就是没法在那个地区启动新的实例了。AWS说电力恢复和完全修复大概还得需要几个小时的时间呢。