法国机房(数据中心因暴雨崩溃,应急处置如何做?)

Posted

篇首语:见强不怕,遇弱不欺。本文由小常识网(cha138.com)小编为大家整理,主要介绍了法国机房(数据中心因暴雨崩溃,应急处置如何做?)相关的知识,希望对你有一定的参考价值。

法国机房(数据中心因暴雨崩溃,应急处置如何做?)


就算没有暴雨,在云时代,人们对宕机的容忍度已经越来越小,这对数据中心容灾的能力提出了新的挑战

图/IC


文 | 《财经》记者 吴俊宇 顾翎羽

编辑 | 谢丽容

“上云”已是共识,但云计算在自然界的“云”面前依旧脆弱。

7月18日18时开始,河南郑州出现罕见持续强降水天气过程。强降雨导致当地多区域电力、电信基础设施受到影响。云服务需要24小时在线,电力是其基础。断电的直接结果是,云服务受到了不同程度的冲击。

7月21日,中国移动公告称,河南部分地区受极端天气影响,枢纽机房断电,目前无法正常办理移动业务。

当天,河南本地一家名为海腾数据的服务商也在官网挂出数据中心受影响的通知。该公司称,机房由柴油发电带载,附近油站因道路积水导致无法供油到机房。考虑到存储油量有限,市电恢复时间不确定,建议用户紧急备份数据,或远程关机以避免数据受损。

7月22日,《财经》记者致电多位海腾数据人士得知,其服务依旧尚未完全恢复。出问题的郑州机房已有十余年历史,存储了当地政府、企业的数据。

此外,中国联通、中国电信也不同程度受到了影响。部分互联网公司在郑州的服务器节点出现波动。老牌网络原创文学平台晋江文学在7月20日发布公告称,主要网站业务所在的异地骨干机房在郑州市,机房因为暴雨停电暂时靠备用发电机供电,部分线路会有不稳定现象。这意味着,短时间内,晋江文学的一部分服务和用户将受到波及。

在中国企业在“上云”越来越普遍的情况下,云基础设施的7×24小时运转显得愈发重要。公司规模越大,用户越多,宕机造成的服务中断将引发越严重的后果。郑州暴雨前一周,B站、A站、豆瓣、晋江文学也曾因服务器故障服务长时间中断。尤其是中国最大的视频社区平台B站的宕机,在全网引发轰动。

人们对云宕机的容忍度几乎到了无法容忍的地步了。“水电煤”是生活必需品,云作为新一代的“水电煤”,也断不起。数据中心作为云计算的基础设施,和发电厂、自来水厂一样举足轻重。

自然灾害不可抗拒,但除了紧急启动保护措施,数据中心其实在灾害发生前有一整套“容灾备灾”的机制。如何建立这套机制,正是这次暴雨留下的最大教训。

被暴雨冲击的“云”

此次郑州暴雨来的又急又猛。

郑州市气象台数据显示,18日-20日三天降雨量617.1mm。郑州常年平均全年降雨量为640.8mm。这意味着三天下了以往一年的量。

暴雨以及随之而来的内涝直接导致电力设备崩溃了。郑州市区一座110千伏变电站被迫停止运行,部分区域生产生活用电受到影响。通信运营商是重要的受影响对象。郑州暴雨致多处通信网络中断。截至7月21日10时,郑州移动基站停电3563个,基站退服3152个。这还不包括当地的联通和电信。

如此暴雨下,云基础设施也很难独善自身。

事实上,和北京、东部沿海、南部沿海城市相比,位于中部地区的郑州并非云厂商数据中心的集中所在地。阿里云、腾讯云、百度云均未在此建设数据中心,也没有关键节点。

但郑州本地有多家云服务代理商,包括景安网络、海腾数据、亿恩网络、腾佑科技等公司。它们通常提供服务器托管、IDC加速等云计算周边服务。它们在中原地区很重要,甚至被一些三方研究报告称为本地IDC龙头企业。

简单理解,大型云厂商在全国重要区域会建设云计算的“大脑”和“骨架”,但在无法全面覆盖的其他区域,这些代理商则是提供了“血管”或是“毛细血管”的服务。

值得注意的是,他们大多位于郑州高新技术产业开发区,也就是这次暴雨核心影响区域之一。

有消息称,暴雨发生后,海腾数据在其官网挂出了数据中心受到影响的通知。该公司建议用户紧急备份数据,或远程关机以避免数据受损。记者致电海腾数据相关人士得知,断电之后,其柴油发电设备随即上线,但供油量不足,无法覆盖所有服务器。

受影响的还有景安网络,《财经》记者致电景安网络人士得知,其机房位于郑州东部的高新技术产业开发区。20日下午16时,断电导致服务器下线。截至7月21日下午18点,该公司已经通过柴油发电机紧急供电,但服务依旧不稳定。

前述的另一家郑州本地IDC服务商情况类似。这家公司也在郑州高新区。该公司有技术人士证实,其服务也因断电受到冲击。好在公司服务器都在二楼,没有被泡,不会因暴雨而不可挽回。

一位头部云厂商资深技术人士解释说,服务器被浸泡会直接导致服务中断,设备受损。严重情况下,IT设备可能直接报废。其中的数据也会遭遇无可挽回的丢失。

该技术人士认为,通常情况下,云厂商对数据中心的选址、建造都有考虑,容灾备灾技术能力相对较强。数据中心用电会有一套三级保护机制,除了正常供电外还有柴油发电、蓄电池,可以保证全年不间断供电。为避免暴雨、洪灾的影响,服务器通常会放在二楼以上。

不过,这次郑州暴雨强度太大,直接导致郑州本地部分服务商三级保护失效了。

首先是城市大规模、长时间断电。中国电网郑州供电公司此前在面对媒体“停电抢修为何这么久”的疑问时回应,大水浸泡过后的受损电力设备都需要抢修后重新做实验,保证安全的情况下才能送电。云服务商机房里的柴电设备、备用电源在长时间断电的情况下,不敢给所有机房同时开足马力。

另外,部分公司的柴电设备、备用电源均被特大暴雨“一锅端了”。前述郑州本地IDC服务商一位技术人士说,公司柴电设备在户外、备用电源智能撑1小时-2小时。暴雨袭来,一楼被泡,发电机和电源都派不上用场,两个大机房都受到了影响。

其中还包含少部分人为因素。一位资深技术人士告诉《财经》记者,一些严格的做法是,服务器、IDC机房会摆放规则,还会限制服务器的数量、摆放密度,以及备用电源的所在区域。目的就是避免出现“一锅端”现象,但这样成本会高很多。除了电信运营商的大型机房,大部分中小型企业会选择低成本模式。

云计算服务中断往往会连带造成客户损失。当问及客户损失要如何处理时,景安网络相关人士表示,目前已经多次接到相关反馈,公司会予以处理。上述郑州本地IDC服务商技术人士则称,暂时无法预估哪些客户受到了何种程度的冲击,也不知如何赔付。目前只能先考虑恢复服务。

《财经》记者查阅政府采购网、部分企业合同发现,关于服务器托管部分,往往一般会有一项“不可抗力条款”。不可抗力通常指地震、台风、火灾、水灾、战争、罢工以及其他双方共同认同的不能预见、不能避免并不能克服的客观情况。

部分“不可抗力”引发的事故被视为甲乙双方均不用承担责任。但在部分合同中,不可抗力引发的事故有严格的分级指标,而且服务商需要承担不同级别的责任。

7月22日,《财经》记者再次致电景安网络和上述郑州本地IDC服务商。对方回应称电力供应暂时尚未恢复,目前柴电设备处于满负载状态。好在郑州大雨已经暂停,预计22日内可恢复服务。

好的防御机制越来越重要

云计算中心的事故通常是天灾人祸综合因素的结果。

郑州并非全国核心数据中心主要聚集地。此次暴雨虽然受到了一定冲击,好在冲击并未造成重大事故,尚在可接受范围内。

历史上,亚马逊、三星,欧洲最大的云服务和网络托管服务运营商OVH都遭遇过重大事故,甚至部分事故引发了不可挽回的严重后果。

2012年7月,美国东海岸大型雷电风暴导致中部各州断电。亚马逊一数据中心因此暂停服务。这导致Netflix、Instagram、Pinterest以及Tinder等多个美国国民级App瘫痪。

2014年4月,三星在韩国首尔郊区果川的机房发生重大火灾。三星官网因此暂时瘫痪,部分手机用户的服务也受到了影响。

2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾。大火导致了五层高、占地 500 平方米的 SBG2 数据中心被烧毁。这直接引发1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复,其中还包括法国政府的部分数据。

这类重大安全事故在国内目前相对少见,但并不排除未来会出现。随着国内上云速度进一步加快,如何避免重大安全事故,保证基础设施稳定运行将是一个重要核心议题。

此前多家云厂商管理与技术人士曾对《财经》记者表示,数据中心安全保护不可能靠临时抱佛脚解决,全靠形成一整套完整的选址、防护、备灾以及容灾机制。

其中一位腾讯基础架构部人士说,“这套机制就像在一个可能会决堤的河流上提前修起大坝。我们应该靠机制减少抗洪抢险的现象。”

建立选址、备灾、防护体系是为了让数据中心有一套“安全网”。比如,头部云厂商选址时会统筹考虑自然因素。数据中心通常会远离地震、洪水等灾害多发地。不能避免这个问题的话,也有解决措施。比如,在火灾高发地,洪灾高发地都有不同建设方案。

“不同数据中心的备灾措施需要根据当地的自然环境各方面去统筹考虑。”阿里IDC事业部总经理高山渊说,设计备灾措施时,方案如何执行、谁去执行只是基本考虑因素。备用设备的状态切换时间、启动成功率等细致因素都需要一一想到。这都是尽量提高备用设施的启动概率。

容灾则是形成了容错机制。“多点多活”是其中的重要办法。简单说,就是让数据长出“三头六臂”,砍掉一个之后,依然可以正常运转。或是让一个面临重大灾害的人被瞬间传送到其他安全场所。

阿里云数据中心能源与碳管理专家毛宏举向《财经》记者解释,保障数据中心和云服务的可靠性,不仅需要保障硬件,软件层面也要有备份,“相当于云服务的容错机制”。即使在最糟糕的情况下,一处数据中心出现故障,也可以把这部分负载切到其他地方。

一位百度云人士则透露,百度业务是多地域容灾部署(华北/华东/华南三地域),数据在每个地域都有副本,同时还有离线远程备份,能容忍单个地域出现的极端灾害。

也有腾讯基础架构部人士此前对《财经》记者称,腾讯春晚保障团队其实就是在反复练兵。前些年,各个头部互联网公司的“容灾备灾”在春晚红包活动中得到了沉淀。

实战才是检验各个云厂商“容灾备灾”最佳方式。不过,没人会希望这一天真正到来。

相关参考

水箅子(出现特大暴雨,导致雨水灌进地下停车场怎么办?来看这一套应急处置方法)

...翡翠海岸小区开展防汛演练。本次演练分别模拟出现特大暴雨,导致雨水灌进地下停车场的紧急情况,以及附近银鼓路因暴雨导致路面严重积水等2个项目。街道接到“险情”报告后立即启动防汛预案,由交警、执法中队、特保...

柴油发电机应急演练(农发行肥城市支行组织开展计算机系统应急演练)

...导重视,健全组织保障工作本次开展的应急演练涉及:1、机房火灾应急演练;2、机房供配电系统故障应急演练;3、机房配电柜故障应急演练;4、机房空调故障演练;5、机房漏水处置应急演练;6、网络系统故障应急演练;7、

暴雨强度的单位(河南郑州“7·20”特大暴雨灾害调查报告公布)

...悉:日前,国务院常务会议听取了河南郑州“7·20”特大暴雨灾害调查情况的汇报,并审议通过了河南郑州“7·20”特大暴雨灾害调查报告。经国务院调查组调查认定,河南郑州“7·20”特大暴雨灾害是一场因极端暴雨导致严重城...

昆明环保中空板(树干老化中空、树皮破损昆明金兰路64株泡桐被应急清理)

7月2日晚,因暴雨大风天气,昆明市金兰路一株泡桐发生倒伏,造成一辆通行车辆严重损坏,另有一株泡桐严重倾斜,压在高压线上,存在较大安全隐患。昆明市西山区城市管理局现场巡查人员及时进行了处置。目前,64株存隐...

河北张家口离秦皇岛多远(大雨+暴雨+大暴雨河北多预警齐发应急响应启动……)

...也很强劲(中央气象台)一起来看天气预报河北继续发布暴雨黄色预警信号河北省气象台2021年07月29日11时发布继续发布暴雨黄色预警信号:预计今天下午到30日,衡水东部、沧州、廊坊、唐山、秦皇岛、承德东部有大雨到暴雨(...

河北张家口离秦皇岛多远(大雨+暴雨+大暴雨河北多预警齐发应急响应启动……)

...也很强劲(中央气象台)一起来看天气预报河北继续发布暴雨黄色预警信号河北省气象台2021年07月29日11时发布继续发布暴雨黄色预警信号:预计今天下午到30日,衡水东部、沧州、廊坊、唐山、秦皇岛、承德东部有大雨到暴雨(...

温湿度报警器(什么是机房温湿度传感器?)

机房温湿度是任何数据中心环境中最重要的指标之一。机房的主要热量来自于计算机设备的散热、太阳辐射热、人工照明、人体体热等,其中计算机设备运行中产生的热量非常大,是机房中的主要热源。机房温度过高过低都不利...

温湿度报警器(什么是机房温湿度传感器?)

机房温湿度是任何数据中心环境中最重要的指标之一。机房的主要热量来自于计算机设备的散热、太阳辐射热、人工照明、人体体热等,其中计算机设备运行中产生的热量非常大,是机房中的主要热源。机房温度过高过低都不利...

搬迁设备注册(关于变更特种设备作业人员考试报名地点的通知)

广大考生:因兰州市特种设备应急处置中心办公地点搬迁至广武大厦(人大培训中心,金昌北路75号)13楼,从即日起申请特种设备作业人员考试报名的考生可前往新办公地点办理报名等事宜。联系电话:5116601特此通知兰州市特...

樟木头振通汽车站到厚街(东莞樟木头:开展春运客运站场突发情况应急处置演练)

...13)日,东莞市樟木头镇开展2021年春运客运站场突发情况应急处置演练,提高各部门应急处置能力,为春运期间突发情况的应急处置工作提供保障。此次演练旨在提升各部门相互协调和应对效率,锻炼突发情况应急处置能力,保...