
以数据中心为代表的算力基础设施作为支撑数字经济发展的重要资源配资门开户官网,已经成为赋能传统产业数字化转型的关键力量,各类事故产生的影响是巨大的。
在这其中,因制冷系统故障而导致的事故并不在少数,影响通常较大。因此,有必要对近几年此类事故进行梳理分析和总结改进,做到防患于未然。
一、近几年数据中心主要制冷事故
每天每个数据中心都可能发现和处置一些制冷系统的隐患甚至故障,但由于系统冗余度的存在以及应急处置的及时,这些故障大部分并不会转化为事故,不会直接影响业务系统。
但是,仍然会存在一些突发、重大、非常见类故障,可能由于发现不及时、处置不当等原因导致制冷系统失效,从而引发重大责任事故。
近几年国内外数据中心主要制冷事故统计如下
图片
这些事故基本都造成了数据中心服务的中断,少则几个小时,多则几天,也引发媒体的广泛报道,给行业造成了一定的负面影响。
二、数据中心制冷系统事故的特点
制冷系统相对较为复杂,运维人员不仅要关注设备运行状态,还需要关注控制系统、水系统、温场分布、压力、流量等运行数据。在实际运营中,任何一方面出现问题,都可能引发事故。
综合来看,制冷系统事故具有以下几个特点:
1.制冷系统事故影响可能更大
制冷系统事故不仅会影响业务,如果处置不当,还可能引发客户设备损坏、数据丢失甚至起火等事件,扩大影响范围。
制冷系统故障发生时,并不像电力系统故障一样瞬间显现出来,运维人员可能因此存在一定侥幸心理,以为能通过应急进行处理,没有及时告知客户响应人员。客户响应人员也可能由于担心客户追责等原因,没有及时通知客户对服务器断电和对业务系统切换。
缺少制冷,机房温度将呈指数上升,等运维人员发现无法控制时为时已晚。现场处置不当,还会引发服务器快速升温,可能导致服务器硬件损坏、电源线烧毁甚至起火等事件,这在高密度机柜中并不少见。
图片
案例:2022年12月香港电讯盈科机房,机房冷却系统失效,不仅造成业务中断,还由于机房温度达到临界值触发消防系统喷淋,导致电源柜和多列机柜进水,部分机器硬件损坏。
2.制冷系统事故恢复时间更长
如果只是单个设备故障,通过主备切换就可以快速应急处置。如果是水系统的流量、压力故障或者控制系统故障,很可能无法立刻解决。
控制类故障,涉及到控制系统、逻辑关系、控制节点、手动自动等多方面协同问题。部分故障发生后,甚至需要将所有节点的自动控制切换为手动控制模式,再逐个节点启动和并网。
水系统故障,可能更麻烦。如果是冷水泄漏,不仅需要修补故障点、管道排气、管道补水和控制水温,还需要综合流量和压力的平衡,短时间内很难完全恢复。
案例:2022年12月香港电讯盈科机房,机房冷却系统缺水进气形成气阻,影响水路循环导致4台主冷机服务异常,启动4台备用冷机时因主备共用的水路循环系统气阻导致启动失败。补水后,又因机房冷却系统的群控逻辑,无法单台独立启动冷机,需要手工修改冷机配置,将冷机从群控调整为独立运行后才彻底解决。
整个处理过程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟。
3.制冷系统复杂度越高隐患越多
制冷专业是数据中心最复杂的一个专业,架构也最为复杂。不仅包含冷却、冷冻、末端、蓄冷和水等多套系统,每套系统又会根据需求配置成2N、N+1、N+X、N等不同模式,还需要结合BA、动环、群控和自控等辅助控制系统动态调控,导致整个系统复杂度越来越高。
例如,制冷系统中冷却技术的自然冷却技术就有如下多种类别。
图片
制冷系统-冷却技术-自然冷却技术分类
很多地区为了追求节能,通常还会设置2套冷却系统,结合天气情况进行切换。这种高复杂度和多系统并存,不仅会存在不同硬件厂家间的接口对接隐患,也会存在不同系统间的控制逻辑隐患。
一旦出现故障,需要协同判断的因素越来越多,需要人员专业能力越来越高,判断和处理时长必然会相应增加。
案例:2023年3月广州某电信数据中心,BA系统故障导致冷冻水阀门“关-合”误动作引发冷水流失,造成全部主机停机,据说与BA和蓄冷罐联动有关。事件发生后,现场通过关闭误动作阀门、管路气阻疏通、紧急多点补水、甚至敷设冰块等操作应急处理,尽量降低机房温度,但依然造成重大事故。
4.制冷系统事故具有一定隐蔽性
数据中心水系统等管路的泄露,通常在监控端显现时,可能已经发生了一段时间。特别是部分数据中心对冷冻站的管路采取了彩壳处理,这种看似高大上的方式,实际不仅影响对初期隐患的发现,也影响对泄漏点的快速准确判断,增加了隐蔽性和判断难度。
图片
数据中心冷冻站彩壳
案例:2019年,某数据中心由于主管管材材质不合规,焊接工艺存在问题,并且没有采用完善的防腐措施,运营中出现腐蚀引发冷冻水泄漏。处理过程中,彩壳影响了对故障点的查找和判断,没有第一时间进行处置,从而影响业务系统。
5.制冷系统事故具有一定延迟性
制冷系统故障具有突发性,但由于整个系统通常会有一定的冷量余量,不会立刻对机房温度产生影响,事故的显现呈现一定延迟性。
监控人员如果对系统架构不够熟悉,对各系统运行参数不够熟悉,很可能无法通过运行数据和性能数据在第一时间发现和确定故障,可能需要在性能劣化到产生告警时才注意到故障,因此错过了最佳的应急时间。
例如,冷冻水的漏水、定压补水等故障,很可能需要机房温升才会发现,这种延迟性是非常致命的。
图片
公开的实测数据显示,无论是5kW、7kW还是11kW机柜,虽然冷却失效时间不同,但都会有3-10分钟的缓冲时间,不会立即对服务器运行产生影响,但这种延迟性容易影响正常的处理。
6.自控系统节点隐患不能忽视
各厂家的自控系统虽然已经相对完善,并经过多年运行积累,但在与不同系统、不同设备对接时,仍然可能存在一定隐患或者系统级别的BUG。
验收时,通常不会对控制节点和模块进行全量验证,而会采用按比例抽查的方式,这就可能导致部分节点的控制问题没有被显现出来。平时没有问题,当触发时可能产生故障。更为关键的是,这种故障不容易判断和处理。
因此,在正式接维运营前,全量节点控制逻辑、关键阀门和设备控制互锁保护、水系统和压力系统门限值设定等功能检测,以及接维后每年的例行维护变的非常重要。
案例:2020年3月,微软East US楼宇自动化控制系统功能失灵导致一个数据中心多个机房的温度急剧上升,从而影响了存储、计算、网络及其他相关服务。虽然冷却系统拥有N + 1冗余机制,但是自动化控制系统故障导致起冷却作用的空气进量显著减少,故障历时6个小时。
7.缺乏与客户间的有效的联动
数据中心事故之所以会造成较大损失和产生较大影响,有一个很重要原因,就是客户自身的业务系统没有在第一时间实现切换。
虽然客户基本都会搭建两地三中心、双活、多活等架构,但在实际操作中,当数据中心出现事故后,由于过度信任数据中心安全等级和自身应急能力欠缺等原因,很多客户并没有在第一时间有效的组织业务系统的切换,从而影响了连续性。
单一数据中心的事故,并不应该引发业务系统的中断。甚至从某种意义上讲,数据中心只对内部的事故负责,业务没有切换影响正常运行是客户自身的问题。
图片
数据中心事故等级
这里有与客户之间缺乏沟通的因素,有缺乏联动处置的因素,也有客户自身缺少有效预案、缺少实际演练、缺少风险防范措施,以及缺乏有效组织等因素,这些因素混合在一起是导致事故扩大的重要原因。
案例:2023年3月广州电信机房冷却系统事故,腾讯将此次故障判定为公司一级事故,暴露出容灾设计方案和应急预案不完善的隐患,有关业务部门的风险防范意识不到位,并对大量人员进行了降级和免职处罚。唯品会将此次故障判定为P0级故障,属于最高级别的故障,对部分负责人予以免职处理。
三、数据中心制冷事故预防措施
数据中心无法100%避免故障。运营人员只能通过良好的运维尽可能降低故障发生的概率和频次,尽可能减小故障产生的影响,避免其转化为事故,尽可能快的完成应急处理,尽快完成抢通修复。
通过对以上事故的梳理总结,数据中心运营人员除应做好常规工作外,还需要重点做好以下几个方面:
1.要重视验收的重要性
验收是对设计指标和建设结果的一个综合验证,绝不能被忽视和忽略,特别是对复杂度相当高的制冷系统。
很多验收测试的项目具有一定的危险性,在投产后无法带业务开展,因此必须在验收时完成,主要包括:
①冷却塔补水环网测试验证
②冷冻水管网环路测试验证
③冷冻水管路动态平衡验证
④蓄冷罐充冷释冷在线测试
⑤BA系统与蓄冷罐联动测试
⑥BA系统手控自控切换测试
有条件的情况下,不光要做功能性测试,还可以对控制系统的控制逻辑做破坏性测试。比如异常启停、断电恢复、手自切换等等,检验BA系统自身应对故障的能力。
2.要重视经验的重要性
现阶段,制冷系统虽然有AI参与、有多模型参与,但更多是对一些可标准化的情形进行判断和处理。当出现复杂、个性的问题时,经验的重要性就会体现出来 ,并且无法被替代。
经验是对已发生事情的积累,经验越多,看问题就越全面、深刻,判断准确性和处置效率就越高。
家有一老如有一宝,很多数据中心似乎对40+的老人存在偏见。但在数据中心投产初期,这些经验丰富的老人,将是一笔巨大的财富,他们可能经历过很多故障、做过很多应急,能让一个数据中心从投产开始就很好的规避这些风险。
还要注意一点,不要过度信任设计单位和建设单位,要信任自己的运维人员,在运营过程中遇到的设计和建设问题比比皆是。
3.要时刻关注性能数据的变化
数据中心各个生产班组,每天都在进行巡检、巡查,抄录各种运行数据和性能数据,但更多只是关注这些数据有没有在正常的范围内,而没有去关注这些数据的变化情况。
图片
以机房冷通道温度为例,如果连续三次性能数据显示温度为20℃、21℃、22℃,看似都在正常范围内,但这种升温的趋势应该被关注。运维人员很有必要对系统或者现场进行检查,判断是否有异常情况发生。
这种温升虽然大概率不会是系统故障,但是对性能数据变化的监测就像火灾监控系统中的极早期系统一样,是对故障的早期预警,不仅能降低故障发生的概率,增加故障处置的时间,更能有效的控制故障转化为事故。
4.要按照最小应急原则配置人员
2024年8月微软澳大利亚东区Azure制冷事故告诉我们,减少人员配置可以满足日常工作,但是需要应急处置时可能会出现人手不足的问题。
数据中心在规划人员配置时,最好要按最大应急事件发生时,所需要的最小人员数量进行匹配,确保可以满足所有应急场景。
此次故障中,微软列举了多项缓解措施,其中包括在数据中心增加技术人员配置,夜班团队临时从三名技术人员增加到七名。
合理配置运维人员有符合标准规范、匹配最小应急和实现最大复用3个基本原则,详细可以参考《降本增效的大环境下,数据中心应该如何合理的配置运维人员》一文。
图片
5.要时刻保持应急状态
除了要做好应急预案、应急演练、应急队伍和应急物资等几个常规方面外,还要重点做好应急供冷的准备。
现阶段,常规的应急供冷主要包括蓄冷罐供冷、干冰供冷、冰块供冷和风扇通风等几种方式,相关注意事项如下:
图片
①蓄冷罐供冷:比较常见,但需要确保释冷过程中流量的平衡,以及配套EPS蓄电池的可用性。
②干冰应急制冷:干冰属于危险品,在存储和使用上要特别注意。干冰在降温过程中会产生二氧化碳,在使用时一定要确保机房与外部通风。
数据机房气流实际为内循环,新风系统换气量并不大。在干冰制冷时,需要通过增加工业风扇等方式加大与外界的空气流通,以降低机房内二氧化碳浓度,保证人身安全。
另外,干冰温度极低,人体在接触干冰时必须使用防冻手套,如果直接用手接触干冰,很可能会因低温而导致冻伤。
③冰块应急供冷:冰块一直被作为数据中心重要的应急冷源,近几次事故中也有用到。
但冰块换热效率不高,对高密度机柜来说几乎没有作用。释冷过程还会产生一定量的水,要特别关注湿度的变化、做好防水,避免影响IT系统安全,引起事故的扩大。
6.要与客户建立快速沟通渠道
一方面,要与客户充分信任,并建立快速沟通渠道。当制冷系统出现故障时,不要害怕可能引发的SLA考核索赔等,应该第一时间告知客户,让客户提前做好准备,在需要时能够快速断电和业务切换。要知道这点考核与客户业务切换不及时引发的事故相比,微不足道。
另一方面,要协助客户建立自身的预案并协同开展演练,确保第一时间能完成业务切换。
业务切换成功,数据中心就有解释的余地,追责可能也会变小。业务切换失败,所有的责任必然会落到数据中心,所以不要觉得客户业务系统的预案与数据中心无关。
近几年,随着规模化的建设转向规模化的运营,全球数据中心的火灾、电气、制冷和自然灾害等之前认为小概率的事件都已经在大概率的发生。
整个行业要从每一起事故中吸取教训,认真比对分析,事前预防远比事中应急和事后复盘更加重要配资门开户官网,成功的秘诀往往隐藏在周密的准备之中。
END 本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。启泰网配资提示:文章来自网络,不代表本站观点。