為什麼數據中心需要更好的預警系統降低熱失控風險

熱失控問題在很短的時間就能產生,即使是經驗豐富的數據中心運營團隊也不會掉以輕心。冷卻設備故障很容易升級為熱失控情況,使全天候運行的數據中心面臨停機風險。

調查發現,其中一個主要原因是現有的解決方案(如BMS)在及時發現熱失控方面不是很有效。由於沒有嚴重違反服務等級協議(SLA)或發生故障,冷卻散熱和氣流問題通常不會過早地觸發建築管理系統(BMS)警報。但是一旦觸發,則為時已晚,其結果是散熱問題可能會迅速升級,在數據中心運營團隊解決問題之前,將會產生影響整體性能的局部數據中心熱點。

不要等待警報,需要採取更主動的方法

組織需要預防潛在熱失控故障,通過人工智能和機器學習技術,現在可以採用與BMS系統並行工作的軟件解決方案,以識別和管理來自數據中心的熱失控風險。

藉助這種實時熱監控技術,可以跟蹤冷卻輸出並提前識別出性能不佳的冷卻系統,以便及時進行改進。在這裏,數據中心機架和精密空調監控對於發現典型的冷卻系統和BMS系統無法發現或隱藏的但易於修復的冷卻和氣流問題至關重要。

A公司開發了數據中心的關鍵監視系統,現在能夠完成對關鍵基礎設施的遠程熱失控風險預測分析。在最近的一個示例中,關鍵監視系統的軟件和分析功能用於遠程識別異常熱失控行為,遠程診斷問題並建議如何減輕熱失控影響。所有這些都是在BMS系統發現問題之前完成的。

A公司發佈的視頻演示了基於預測性分析的方法如何為數據中心設置預防故障所需的預警功能。在這一示例中,由於精密空調發生故障,具有正常和穩定的冷卻負荷曲線的數據中心的温度很快就變得不穩定。其時間軸如下:

•軟件分析解決方案利用精密空調中的EkkoAir冷卻負荷傳感器的性能數據來識別精密空調的異常行為。

•軟件分析解決方案可以識別單個冷卻效果不佳的精密空調。

•如果精密空調出現問題,軟件分析解決方案提供了局部熱點的預警。

•軟件分析解決方案還顯示,其他精密空調雖然仍在運行,但無法消除熱點。

•軟件分析解決方案建議關閉發生故障的精密空調,​以消除再循環的熱空氣。一旦採取行動,熱點問題立即得到解決。

•調查並解決了精密空調問題,恢復正常的冷卻運行,並通過軟件分析解決方案進行了確認。

在這個過程中,現有的BMS在任何時候都不會產生警報,因為沒有特定的組件故障或警報閾值被觸發。這個例子顯示了分析解決方案的早期風險檢測分析功能,如何能夠在最終失效之前識別和診斷性能不佳的冷卻設備,從而消除潛在的熱失控風險,並及時進行維修。它還説明了BMS系統缺乏警報生成,這意味着如果沒有額外的預測分析,數據中心團隊將不會意識到出現故障或查找出故障位置。通過對數據中心的整體觀察,關鍵分析軟件能夠捕捉到細微的變化,例如設定值的變化、閥門卡住或格柵移動等,這些變化可能會導致更廣泛的熱失控問題。

熱失控之前的預警

傳統的BMS方法僅在系統出現故障或超出閾值時才生成警報,A公司的高粒度感測和關鍵實時算法相結合,可以在潛在設備出現故障之前先對其進行突出顯示,以免影響數據中心服務的可用性。

只有從數據中心運營中消除100%的熱失控風險,併為後續的冷卻優化項目提供穩定的平台,數據中心管理人員才能真正實現熱失控管理。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1308 字。

轉載請註明: 為什麼數據中心需要更好的預警系統降低熱失控風險 - 楠木軒