楠木軒

為什麼資料中心需要更好的預警系統降低熱失控風險

由 豆更生 釋出於 科技

熱失控問題在很短的時間就能產生,即使是經驗豐富的資料中心運營團隊也不會掉以輕心。冷卻裝置故障很容易升級為熱失控情況,使全天候執行的資料中心面臨停機風險。

調查發現,其中一個主要原因是現有的解決方案(如BMS)在及時發現熱失控方面不是很有效。由於沒有嚴重違反服務等級協議(SLA)或發生故障,冷卻散熱和氣流問題通常不會過早地觸發建築管理系統(BMS)警報。但是一旦觸發,則為時已晚,其結果是散熱問題可能會迅速升級,在資料中心運營團隊解決問題之前,將會產生影響整體效能的區域性資料中心熱點。

不要等待警報,需要採取更主動的方法

組織需要預防潛在熱失控故障,透過人工智慧和機器學習技術,現在可以採用與BMS系統並行工作的軟體解決方案,以識別和管理來自資料中心的熱失控風險。

藉助這種實時熱監控技術,可以跟蹤冷卻輸出並提前識別出效能不佳的冷卻系統,以便及時進行改進。在這裡,資料中心機架和精密空調監控對於發現典型的冷卻系統和BMS系統無法發現或隱藏的但易於修復的冷卻和氣流問題至關重要。

A公司開發了資料中心的關鍵監視系統,現在能夠完成對關鍵基礎設施的遠端熱失控風險預測分析。在最近的一個示例中,關鍵監視系統的軟體和分析功能用於遠端識別異常熱失控行為,遠端診斷問題並建議如何減輕熱失控影響。所有這些都是在BMS系統發現問題之前完成的。

A公司釋出的影片演示了基於預測性分析的方法如何為資料中心設定預防故障所需的預警功能。在這一示例中,由於精密空調發生故障,具有正常和穩定的冷卻負荷曲線的資料中心的溫度很快就變得不穩定。其時間軸如下:

•軟體分析解決方案利用精密空調中的EkkoAir冷卻負荷感測器的效能資料來識別精密空調的異常行為。

•軟體分析解決方案可以識別單個冷卻效果不佳的精密空調。

•如果精密空調出現問題,軟體分析解決方案提供了局部熱點的預警。

•軟體分析解決方案還顯示,其他精密空調雖然仍在執行,但無法消除熱點。

•軟體分析解決方案建議關閉發生故障的精密空調,​以消除再迴圈的熱空氣。一旦採取行動,熱點問題立即得到解決。

•調查並解決了精密空調問題,恢復正常的冷卻執行,並透過軟體分析解決方案進行了確認。

在這個過程中,現有的BMS在任何時候都不會產生警報,因為沒有特定的元件故障或警報閾值被觸發。這個例子顯示了分析解決方案的早期風險檢測分析功能,如何能夠在最終失效之前識別和診斷效能不佳的冷卻裝置,從而消除潛在的熱失控風險,並及時進行維修。它還說明了BMS系統缺乏警報生成,這意味著如果沒有額外的預測分析,資料中心團隊將不會意識到出現故障或查找出故障位置。透過對資料中心的整體觀察,關鍵分析軟體能夠捕捉到細微的變化,例如設定值的變化、閥門卡住或格柵移動等,這些變化可能會導致更廣泛的熱失控問題。

熱失控之前的預警

傳統的BMS方法僅在系統出現故障或超出閾值時才生成警報,A公司的高粒度感測和關鍵實時演算法相結合,可以在潛在裝置出現故障之前先對其進行突出顯示,以免影響資料中心服務的可用性。

只有從資料中心運營中消除100%的熱失控風險,併為後續的冷卻最佳化專案提供穩定的平臺,資料中心管理人員才能真正實現熱失控管理。